硬件可靠性测试方法详解
以行业标准或者国家标准为基础的可靠性测试。比如电磁兼容试验、气候类环境试验、机械类环境试验和安规试验等。
企业自身根据其产品特点和对质量的认识所开发的测试项目。比如一些故障模拟测试、电压拉偏测试、快速上下电测试等。
下面分别介绍这两类可靠性测试。
1 基于行业标准、国家标准的可靠性测试方法
产品在生命周期内必然承受很多外界应力,常见的应力有业务负荷、温度、湿度、粉尘、气压、机械应力等。各种行业标准、国家标准制定者给出了某类产品在何种应用环境下会存在多大的应力等级,而标准使用者要根据产品的应用环境和对质量的要求选定相应的测试条件即应力等级,这个选定的应力等级实质上就是产品测试规格。
在产品的测试阶段,我们必须在实验室环境下对足够的测试样本一一施加相应的应力类型和应力等级,考察产品的工作稳定性。对于通信设备而言,常见的测试项目至少包括电磁兼容试验、安规试验、气候类环境试验和机械环境试验,而上述四类测试项目还包含很多测试子项,比如气候类环境试验还包括高温工作试验、低温工作试验、湿热试验、温度循环试验等。此类测试项目还有很多,这里就不做详细介绍。总的而言,所有的测试项目都属于规格符合性测试(即PASS或者FAIL测试),试验的目的都是模拟产品在生命周期内承受应力类型和应力等级,考察其工作稳定性。
2 企业设计的可靠性测试方法
由于网络产品的功能千差万别,应用场合可能是各种各样的,而与可靠性测试相关的行业标准、国家标准,一般情况下只给出了某类产品的测试应力条件,并没有指明被测设备在何种工作状态或配置组合下接受测试,因此在测试设计时可能会遗漏某些测试组合。比如机框式产品,线卡种类、线卡安装位置、报文类型、系统电源配置均可灵活搭配,这涉及到的测试组合会较多,这测试组合中必然会存在比较极端的测试组合。再如验证该机框的系统散热性能,最差的测试组合是在散热条件机框上满配最大功率的线卡板;如果考虑其某线卡板低温工作性能,比较极端的组合时是在散热条件最好的机框上配置最少的单板且配置的单板功耗最小,并且把单板放置在散热最好的槽位上。
总之,在做测试设计时,需要跳出传统测试规格和测试标准的限制,以产品应用的角度进行测试设计,保证产品的典型应用组合、满配置组合或者极端测试组合下的每一个硬件特性、硬件功能都充分暴露在各种测试应力下,这个环节的测试保证了,产品的可靠性才得到保证。
以下举两个例子来说明如何根据产品特点设计出可靠性测试方法。
2.1 实例一:包处理器外挂缓存(Buffer)的并行总线测试
为了应对网络的突发流量和进行流量管理,网络设备内部的包处理器通常都外挂了各种随机访问存储器(即RAM)用来缓存包。由于包处理和RAM之间通过高速并行总线互连,一般该并行总线的工作时钟频率可能高达800Mhz,并且信号数量众多,拓扑结构复杂,在产品器件密度越来越高的情况下,产品很可能遇到串扰、开关同步噪音(SSN)等严重的信号质量问题,针对上述可能遇到的问题,我们需进行仔细的业务设计,让相应硬件电路的充分暴露在不利的物理条件下,看其工作是否稳定。
串扰,简单的来说是一种干扰,由于ASIC内部、外部走线的原因,一根信号线上的跳动会对其他信号产生不期望的电压噪声干扰。为了提高电路工作速率和减少低功耗,信号的幅度往往很低,一个很小的信号干扰可能导致数字0或者1电平识别错误,这会对系统的可靠性带来很大影响。在测试设计时,需要对被测设备施加一种特殊的业务负荷,让被测试总线出现大量的特定的信号跳变,即让总线暴露在尽可能大的串扰条件下,并用示波器观察个总线信号质量是否可接受、监控业务是否正常。以16位并行总线为例,为了将这种串扰影响极端化,设计测试报文时将16根信号中有15根线(即攻击信号线Agressor)的跳变方向一致,即15根信号线都同时从0跳变到1,同时让另一根被干扰的信号线(即Victim)从1下跳到0,让16根线都要遍历这个情况。
评论