3.2 可靠性指标
可靠性指标是对应可靠性参数要求的量值,一般情况下,产品的使用可靠性指标略低于产品的合同指标。GJB 1909《装备可靠性维修性参数选择和指标确定要求》中,将指标分为最低要求和希望达到的要求,即使用指标的最低要求值称为“门限值”,希望达到的要求值成为“目标值”,合同指标的最低要求值称为“最低可接受值”,希望达到的要求值称为“规定值”。军用电子元器件标准和规范中规定的可靠性保证要求有两种表征方式,即失效率等级和产品保证等级。前者用于大多数(并非全部)电子元件可靠性水平的评定,后者则用来评价电子器件(包括部分电子元件)的可靠性保证水平。产品保证等级与失效率等级表征方式有较大不同,其一是产品保证等级没有直观的量化数值,其二是不同产品保证等级有不同的保证要求,采用产品保证等级表征可靠性水平的产品最典型的是半导体器件,在质量等级章节将有描述。此外,另一个表征电子产品可靠性的物理量是寿命。由于可靠性是一种统计概念,只有在明确了某一批产品的失效率后,才能得到表征其可靠性的若干寿命特征量,如平均寿命、可靠寿命、中位寿命、特征寿命等。
3.2.1 失效分布函数
人们总是希望能用一个单一的数学模型来表示电子产品在整个寿命周期内的失效情况,但实际上,电子产品的失效通常呈现早期失效期、偶然失效期和耗损失效期三个阶段,目前尚难以用一个函数来表示产品寿命的这三个阶段。下面介绍几种常见的表示电子产品失效分布的函数[4]。
1.指数分布
指数分布的主要特点是失效率为一个常数。而电子产品在偶然失效期,其失效率接近为一个常数,因此指数分布可以用来表示大部分电子元器件的失效率,由以下函数来表示:
2.正态分布
正态分布的主要特点是能反映出产品失效模式的多样性和失效机理的复杂性,其表征函数为
式中,μ、σ为正态分布的两个参量;μ为正态分布均值,反映正态分布曲线的位置;σ为正态分布标准差,反映正态分布的分散程度。
3.韦布尔分布
韦布尔分布在半导体器件、电子元器件、电子组件的失效分布方面得到广泛应用。特别是焊点的失效,基本服从韦布尔分布,其函数表达式为
式中,m为形状参数;γ为位置参数;t0为尺度参数。形状参数m直接影响失效密度分布函数的几何形状。当m<1时,曲线随时间单调下降,类似于早期失效期;当m=1时,曲线随时间呈恒定值,类似于偶然失效期;当m>1时,曲线随时间呈上升趋势,类似于产品的耗损失效期。位置参数γ决定了曲线在t轴上的起点,反映了产品开始失效的时间。尺度参数t0决定着曲线的陡峭度,也反映着器件寿命的长短,t0越大,寿命越长。
3.2.2 失效率
失效率是指工作到某一时刻尚未失效的产品,在该时刻后,单位时间内发生失效的概率,一般记为λ,它也是时间t的函数,故也记为λ(t),称为失效率函数,有时也称故障率函数或风险函数,是表征电子元器件的可靠性数量的重要标志。在实际工作中,人们最关心的是在t时刻还在正常工作的产品中,在t时刻后的Δt时间间隔内(t+Δt)还有多少百分比的产品失效。所以λ(t)并不表示平均失效率,其瞬时失效率数学表达式为[5]
于是
失效率是量化表征产品可靠性水平的一种特征数,在以其为可靠性表征方式的标准和规范中规定有关从10-5/h到10-8/h的四个等级。需要注意的是只有10-5/h才做定级鉴定,高于它的等级则利用已鉴定定级的10-5/h等级后的延长试验和维持试验数据予以确定。无论等级高低,可靠性保证体系方面的要求(指可靠性保证大纲标准中统一规定并为产品规范所具体明确的要求)都是统一的。这种表征方式主要用于电容器、电阻器及继电器等电子元件的可靠性要求及其评价方面。
我国于1979年发布了国家标准GB/T 1772—79《电子元器件失效率试验方法》[6],对有可靠性指标的军用元件,规定了失效率等级,该国标是参照美军标MIL-STD-690B(1968)而制定的,一直沿用到20世纪90年代初期。1996年发布了国家军用标准GJB 2649—96[7],它是参照美军标MIL-STD-690C(1993)而制定的,今后国内有可靠性指标的贯标元件将主要采用GJB 2649—96。但目前大多数列入合格产品目录(QPL)中有可靠性指标的元件,仍沿用GB/T 1772—79规定的失效率等级,两者的失效率等级代号很容易混淆,现将这两个标准失效率等级的分类及代号等同时列于表3-2,供比较。
表3-2 失效率等级比较表
在表3-2中,GJB 2649—96将失效率等级的范围划分为0.001~1.0,如果失效率等级大于1,则为等级“L”,失效率试验应在规定的时间内用一次抽取的样品进行,试验过程中,当失效数超过允许失效数时,承制方应中止失效率试验,并通知鉴定机构。如果承制方已对失效进行分析,并按照GJB 546A的规定纠正了发生故障的原因,则可以申请利用新的一组样品重新进行鉴定试验。GB/T 1772—79将失效率等级分为七个,规定失效率试验所用的试验样品,应在产品标准规定的额定条件或加速条件下进行,对于六级和低于六级的试验,额定条件下的元件小时数应不少于总元件小时数的1/3;对于高于六级的试验,额定条件下的元件小时数应不少于总元件小时数的1/10。同时,GB/T 1772—79给出了失效率试验的时间,规定定级试验所需的试验时间不少于1000h。
失效率的观测值是在某时刻后单位时间内失效的产品数与工作到该时刻尚未失效的产品数之比,即失效率(或故障率)曲线。失效率(或故障率)曲线反映产品总体寿命期失效率的情况。曲线呈两头高、中间低的形状,有时形象地称之为浴盆曲线。失效率随时间的变化可分为三个阶段:早期失效期,偶然失效期,耗损失效期。浴盆曲线描述产品从投入使用到报废为止的整个寿命周期内,其可靠性的变化的规律。典型的电子产品失效率曲线如图3-1所示。
图3-1 典型的电子产品失效率曲线
早期失效期的特点是失效发生在产品使用的初期,失效率较高,但随着产品工作时间的增加,失效率迅速降低,这一阶段的失效大多是由于设计、原材料和制造过程中的缺陷造成的。通过可靠性设计、加强生产过程的质量控制可减少这一时期的失效。同时,为了缩短这一阶段的时间,产品应在投入正式运行前先进行试运转或筛选试验,以便及早发现、修正和排除故障,剔除不合格产品。
偶然失效期位于浴盆曲线的最底部,也称随机失效期,其特点是失效率很低且稳定,往往可近似看作常数,产品可靠性指标所描述的就是这个时期,这一时期是产品的良好使用阶段,偶然失效主要是由质量缺陷、材料弱点、环境和使用不当等因素引起的。
耗损失效期的特点是失效率随时间的延长而急速增加,大部分器件相继出现失效,一般出现在产品使用的后期,主要由磨损、疲劳、老化和耗损等原因造成。
但是,并不是所有器件均表现出明显的三个失效阶段。一直以来,人们都在寻找一种能同时描述电子产品三个失效阶段的函数,但是至今尚未成功,目前最多可用一种函数来描述两个阶段。指数分布、正态分布和韦布尔分布是现阶段用得最多的表征电子产品失效率的函数。
在GJB/T 299C《电子设备可靠性预计手册》[8]中,将元器件失效率分为基本失效率和工作失效率,并采用基于失效率统计的失效率预计模型进行可靠性预计。
1.基本失效率
元器件基本失效率是元器件在电应力和温度应力作用下的失效率,是元器件未计其质量等级、环境应力、应用状态、性能额定值和种类、结构等影响因素,仅计温度和电应力比(工作电应力/额定电应力)影响时的失效率。
基本失效率模型λb就是表示温度和电应力对元器件基本失效率影响的关系模型。
2.工作失效率
元器件工作失效率模型一般可表示为反映温度应力、电应力影响的基本失效率与其余影响失效率的质量因子、环境因子、设计、工艺、结构因子及应用因子等一系列修正因子(π系数)的乘积,见式(3-12)。
在GJB/T 299C中,给出了两种电子元器件失效率可靠性预计方法,分别为应力分析可靠性预计法和计数可靠性预计法。其中元器件应力分析可靠性预计法适用于产品已具有详细的元器件清单,并已确定了元器件所承受应力的设备研制阶段,元器件计数可靠性预计法适用于产品研制的初步设计阶段。
大多数元器件的工作失效率λp预计模型都为基本失效率λb与πE、πQ等一系列π系数相连乘的形式。在GJB/T 299C元器件种类条文中提供了λb与温度T、电应力比S的关系模型,并以T-S表和曲线图的形式给出了不同应力下的λb值,以及有关的π系数值。预计时,先分析元器件工作环境温度T和电应力比S,从而通过T-S表或曲线图查得λb值,在此基础上,根据所确定的设备工作环境类别和元器件质量等级等,查相应的π系数值,进而计算元器件的λp以至设备的可靠性预计值。表3-3列出了GJB/T 299C中给出的各类元器件的工作失效率预计模型。
表3-3 各类元器件的工作失效率预计模型
续表
3.通用失效率
通用失效率是指元器件在某一环境类别中,在通用工作环境温度和常用工作应力下失效率的典型值,通常在元器件计数可靠性预计时使用此通用失效率。
3.2.3 可靠度与不可靠度
1.可靠度
产品在规定的条件和规定的时间内,完成规定任务的概率称为产品的可靠度[9]。若以T表示产品的寿命,以t表示规定的时间,则T>t的事件是一随机事件。产品的可靠度是用概率来度量的。这个定义与可靠性定义的差别,在于将“能力”换成了“概率”。产品可靠度的数学表达式为
式中,T为产品寿命;t为规定时间;R(0)=1,R(∞)=0。
式中,N0表示在t=0时,在规定条件下工作的产品数;r(t)表示在0到t时刻内,产品累计故障数。
例如,R(10000)=0.80表示,在10000h内,平均100件产品中大约有80件能完成规定功能,大约有20件产品在10000h内会发生故障。
可靠度一般分为两个层次,即组件可靠度和系统可靠度。在进行可靠度分配时,一般先将系统拆解成若干个组件或零部件,各组件的可靠度决定了系统的可靠度,可靠度可通过载荷和强度的分布计算获得,各组件可靠度Ri与系统可靠度RS的关系一般可用下式表示
式中,i表示组件个数。
2.不可靠度
不可靠度是指产品在规定的条件下,在规定的时间内,产品不能完成规定任务的概率。它也是时间的函数,记作F(t),也称累积失效概率。产品的寿命是一个随机变量,对于给定的时间t,概率论中称随机变量T不超过规定值t的概率为分布函数。产品的不可靠度的数学表达式为
产品可靠度与不可靠度之间的关系可表示为
产品的可靠度具有以下性质[10]:
(1)产品的可靠度随着使用时间的增加而降低;
(2)在t=0时刻,R(0)=1,表示在零时刻产品总能正常工作;
(3)在t趋向于无穷大时,R(t)趋向于0,意味着产品最终总是会全部失效的;
(4)可靠度与不可靠度之和等于1。
3.2.4 寿命
可靠性学科中的产品寿命与公认的寿命是有区别的[2,11],公认的寿命是指自然或不自然消亡;但在可靠性学科中,产品的寿命是指产品从开始工作到发生故障(发生故障的原因可能是一个焊点的脱开或是一个器件的失效),就认为是产品寿命的结束,当故障修复后产品的寿命被重新统计计算。具体来说就是可靠性学科中的产品寿命,不是指产品报废前的工作时间,而是产品发生故障前的一段时间。
1.平均失效前时间
平均失效前时间(MTTF)是表示不可修复产品可靠性的一种基本参数。其度量方法为在规定的条件下和规定的时间内产品寿命单位总数与失效产品总数之比。
设N0个不可修复的产品在同样的条件下进行试验,测得其全部失效时间为t1,t2,…,ti,则其平均失效前时间为
对于不可修复的电子产品,失效时间就是其寿命,因此MTTF即为产品平均寿命。
2.平均失效间隔时间
平均失效间隔时间(MTBF)是表示可修复产品可靠性的一种基本参数。其定义为在规定的条件下和规定的时间内产品的寿命单位总数与故障次数之比。
假设一个可修复产品在使用过程中发生了N0次故障,每次故障修复后又重新投入使用,测得其每次工作持续时间为t1,t2,…,ti,则其平均失效间隔时间为
式中,T为产品总的工作时间;N0为故障总次数。
对于完全修复产品,因修复后的状态与新产品一样,一个产品发生了N0次故障相当于N0个新产品工作到首次故障。
当产品的寿命服从指数分布时,产品的故障率为常数λ,则根据MTBF=1/λ进行MTBF预计,首先可以在产品设计阶段满足客户的制造要求;其次,对生产方而言,可使生产方以最少的费用对预计的产品弱点进行关注和改进。目前主要有三个普遍被接受的标准用来计算MTBF。军用产品和高可靠产品大都采用MIL-STD-217 FN2和GJB 299C两个标准,民用产品则用Bellcore方法来计算MTBF。MIL-STD-217 FN2是以美国可靠性分析中心和罗姆实验室多年开展的工作总结为依据的。GJB 299C是根据国内电子元器件使用失效率数据所总结出的中国自己的预计标准。但是通过预计方法(MIL-STD-217、GJB 299C)得到的MTBF并不是产品真正的MTBF,仅仅是对产品设计和元器件选用达到可靠性要求的期望。因此实验室通过试验得出的MTBF比利用预计方法得出的MTBF具有更高的可信度,但是实验室的可靠性寿命评价试验属于破坏性试验,同时也不可能对所有产品都开展试验统计。因此,实验室获取试验样品的基本方法是从同型号(同批次)有限的一批产品中抽取一部分产品进行试验,抽取的产品在可靠性术语中被称为“样本”,其中每个被抽取的产品被称为“样品”,从概率统计的观点看,显然是抽取的试验样品数量越多越能真实反映该批产品的可靠性水平。
上述三个标准中都有应用于典型电子产品的元器件(如IC、二极管、晶体管、电容器、继电器、开关和连接器等)的失效率模型的内容。这些元器件的失效率都是以从各国和各厂家实际应用中获得的、最适用的数据为依据的,在对产品进行可靠性预计时可以直接查找并使用。军标和Bellcore标准之间虽有几个不同点,但计算的方式基本没有太大的差别,其中较明显的一个不同点是失效率的表示法,MIL-STD-217和GJB 299C中都将失效率表示为失效次数/10-6h,而Bellcore标准中将失效率表示为失效次数/10-9h。此外MIL-STD-217将环境对失效率的影响概括成14种类型,而Bellcore标准将环境对失效率的影响概括成5种类型。但是这些不同点并不影响我们对预计计算方法的掌握和了解。
在预计方法上,针对整机可靠性试验的失效模式多为指数分布的情形,各标准所采用的均是将产品中所有元器件的使用失效率累加后代入MTBF=1/λ公式,求出MTBF。当然,计算时要考虑的失效率修正系数相当复杂,事实上预计的准确度与各种修正系数(如πE环境系数、πQ质量系数、πR电流额定值系数、πA应用系数、πS电压应力系数、πC配置系数等)关系密切,因此预计人员对失效率模型和修正系数的掌握和了解程度是产品准确预计的关键。在国外的文献中曾报道过某产品由不同的人员进行可靠性预计计算,其MTBF值可以有一到数个数量级的差别,可这并不能说明可靠性预计没有价值,反而说明准确预计需要相当有经验的预计人员。纵观目前的预计人员多为可靠性质量管理人员,甚至有些预计人员对产品的工作原理都不明白,元器件的典型失效现象都不清楚,这样计算出的可靠性预计值当然是没有价值的。
对于一批产品来说,MTBF技术指标越高,这批产品的可靠性就越好,出故障的可能性就越低。需要指出的是,“平均失效间隔时间”表示的是一批产品无故障工作时间的平均值,“失效间隔时间”是指一批产品第一次出现故障前的工作时间。以下给出一个具体案例,进一步说明平均无故障工作时间和无故障工作时间的关系[12]。
例:抽取80个样品进行全寿命试验,将失效时间范围和相应的失效数量整理后列于表3-4,图3-2所示的是某批产品的可靠度随时间变化的曲线,估计这批产品的MTBF。
表3-4 产品失效统计表
图3-2 某产品的可靠度随时间变化的曲线
解:试验样品在试验中全部失效,满足全寿命试验。
先求出80个样品的总工作时间T
T=(200×3)+(600×18)+(1000×26)+…+(3000×1)=96000h
再求这批样品的MTBF
MTBF=T/n=96000/80=1200h
答:这批样品的MTBF为1200h。
从中可以看出,当产品的可靠度R=1时的这段时间才是“无故障工作时间”,约200小时,而“平均无故障工作时间”约为1200小时。在这个例子中我们通过图3-2可以看出,失效的分布形态是对数正态分布,图中求出MTBF在1200小时的样品失效数量大于47台,失效比例约为样品总数的60%。
下面给出了一个案例,以进一步了解MTBF与产品失效数量的关系。
例:从一批产品中抽取n=100件样品进行试验,工作10小时的失效数量(r1)为10台,工作20小时的失效数量(r2)为20台,工作30小时的失效数量(r3)为30台,工作40小时的失效数量(r4)为40台,至此所有试验产品全部失效,求该产品的MTBF和相应的失效数?
解:试验样品在试验中全部失效,满足全寿命试验,可代入公式
MTBF=T/n=(nt1+nt2+…+nti)/n
得出
MTBF=(10×10+20×20+30×30+40×40)/100=3000/100=30h
工作到30h时:
r3=10+20+30=60台
答:产品的MTBF为30h,工作到30h时相应的失效数量为60台。
由此可见,这批产品在平均无故障工作时间(MTBF)30h时已有60台失效,无故障工作的产品仅有40台。以上两个例子充分说明了MTBF和产品失效数量的关系,即当一批产品在达到平均无故障工作时间时,约有60%的产品会发生硬件故障。实际上在各种失效分布形态中求出的MTBF,其对应的失效数量约占总数的50%~60%。
3.可靠寿命、中位寿命与特征寿命
一批产品的可靠度R(t)是时间的函数,随着时间的延长,这批产品的可靠度会越来越低。假定开始工作时t=0,可靠度R(0)=1。以后在不同的时刻,产品的可靠度将具有不同的值。在可靠性工作中经常需要知道,对于给定可靠水平r,产品的可靠度下降到r时的时间tr是多少。这个时间tr就称为产品的可靠寿命,用可靠度公式表示为
当产品寿命服从指数分布时,可靠寿命tr与失效率的关系为
当可靠水平r=0.5时,即可靠度为一半时,有R(t0.5)=0.5,此时的产品寿命称为中位寿命,如果产品寿命服从标准正态分布,此时的均值u就是中位寿命,也是MTBT或是平均寿命。如果产品寿命服从对数正态分布,则上述说法不成立。
当可靠水平r=e-1=0.368时,称为特征寿命,这个特征寿命恰好与指数分布的MTBF重合,所以有MTBF=1/λ的简单计算公式,虽然公式简单但符合大部分整机的失效分布形式,因此这个公式在很多计算场合被使用。
可靠寿命是指给定的可靠度所对应的寿命单位。即对于给定的可靠度R,产品工作至可靠度为R的时间,称为可靠度为R的可靠寿命。若以ρr表示可靠寿命,则可从方程式R(ρr)=r中求出ρr,图3-3所示为可靠性寿命曲线[11]。
图3-3 可靠性寿命曲线[11]
3.2.5 电子组件可靠性指标要求
电子组件通常由焊点、PCB和元器件组成,对其可靠性的评价首先需要给出确定的可靠性指标,通常采用的可靠性指标分别为失效率、失效分布函数、可靠度和寿命,寿命指标通常又分为平均无故障工作时间和平均失效前时间。一般而言,焊点的可靠性通常采用寿命指标进行表征,元器件可靠性指标采用失效率指标进行表征,PCB的可靠性一般综合从绝缘性能指标、高温翘曲变形指标、导通性能指标、爆板分层指标等方面进行评价。此外,还会采用温度、电压、功率等耐极限工作条件等参数进一步给定电子组件的可靠性指标要求。
在制定电子组件的可靠性指标时,要考虑并实现以下要求。
1.考虑可靠性指标的先进性
确定的可靠性指标,应能满足客户需求,同时成为促进产品改进、提高产品质量的动力。对于新研制的电子组件或产品,在确定可靠性指标前,应充分解剖、分析原型产品,在此基础上针对薄弱指标进行改进提高。对于在国内尚无原型可供参考的产品,应充分吸取国外类似产品的可靠性工作经验,参考国外同类型产品的可靠性指标。
2.考虑实现指标的可行性
可靠性指标的可行性是指在一定的技术、经费、软/硬件条件和研制周期等约束条件下,实现预计指标的可能程度。在确定指标时,必须考虑经费、时间、技术、条件、资源、国情等背景因素,在需要与可能之间进行权衡,处理好指标的先进性和可行性之间的关系。考虑到产品后续的保障性和维修性,在确定指标可行性时,首先要基于国内现有的工业技术基础水平和零部件加工水平进行评价,如电子装联工艺水平和元器件质量水平等,避免因大批量、多层次依赖国外技术和零部件而影响到组件后续的维修、维护和保障等。
3.考虑指标的全面性
指标的完整性是指要给指标明确的定义和说明,否则就会围绕指标是否达到等产生争议。为了体现和达到指标的完整性,需要明确指标参数的具体定义以及计算、评判方法;明确各项指标的失效判定条件、准则和依据,包括达到指标需要的工作条件和环境条件等,明确指标的验证方法,在研制生产阶段验证,需要明确验证方案和依据的标准、规范等,若采用性能试验和可靠性试验等方法进行验证评估,则应明确试验数据的收集和处理方法等;此外,还需要明确是哪一阶段应达到的技术指标。
4.要实现指标的合理性
指标的合理性是指在制定指标时根据电子组件的特点进行综合考虑、统筹权衡,实现指标间的综合协调。如对于关系人们生命财产安全的电子组件,需要重点考虑其安全性,可以牺牲部分性能指标的先进性以保证产品的安全可靠。主要应当兼顾以下3个方面:
(1)对性能指标,维修性指标,维护、保障要求及环境适应性要求等其他指标进行综合考虑,根据产品使用特点等进行调整、权衡。
(2)指标的制定要综合考虑行业内的技术水平,对于产品构成中技术成熟度较高的元器件,其指标可以定得高点,反之则应定得低一点。
(3)组成组件的元器件之间大多呈串联关系,元器件越多,组件的可靠性越低,因此应考虑组件的复杂度和元器件之间的可靠性关系,根据组件的复杂度和元器件之间的可靠性关系合理确定可靠性指标。