电子微组装可靠性设计(基础篇)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2 可靠性设计技术发展与现状

1.2.1 可靠性设计基本概念

可靠性设计是根据可靠性要求进行优化设计的一个过程,其核心是可靠性分析与可靠性评估,通过产品可靠性要求的转换可获取产品可靠性设计指标,可靠性设计的目的是提高产品的固有可靠性,而制造质量控制只能使产品可靠性尽可能接近固有可靠性。

1.可靠性设计的定义

可靠性设计,是指在产品设计过程中,为满足产品可靠性要求,将产品性能指标和可靠性指标进行综合分析与设计的过程,目的是通过可靠性分析与可靠性评估,从产品结构、材料、工艺、使用条件等方面不断优化可靠性设计方案,消除潜在故障模式,使设计的产品满足预期性能要求和可靠性要求。

产品可靠性要求,包括定量和定性指标要求,它们是产品可靠性设计的依据。其中,系统装备级的可靠性定量指标要求(基本可靠性)有[71]平均失效间隔时间(MTBF)、平均故障间隔飞行时间(MFHBF)、可靠寿命(tr)等;元器件级的可靠性定量指标要求有:失效率(λ)、耗损寿命(twear)、贮存寿命(tstorage)。系统装备级的定性可靠性指标要求有不允许发生致命故障、满足制定的可靠性设计准则[72,73];元器件级的可靠性定性指标要求有满足质量保证等级、必须消除和控制主要失效模式[74]

将产品可靠性要求转换为产品可靠性设计要求,核心是将装备可靠性指标分配给各单元和元器件,将元器件可靠性指标分解为元器件内部各物理结构的失效控制要求,使之成为在设计层面支撑可靠性分析与评估的具有可操作性的设计指标,让产品设计师有针对性、有目标地开展可靠性定性和定量设计。

一旦产品完成了可靠性设计,也就确定了所设计产品的固有可靠性,后续制造产品所进行的工作,如:制造加工、装配、封装等,由于受工艺参数的离散性限至,也只能使产品的可靠性尽可能地接近固有可靠性,而不能期望其超越固有可靠性。

2.可靠性设计基本要求

1)可靠性设计指标

产品可靠性设计的首要任务是确定可靠性设计指标,即将产品可靠性要求转换为产品可靠性设计要求,可以通过可靠性指标分配或可靠性指标分解,获得产品的可靠性设计指标要求。

系统装备级的可靠性设计指标,由产品可靠性指标分配获得,即通过指标分配将整个系统的可靠性要求转换为每个分系统、每个单元、每个元器件的可靠性要求。例如,航空电子设备的可靠性设计要求有三项[72]:表征连续或间断工作××小时的工作寿命,表征工作寿命至少应当有××小时的总工作寿命,表征可靠性的平均失效间隔时间(MTBF)。其中,MTBF指标的分配,以fR1R1,…,Rn)≥R为原则,对系统可靠性进行分配,获得n个分系统的可靠性设计指标要求;再对分系统的可靠性进行分配,获得单元、元器件的可靠度设计指标要求,并可通过计数法进行初步可靠性预计,优化调整各单元、各元器件的可靠性指标。

电子元器件的可靠性设计指标,由产品可靠性指标分解获得,即通过指标分解将元器件的可靠性要求转换为内部各物理结构的退化机理和失效模式的控制要求。例如,半导体晶体管的“耗损寿命”指标,可分解为微电子芯片TDDB、Al_EM退化机理与Au-Al丝键合界面退化机理等多个退化机理的失效时间控制指标,产品最终耗损寿命取决于多机理竞争失效时间;再如,混合集成电路(HIC)的热性能控制指标“所用元器件工作温度不应超出规定的温度上限”,可具体分解为内装硅器件极限温度不超过175℃、长期工作温度按Ⅰ/Ⅱ/Ⅲ级降额温度,阻容元件极限温度不超过125℃、长期工作温度按Ⅰ/Ⅱ/Ⅲ级降额温度,感性元件极限温度不超过200℃、长期工作温度按Ⅰ/Ⅱ/Ⅲ级降额温度。

通常,电子元器件产品的可靠性要求,用失效率λ和寿命t以及环境适应性来表征,将其可靠性设计指标要求分解并转换为元器件可靠性设计指标。可参照四个方面的设计考虑[74]进行可靠性指标分解:

● 元器件的主要性能参数在规定条件下随时间的稳定程度(参数退化模型分析);

● 元器件所能适应的环境应力范围(温度、机械、潮湿、盐雾、辐照、低气压等环境);

● 元器件寿命、失效率或质量等级(耗损寿命、随机失效率、质量保证等级);

● 必须消除或控制的主要失效模式(过应力失效、退化性失效)。

2)可靠性设计基本内容

产品可靠性设计的基本内容包括四个方面[74]:性能可靠性设计、结构可靠性设计、工艺可靠性设计和可靠性评价试验设计。涵盖了产品结构、材料、工艺的可靠性设计,以及考核产品可靠性满足质量要求的筛选与评价试验设计。

性能可靠性设计:针对产品性能参数在规定环境应力范围随时间变化的稳定性要求,所开展的可靠性设计内容。可以通过降低复杂度、功耗,考虑性能容错、裕度、散热、冗余等措施,实施性能可靠性设计。

结构可靠性设计:针对产品各部分连接、组装及整体结构的环境适应性和可靠性要求,所开展的结构和材料优选设计。可以通过仿真模拟和电、热、机械等物理性能测试验证手段,实施结构可靠性设计。

工艺可靠性设计:针对产品在制造过程中工艺参数的波动性和产品性能参数的离散性控制要求,所开展的工艺质量稳定性设计。可以通过健壮设计分析,量化控制关键工艺点的控制参数和范围,实施工艺可靠性设计,有效减少工艺参数偏差对产品性能参数稳定性的影响。

可靠性评价试验设计:针对产品设计鉴定的可靠性评价要求,设计评价试验方案,包括对试验应力、失效判据、样品数量、试验时间及测量周期的设计等。结合产品性能、结构、工艺的特点和可靠性要求,实施可靠性评价试验设计。

3)装备可靠性设计与分析

产品可靠性设计强调的是设计过程中的可靠性分析和可靠性评估,通过全面的可靠性分析和可靠性评估,确定所设计的产品是否满足可靠性设计指标要求,发现薄弱环节并优化设计。标准GJB 450A—2004《装备可靠性工作通用要求》,工作项目300系列,针对装备产品给出了可靠性设计与分析的13个工作项目:

● 建立可靠性模型:用于定量分配、预计和评价产品的可靠性;

● 可靠性分配:将产品的可靠性定量要求分配到规定的产品层次;

● 可靠性预计:预计产品的基本可靠性和任务可靠性,评价设计方案是否满足可靠性要求;

● 失效模式、影响及危害性分析(FMECA):找出潜在的薄弱元器件和零部件;

● 故障树分析(FTA):寻找导致装备发生某种故障事件的所有可能的潜在原因事件;

● 潜在分析:针对电路的潜在通路分析(SCA),针对液/气管路的潜在通路分析;

● 电路容差分析(CTA):分析电路组成部分在规定温度范围内的参数偏差对电路性能容错的影响;

● 制定可靠性设计准则:根据产品的可靠性要求,制定专用的可靠性设计准则并实施;

● 元器件、零部件和原材料选择与控制:根据产品特点,制定选择与控制要求;

● 确定可靠性关键产品:基于FMECA、FTA方法,确定和控制对装备可靠性产生影响的关键元器件等;

● 确定功能测试、包装、储存、装卸、运输和维修对产品可靠性的影响:通过测试与分析,评估功能测试对产品可靠性的影响及影响程度、储存时间及储存条件变化等给产品可靠性带来的影响;

● 有限元分析(FEA):当产品设计基本确定时,采用FEA方法进行机械强度、热特性分析,发现问题;

● 耐久性分析:通过评价产品载荷应力、失效机理,对关键或“短板寿命”零部件进行耗损寿命分析,确定耗损故障根本原因并采取纠正措施。

4)电子元器件可靠性设计与分析

为使设计的元器件满足规定的可靠性指标要求,需要根据电子元器件性能和结构特点,从以下六个方面[74]考虑可靠性设计与分析工作。

(1)耐环境设计与分析。电子元器件在整机装备的工作过程中,可能遇到温度、机械、潮湿、电磁场、盐雾、辐照、低气压等不同类型的环境应力或多种环境应力耦合的作用。不同的环境应力导致不同的失效问题,如:高温、温变应力及其应力耦合,导致焊点或焊接界面IMC生长、焊料蠕变疲劳退化,而机械冲击可能导致金属气密封装盖板塌陷。设计时应预先了解所设计元器件在整机中可能遇到的环境应力类型,分析元器件在整机条件下对环境应力的响应水平,并建立应力响应模型(热阻模型、谐响应模型等),分析其对元器件性能、可靠性的影响程度,按最坏情况采取设计对策,使元器件耐环境应力强度(破坏阈值)大于最坏情况下的应力响应水平。

(2)稳定性设计与分析。分析同类元器件产品性能参数在规定条件下随时间变化的规律,针对元器件性能参数产生蠕变、漂移、突变、瞬时变化或间歇变化的根本原因,采取相应的设计措施,使元器件性能参数稳定在规定的范围内。

(3)热设计与分析。分析温度变化对所设计元器件可靠性的影响,以及元器件工作时导致温升的热量来源,包括环境温度变化、自身功耗热量和内部多热源热耦合导致的温升,针对导致元器件温升的根本原因,通过降低功耗、热补偿等措施,选用合适的、耐热的且热稳定性好的封装材料,利用热传导、热对流和热辐射技术增强散热能力,使额定工作状态下的元件热点温度、器件结温不超过允许的温度上限。

(4)长寿命设计与分析。分析影响元器件耗损寿命的退化机理,如:半导体器件的TDDB、EM等,液体钽电解电容器的电解液蒸发,金属封装外壳腐蚀,焊点疲劳等,要采取延缓退化、延长耗损失效时间的设计措施,使元器件退化机理的失效时间大于规定的耗损寿命要求。

(5)失效模式分析与控制。收集同类元器件的失效模式,分析其失效机理,根据失效频次排出失效模式主次顺序。可以应用元器件FEMA及FTA方法,分析主要失效模式的失效机理,确定失效机理过程的长期作用应力或短时间随机过应力及其来源,从产品设计、工艺设计、试验设计三个层面分析发现可能导致失效的原因,提出针对性的纠正措施并验证,使主要失效模式得到有效控制。

(6)裕度设计与分析。对元器件的工作电应力容限与安全工作区进行设计分析,使元器件的电流、电压、功耗所限定的安全工作区边界大于实际工作区,并根据元器件质量水平、工作状态和可靠性要求,对额定功率的设计留有适当的裕度。结合耐环境设计与分析获得的应力响应模型,根据元器件的热性能、机械性能等物理性能要求,使元器件的最大额定结温、热点温度大于实际工作结温、热点温度,使元器件的机械强度大于实际应力载荷。根据可靠性要求和环境适应性要求,计算合适的温度裕度和机械裕度。

3.可靠性设计与浴盆曲线

大多数电子产品(电子设备或批量电子元器件)在使用中的失效率服从浴盆曲线特征。电子产品失效率浴盆曲线如图1-4所示(实际上随机失效阶段远大于早期失效阶段或耗损失效阶段)。产品可靠性设计的目的,是要解决两方面问题:提高固有可靠性和环境适应性。

提高固有可靠性包括两个方面:一是降低或控制随机失效阶段的失效率λ,即降低或控制浴盆曲线盆底的高度;二是延长或控制耗损寿命t,即延长或控制浴盆曲线盆底的长度(t=t2-t1)。提高环境适应性包括:提高产品耐受温度、机械、潮湿、电磁场、盐雾、辐照、低气压等环境应力的能力或强度,即增加或控制产品适应载荷应力的设计裕度。

图1-4 电子产品失效率浴盆曲线

为保证设计产品的固有可靠性和环境适应性,设计时在产品工作应力与耐受极限之间要有足够的裕度,如半导体器件工作结温与最高允许结温之间的温度裕度、混合集成电路(HIC)一阶模态频率与振动考核频率极限2000Hz之间的机械裕度等。例如,HIC技术规范给出的工作壳温范围:-55~+125℃,内装器件最高允许结温为+175℃,Ⅲ级降额要求为+145℃,预期HIC长期工作壳温为+70℃,若内装器件在壳温为+125℃时的工作结温为155℃,则器件最高工作结温与最高允许结温之间的温度裕度为20℃;若内装器件在壳温+70℃时的工作结温为100℃,则器件长期工作结温与最高允许结温之间的温度裕度为75℃,有效降低了器件过热失效风险和随机失效率。

4.可靠性设计与全寿命周期

产品全寿命周期的可靠性有四个明显的特征。设计阶段,通过可靠性设计赋予所设计产品一个固有可靠性(R0);制造阶段,形成产品可靠性(R1),通过工艺质量控制使R1尽可能接近R0;筛选阶段,通过剔除缺陷产品提升批产品可靠性(R2)与质量水平,筛选过程降低了质量问题(缺陷)对失效率的贡献,但不能提高产品耗损寿命,使R2更接近于R0;使用阶段,在长期应力载荷和工作状态下,产品使用可靠性是会随时间下降的。电子产品可靠性设计在全寿命周期的定位如图1-5所示。

图1-5 电子产品可靠性设计在全寿命周期的定位

产品使用阶段质量问题的归零分析,涉及产品可靠性设计、产品制造质量控制、产品筛选应力选择和产品使用条件保证。若退化性问题或耗损寿命失效问题突出,则通过优化可靠性设计解决;若质量缺陷导致的随机性失效问题突出,则通过强化工艺质量稳定性控制解决;若早期失效问题突出,则通过提高筛选应力和增加筛选项目解决;若明显的异常过应力失效问题突出,则通过使用条件保证、抑制异常冲击来解决。

研究表明,虽然通过提高筛选应力和增加筛选项目,能够有效降低电子元器件的失效率水平,例如,JAN军级与JANS宇航级半导体器件的基本失效率相差两个数量级[75],这是由于后者采取100%筛选并增加额外筛选项目,但需要注意的是筛选只能降低器件质量缺陷因素对失效率的贡献,而不能降低器件耗损问题和环境应力因素对失效率的贡献,见图1-4,耗损问题对失效率和寿命的影响,只能通过可靠性设计解决。

1.2.2 可靠性设计技术发展进程

可靠性设计技术的发展,是从军方作战成功率的需求开始的,围绕装备故障的消除和维修成本的控制,从设计经验到设计方法,再上升为标准化设计要求,即:经验→方法→标准,从而形成标准化的可靠性设计与分析工作项目,指导人们在产品设计过程中通过可靠性设计与分析,挖掘和明确产品潜在的隐患和薄弱环节,系统性和有针对性地进行可靠性设计。

1.可靠性设计需求与发展

电子产品可靠性设计,起源于军用电子装备故障控制与高昂维修费用控制的需求,随着装备复杂程度的增加而不断发展和系统化。

1)可靠性设计的需求[76]

20世纪40年代至80年代,美军航空电子设备的技术性能及复杂程度发展迅速,在研发费用和维修费用不断攀升的同时,军方越来越迫切地意识到故障控制与优化设计的重要性和必要性。50年代,美军战斗机电子设备费用占飞机总费用的10%~20%;60年代至70年代,占比提高到20%~30%;此后,新一代航空电子设备费用以每年18%的速度增长,这个速度比新一代飞机费用的增长速度更快。实际上,从20世纪40年代至80年代,美军新一代武器系统的费用平均每10年增加4倍,而配套电子设备子系统的费用平均每10年增加9倍。同时,在20世纪60年代至70年代,每年美军电子设备的保障维修费用占军用电子设备采购费用的1/3以上。

在这期间,尽管发现各种元器件的可靠性以每年15%~20%的速度在提高,而复杂装备电子系统的现场可靠性却几乎保持不变;同时发现随着设备系统费用的提高,现场可靠性呈下降趋势,如20世纪70年代,美国陆军通信系统MTBF=107/费用(美元)。存在上述问题,原因主要有三个方面。

(1)虽然电子元器件的可靠性已有很大的提高(如微电子器件),但电子设备复杂程度提高的速度更快,设备有了更多的功能和更高的性能,数量越来越多的元器件使电子设备基本可靠性下降,以至于将元器件可靠性增长的部分抵消了。

(2)设备系统中元器件数量的激增,凸显元器件选用不当或承受过应力的可靠性问题,如温度裕度不足,使元器件固有可靠性的基本失效率增大并使耗损寿命缩短。

(3)新型元器件的研发和采用,快速提升了设备性能和功能,但新材料、新工艺导致的失效问题,需要有一个解决过程。

因此,由于电子设备复杂性不断提高、元器件选用不当和承受过应力,导致设备基本可靠性下降,维修成本飙升,迫使人们在设备研发过程中重视可靠性设计,并在设备最优性能与可靠性之间进行权衡。

2)可靠性设计技术的发展

从装备可靠性工程和相关可靠性技术标准的颁布,可以看出可靠性设计技术方法在工程应用中得到不断进步和发展。

国外可靠性工程技术及可靠性设计相关标准的发展进程如下。

(1)1939年,美国航空委员会,出版《适航性统计学注释》[77],首次提出飞机故障率不应超过10-5次/h的指标,是最早的飞机安全性和可靠性定量指标。

(2)二战期间,德国专家R.Lusser参与V-1火箭设计,将火箭系统可靠度看成各子系统的可靠度乘积,首次定量计算复杂系统可靠性问题,最早将概率论用于系统的可靠性设计[78,79,80]

(3)1942—1946年,美国电子管研究委员会,针对电子管失效问题,组织进行产品失效分析,设计改进新材料和新工艺。

(4)1952年,美国国防部(DoD),成立“电子设备可靠性咨询委员会”(Advisory Group on Reliability of Electronic Equipment, AGREE)[75],制订可靠性发展计划,并在1957年发表了著名的《电子设备可靠性报告》,提出了一套完整的产品可靠性评估理论和方法。

(5)1962年,美国国防部,颁布标准MIL-HDBK-217《电子设备可靠性预计》,1995年将217F修订后不再升级,1999年由美国国防部可靠性分析中心(RAC,现更名为RIAC)发布了配套PRISM软件工具的217PlusTM[88],用于可靠性设计方案优选。

(6)1965年,美国国防部,颁布标准MIL-STD-785《系统与设备的可靠性大纲要求》,1980年修订为MIL-STD-785B[89],为系统和设备在研制、生产期间的可靠性工作提出一般性要求和指定工作项目。

(7)1978年,美国国防部,颁布标准MIL-HDBK-251《电子设备可靠性热设计手册》[90],为军用电子设备热设计、热可靠性分析与鉴定提供了方法和基本理论。

(8)1984年,美国国防部,颁布标准MIL-HDBK-338《电子设备可靠性设计手册》,1998年修订为MIL-HDBK-338B[91],为军用系统和设备在研制与生产阶段的可靠性设计与评价提出了通用要求和工作项目。

(9)1992年,国际电子工业联接协会(IPC),颁布了IPC-SM-785《表面贴装焊接连接加速可靠性测试指南》,给出了表面焊点热疲劳退化寿命评估经验模型[92];1996年,颁布了IPC-D-279《可靠的外部贴装技术印制电路板组件设计指南》[93],提供了板级组件标贴组装的可靠性设计方法和程序;2013年,修订发布IPC-7095C《BGA设计及组装工艺的实施》[98],给出了BGA可靠性设计的程序。

(10)1998年,电气和电子工程师协会(IEEE),颁布标准IEEE Std 1413《电子系统和设备可靠性预计和评估IEEE标准方法》[81],给可靠性预测提供了一个框架;2002年颁布标准IEEE Std 1413.1TM《基于IEEE 1413TM的可靠性预计和使用导则》[82],提出了基于应力损伤模型的可靠性评估方法,为电子元器件、组件、子系统的可靠性预计提供了全面可操作的方法。

(11)1998年,DoD方取消了MIL-STD-785B,参考应用行业标准SAE JA1000(1998)《可靠性大纲标准》[85]和IEEE 1332—1998《电子系统和设备开发与生产的IEEE标准可靠性大纲》[86]

(12)2004年,固体技术协会(JEDEC),颁布标准JEP148《基于失效物理的风险和能力评估的半导体器件可靠性鉴定》,2014年修订为JEP148B,提出了基于失效物理(PoF)的可靠性鉴定[83]

(13)2005—2008年,DoD基于SAE JA1000和IEEE1332的目标,出版了《实现可靠性、可用性和维修性(RAM)指南》[87];该指南没有明确为实现每个目标应开展的可靠性活动,因此DoD与工业界合作,制定了标准GEIA-STD-0009(2008)《系统设计、研制和制造可靠性大纲标准》[84],该标准围绕载荷应力、失效机理、失效模式,将可靠性设计工作系统化,为可靠性方案规划提供实践的标准。

(14)2008—2016年,美国国家标准学会(ANSI)/国际贸易协会组织(VITA),颁布了ANSI/VITA51系列标准,包括:ANSI/VITA51.0—2008(R2012)《可靠性预计》[94]、ANSI/VITA51.1—2008(R2013)《用于MIL-HDBK-217可靠性预计的子规范》[95]、ANSI/VITA51.2—2016《基于失效物理的可靠性预计》[96]、ANSI/VITA51.3—2010(R2016)《支持可靠性预计的鉴定条件和环境应力筛选》[97],提供了板级、封装级、元器件级失效物理(PoF)方法的标准流程,有效支撑了电子产品的可靠性设计和评估。

国内可靠性工程技术及可靠性设计相关标准的发展进程如下。

(1)1955年,中国在广州成立亚热带电信器材试验站(工业和信息化部电子第五研究所的前身),与苏联专家共同研究装备在热带环境条件下的适应性。

(2)1960年,中国引进可靠性理念和技术,在电子行业、宇航领域初步应用。

(3)1970年,发展“七专”(专人、专机、专料、专批、专检、专技、专线)质量控制技术,生产“七专”元器件产品,为了保证军用元器件质量,在20世纪70年代末和80年代初制订了军用元器件“七专”技术条件,但“七专”产品成本高、批量小。

(4)1980年,颁布GJB/Z 299《电子设备可靠性预计手册》,使我国电子设备可靠性工作由定性研究转入定量研究。

(5)1990年,颁布GJB 813—90《可靠性模型的建立和可靠性预计》,提供了建立电子设备和系统的基本可靠性模型和任务可靠性模型并进行可靠性预计的程序方法。

(6)1992年,颁布GJB/Z 27—1922《电子设备可靠性热设计手册》(MIL251翻译裁减);提供电子设备热设计、热可靠性分析与鉴定的方法。

(7)1993年,颁布GJB/Z 35—1993《元器件降额准则》,规定了元器件在不同应用情况下应降额参数及其量值。

(8)1994年,颁布SJ 20454—1994《电子设备可靠性设计方法指南》(MIL338翻译裁减),提供电子设备在研制与生产阶段的可靠性设计与评价、试验、费用分析的通用要求。

(9)1998年,颁布GJB/Z 108—1998《电子设备非工作状态可靠性预计手册》;2006年,修订发布GJB/Z 108A版。

(10)2004年,修订颁布GJB 450A—2004《装备可靠性工作通用要求》,规定了装备寿命周期内开展可靠性工作的一般要求和工作项目,提出了“可靠性设计与分析”(工作项目300系列)。

(11)2009年,修订颁布GJB 1909A《装备可靠性维修性保障性要求论证》,规定了装备可靠性维修性保障性(RMS)要求和内容以及需要确定的原则、程序和方法。

2.可靠性设计技术体系及相关标准

1)可靠性设计技术体系

根据GJB 1909关于装备可靠性的定性要求和定量要求,以及GJB 450、GJB 20454关于装备和电子设备可靠性设计工作项目的要求,归纳总结电子产品可靠性设计技术体系框图如图1-6所示。

图1-6 电子产品可靠性设计技术体系框图

电子产品可靠性设计技术体系,由可靠性定性设计技术和可靠性定量设计技术两部分构成。其中可靠性定性设计是针对不易用定量指标描述产品可靠性要求的设计技术,如主要故障模式/失效模式控制技术、质量等级保证技术等,但可以用定量计算的手段解决定性设计的问题,例如,通过故障树分析顶事件发生的概率确定主要故障模式或薄弱环节;可靠性定量设计是针对产品可靠性定量指标要求的设计技术,如失效率控制设计技术、耐久性保证设计技术、极限与裕度设计技术等,目的是保证产品的固有可靠性满足失效率和寿命指标要求。

在可靠性定性设计技术中,可靠性定性设计指标确定技术,由产品可靠性定性要求分析、寿命剖面分析、任务剖面分析等关键技术要素组成,目的是确定设计需要控制的主要失效模式;同样,在可靠性定量设计技术中,可靠性定量设计指标确定技术,由产品可靠性定量要求分析、寿命剖面分析、任务剖面分析等关键技术要素组成,目的是确定设计需要达到的各项可靠性量化指标,如通过产品失效率分配确定各部件失效率控制指标,通过产品寿命要求和耐久性要求分析确定各关键部件的退化寿命指标,通过产品性能极限要求分析确定各关键部件的极限裕度指标,最终形成产品的专用可靠性设计指标。

2)可靠性设计相关标准

电子产品可靠性设计相关标准见表1-10,覆盖与产品设计阶段的可靠性设计方法、可靠性设计指标、可靠性预计方法、可靠性评估方法、潜在薄弱环节分析、设计评审和验证方法等相关的标准。

表1-10 电子产品可靠性设计相关标准

续表

续表

3.可靠性设计与分析关键技术

工程实践中,标准化的可靠性设计与分析工作,包括确定产品的可靠性要求、可靠性建模、可靠性预计、特性分析和设计评审等15个工作项目[73]。电子产品可靠性设计工作基本流程如图1-7所示,涉及的可靠性设计关键技术主要包括:可靠性建模技术、可靠性预计技术、可靠性分配技术、薄弱环节分析技术、特性分析与适应性设计技术、耐久性分析技术。

图1-7 电子产品可靠性设计工作基本流程

1)可靠性建模技术

可靠性建模技术,即建立系统产品可靠性框图及相应的可靠性数学模型(可靠性概率表达式),它是产品可靠性预计技术、可靠性分配技术的重要基础。其中,编制可靠性框图,需要深入了解产品工作过程及任务完成中的要求,通过框图直观地展示工作过程中产品所有单元之间可靠性的相互依赖关系,每个方框所代表的单元(分系统或设备、板级组件、零部件、元器件)失效概率是相互独立的;建立可靠性数学模型,需要根据可靠性框图及其定义,用普通概率法、布尔真值表法等方法拟定每个框图的可靠性数学模型。

目前,可靠性建模技术发展了适用于单功能和多功能系统的串联系统模型、并联系统模型、冗余(贮备)系统模型、表决系统模型及其组合结构的复杂网络系统模型[71]。几种典型的可靠性框图如图1-8~图1-11所示,其中,可靠度数学模型[99]Rit)表示第i个单元的可靠度、ti表示第i个单元的工作寿命。

(1)串联系统模型:由n个单元组成的串联系统,任意单元发生故障均会导致整个系统发生故障。串联系统的可靠性框图如图1-8所示。

图1-8 串联系统的可靠性框图

对于给定的工作时间t,串联系统工作寿命的可靠度数学模型:

(2)并联系统模型:由n个单元组成的并联系统,所有单元都发生故障才会导致整个系统发生故障。并联系统的可靠性框图如图1-9所示。

对于给定的工作时间t,并联系统工作寿命的可靠度数学模型:

(3)冗余(贮备)系统模型:由n个单元组成的冗余(贮备)系统,其中,一个单元工作,n-1个单元贮备,当工作单元发生故障时系统能自动转向贮备单元继续工作。贮备单元失效率和工作单元失效率相等时的热贮备系统可靠性数学模型与上述并联系统模型相同。冷贮备系统可靠性框图如图1-10所示。

图1-9 并联系统的可靠性框图

图1-10 冷贮备系统可靠性框图

对于给定的工作时间t,冷贮备系统工作寿命(tS=t1+t2++tn>t)的可靠度数学模型(所有单元寿命均服从指数分布时):

(4)表决系统模型:由n个单元组成的表决系统,当有任意k个单元正常工作时系统就能正常工作,称为n中取k表决系统(k/nG))。k/nG)表决系统的可靠性框图如图1-11所示。

图1-11 k/nG)表决系统的可靠性框图

对于给定的工作时间tk/nG)表决系统工作寿命tS={t1t2,…,tn}中至少有k个大于t的可靠度RSt)数学模型(一般情况下系统由相同的单元组成,各单元可靠度相等,均为Rit),假设表决器完全可靠):

2)可靠性预计技术

可靠性预计,即对设计或生产的电子设备的基本可靠性和任务可靠性进行预测,它是产品可靠性分配、可靠性设计方案评价和产品维修方案制订的重要依据。预计时,根据可靠性框图的基本可靠性模型或任务可靠性模型,导入可靠性基础数据或经验数据进行计算预计。其中,基本可靠性预计采用串联模型,预计参数是平均失效间隔时间(MTBF)或失效率(λ);任务可靠性预计采用并联或表决系统等模型,将任务完成概率(MCSP)的预计[91,99]作为预计参数,评估产品执行任务过程中完成规定功能的能力。

电子产品的创新和应用,推动了可靠性预计技术的发展。20世纪90年代,建立了基于数理统计分析及四个层面数据源的电子设备可靠性预计方法[88,91,99]:相似设备法,用于系统层面早期设计方案的权衡;相似复杂性法和功能预计法,用于分系统设备方案优选;元器件计数法,用于设备元器件品种和数量基本确定的初步设计分析;元器件应力法,用于设备元器件详细清单和元器件所承受应力已确定的研制阶段分析。到21世纪初,电子产品在航天、航空领域广泛应用,为提高可靠性预计的合理性和准确性,发展了基于失效物理的可靠性预计方法[94-96,100],以解决布线特征尺寸小于130nm的大规模半导体集成电路耗损失效和SMT互连焊点疲劳失效等模式对失效率贡献凸显的问题[95,96,101],以及电子产品在多变环境条件下传统预计手册无法预计其可靠性的问题。

电子元器件可靠性预计是电子设备可靠性预计的核心基础。经过多年的研究发展,电子元器件可靠性预计方法已经形成两大类预计手册。

一类称为基于数理统计的失效率预计手册[43,101,104],其中,以GJB 299C、MIL-HDBK-217F标准为代表。手册中各类元器件失效率预计模型,是基于数理统计结果建立的经验模型,它通过大量收集整理各类元器件的现场和试验的随机失效数据,把失效时间视为随机变量,以概率论为基础建立了经验式的元器件工作失效率预计模型,其中基本失效率模型仅考虑了温度、电应力引起的失效率贡献(集成电路增加机械应力引起的失效率贡献),根据预计模型对元器件在不同温度应力水平和降额条件下的工作失效率进行统计推断和预测。

另一类称为基于失效物理的失效率预计手册[96,100],以ANSI/VITA51.2预计手册、FIDES guide指南为代表。它通过收集整理各类元器件对其失效率贡献较大的主要应力和失效机理,利用失效机理退化模型,分别获取元器件在温度、温循、湿度、机械等相关应力条件下的典型基本失效率数据,并结合元器件在电子设备中的实际工作时间权重和各类应力加速系数,建立元器件的工作失效率预计模型,实现更切合实际的元器件失效率预测,作为传统基于数理统计的失效率预计方法的补充。

两类预计手册都建立了各类电子元器件工作失效率预计模型,积累了大量的元器件基本失效数据,在进行电子设备失效率预计时,无论哪种预计方法,都将元器件失效率或失效机理失效率简化为指数分布,视其在电子设备随机失效阶段对总体失效率的贡献为恒定失效率,这与电子设备失效率最终统计结果的浴盆曲线基本相符(见图1-4),这种简化处理为电子设备的可靠性预计带来了极大的便利。

(1)基于数理统计的失效率预计模型。例如:GJB 299C预计手册中的电子元器件工作失效率预计模型如下[43]

式中,λP是元器件工作失效率;

λb是仅考虑温度和电应力的元器件基本失效率;

πi是各种影响元器件工作失效率的修正因子。

如,普通晶体管及二极管的基本失效率λb模型:

普通晶体管及二极管的工作失效率λP模型:

λPbπEπQπAπSDπrπC

模型中基本失效率λb仅考虑元器件在电应力和温度应力作用下的失效率,工作失效率λP通过环境系数πE、质量系数πQ、应用系数πA、电压应力系数πSD、额定功率或额定电流系数πr、结构系数πC的修正,调整这些影响因素对晶体管及二极管失效率带来的影响。

(2)基于失效物理的失效率预计模型。例如:FIDES guide预计手册指南的电子元器件工作失效率预计模型如下[100]

λ=λPhysical·PM·∏Process

式中,λ是某类元器件的工作失效率;

λPhysical是该类元器件物理因素失效率,是由于各类物理因素引起的失效率;

PM是零部件制造质量和技术因素的失效率修正因子;

Process是整机产品研发、制造和使用中的质量及技术因素的失效率修正因子。

式中,是该类元器件的时间权重,寿命剖面第i阶段时间在一年中的比例;

λphase-i是该类元器件在寿命剖面第i阶段的物理因素失效率;

λ0·acceleration是该类元器件在寿命剖面第i阶段的物理因素总体基本失效率。

式中,induced是该类元器件在寿命剖面第i阶段的过应力影响调整系数;

Thermal是该类元器件在寿命剖面第i阶段芯片的温度加速调整系数。

上述两类预计模型均可用于电子设备的可靠性预计,区别在于元器件基本失效率的预计。前者仅考虑温度应力和电应力对基本失效率的贡献,这对传统元器件产品完全适用;后者全面考虑了芯片温度、外壳温循、引脚焊点温循、潮湿、机械等应力下的一系列失效机理的基本失效率之和,这对特征尺寸小于130nm的亚微米级、超深亚微米级半导体集成电路和高密度集成组件SMT焊点而言是必须的。

3)可靠性分配技术

可靠性分配就是把系统产品可靠性总体要求转换为产品每个单元的可靠性要求的过程。可靠性分配参数可以是:可靠度(Rt))、平均失效间隔时间(MTBF)、故障率(λ)等,分配后的参数作为产品各单元的可靠性设计指标。产品可靠性分配的基本原则是保证依据分配指标设计出来的产品满足规定的可靠性总体要求,因此产品可靠性分配包括求解下面的不等式[91]

式中,是分配给第i个单元的可靠性要求参数(i=1,2,3,…,n);

R*是产品可靠性总体要求参数;

f是产品各单元与产品间的可靠性函数关系。

系统产品可靠性分配方法,包括[71]:不考虑各单元重要性串联系统的等分配法,考虑产品复杂程度、技术成熟度、工作时间、环境条件等因素分值的评分分配法(目标可达性分配法),适用于与老系统相似的新设计系统产品的比例组合分配法,考虑产品各单元重要度和复杂度的分配法(AGREE分配法),针对产品较低可靠度单元提升的最少工作量分配法(可靠度再分配法)等。

实际应用中,不论采用哪种可靠性分配方法,为减少分配的重复次数和避免附加设计的反复分配,需要在规定的可靠性指标的基础上,对各单元的可靠性分配留有一定的裕量。

4)薄弱环节分析技术

薄弱环节分析技术,包括:失效模式与影响分析(FMEA)、故障树分析(FTA)、潜在电路分析(SCA)、电路容差分析(CTA)等技术。多年的研究总结和凝练,形成了标准化的FMEA、FTA、SCA、CTA方法和技术,目的是通过对电子设备产品自上而下或自下而上的全面分析,发现元器件、零部件、设备在设计和制造过程中可能存在的故障模式,以及每一种故障模式的产生原因及影响,找出潜在的薄弱环节,并提出改进措施。

5)特性分析与适应性设计技术

特性分析与适应性设计技术,包括:降额设计、冗余设计、热设计、机械强度分析、环境防护设计、有限元分析等技术。其中,降额设计使元器件使用中承受的应力低于其额定值,以达到延缓其参数退化,提高使用可靠性的目的;冗余设计是指重复配置系统中的一些部件,当系统出现故障时,让冗余的部件及时承担故障部件的工作;热设计是通过采用适当的散热方式,控制产品内部所有电子元器件的工作温度,使其在所处的工作环境条件下不超过规定的最高温度上限;机械强度分析是通过分析产品结构的机械特性,确定包装、储存、装卸、运输、维修等对产品可靠性的影响;环境防护设计是指针对影响产品可靠性的环境因素,采取必要的设计防护,减少或消除有害的环境影响,设计防护包括[72]:温度保护、冲击和振动隔离、潮湿保护、沙尘保护、防爆、电磁兼容设计等;有限元分析是指通过采用有限元分析技术,在设计过程中对产品的机械强度、热特性、电磁场、潮气扩散等进行分析和评价,尽早发现产品承载设计结构和材料的薄弱环节及产品的过热部分。

6)耐久性分析技术

耐久性分析技术,包括:机械零部件的机械疲劳损伤、电子元器件的电耗损和热机械耗损退化等分析技术。通过对产品薄弱环节的耐久性分析,评价机械零部件的耐久性或机械疲劳寿命,评价电子元器件的耗损机理退化寿命。可通过评价产品寿命周期的载荷与应力、产品结构、材料特性和失效机理等进行耐久性分析,发现过早发生耗损故障的机械零部件、电子元器件,确定故障的根本原因和可能采取的纠正措施。

4.基于数理统计的可靠性预计

可靠性预计,在工程上通常指失效率预计。数理统计方法是统计自然界随机现象数据并分析其变化规律的一种方法,其特点是对现象进行宏观统计处理进而做出判断。数理统计方法包括:点估计和区间估计的参数估计法、考虑抽样风险的假设检验法、随机变量相关性分析法、正交试验和调优设计的试验设计法(DOE)、非参数统计法和过程统计法等。通过数理统计模型的建立和分析,可以对所考虑的问题做出推断或预测,进而为可靠性设计决策提供依据。传统的电子设备可靠性预计方法,就是在数理统计方法的基础上,通过大量收集、统计电子元器件现场失效数据而发展起来的,是一种用于电子设备随机失效阶段失效率预计的方法,也称为基于经验数据的可靠性预计方法。

1)电子产品寿命统计分布

我们知道,产品的寿命是一种随机变量,并服从一定的统计分布规律,这种统计分布代表了某种现象发生概率的变化规律,因此需要牢记的是可靠性本身是一种概率,带有可靠度的寿命才具有实际应用价值。前人的研究结果表明,电子产品寿命统计分布(连续型)有以下四种典型分布模型[91,102,103]:指数分布,是应用最广的一种统计分布模型,描述电子设备或电子元器件在随机失效阶段的失效时间统计分布规律;韦布尔分布,是一种通用的统计分布模型,主要用于描述电子设备或电子元器件在耗损失效阶段的耗损寿命统计分布规律;正态分布,描述某些种类机械零部件在磨损失效阶段的疲劳寿命统计分布规律;对数正态分布,描述半导体器件、机械零部件在耗损或磨损失效阶段的疲劳寿命统计分布规律。

(1)指数分布

可靠度函数:Rt=e-λtt≥0,Rt=PT>t

累积失效概率函数:Ft=1-e-λtFt=1-Rt),Ft=PTt

失效概率密度函数:fte-λt

失效率函数:λtλ为常数,

平均寿命:θ=1/λ或MTBF=1/λt=θRt=Rθ=0.368

可靠寿命:r为给定的可靠度

中位寿命:r=0.5

特征寿命:r=e-1=0.368

寿命方差:

式中,T为产品寿命(随机变量);PTt)为产品寿命T大于规定时间t的概率;PTt)为产品寿命T小于等于规定时间t的概率;MTBF为产品平均失效间隔时间;特征寿命为产品可靠度r=e-1=0.368时的可靠寿命,即产品工作到特征寿命时,有63.2%的产品失效;当电子产品寿命统计分布服从指数分布时,产品平均寿命θ或MTBF与特征寿命在数值上相等。

(2)韦布尔分布

可靠度函数:tγRt=PT>t

累积失效概率函数:Ft=1-Rt),Ft=PTt

失效概率密度函数:

失效率函数:

平均寿命:

可靠寿命:r为给定的可靠度

中位寿命:

特征寿命:,当r=e-1γ=0时,

寿命方差:

式中,mγη均为与时间无关的常数,其中,m为形状参数,m<1时Rt)随时间单调下降,表示产品早期失效;m=1时韦布尔分布变成指数分布,表示产品失效率恒定时的随机失效;m>1时Rt)随时间下降的过程中有一峰值,m值越大韦布尔分布越接近正态分布(m=3.5[91]),表示产品耗损失效;γ为位置参数,表示韦布尔曲线在时间坐标上的起点,又称最低寿命,γ为负值时反映了产品开始工作就已有失效,γ为正值时反映了产品工作到该时刻之后才有可能发生失效,通常γ=0;η为尺度参数,当γ=0时,η为特征寿命,表示工作到此时约63.2%的产品将会失效(在韦布尔分布中,特征寿命η越小或尺度参数越小,表示失效的风险越大,见IEEE Std1413.1TM标准-A.1.1.1Weibull distribution)。

(3)正态分布

可靠度函数:,0<t<+∞,Rt=PT>t

累积失效概率函数:Ft=1-Rt),Ft=PTt

失效概率密度函数:

失效率函数:

平均寿命:θ=μ

可靠寿命:tr=μ+σK1-rr为给定的可靠度

中位寿命:t0.5r=0.5

特征寿命:=μ+0.34σr=e-1=μ+σK1-0.368

寿命方差:DT2

式中,K1-r为给定可靠度r时,对应的正态分布1-r分位点值;μ为位置参数或平均寿命;σ为尺度参数或寿命标准差;当电子产品寿命统计分布服从正态分布时,产品的中位寿命t0.5与产品平均寿命θ数值相等。

(4)对数正态分布

可靠度函数:,0<t<+∞,Rt=PT>t

累积失效概率函数:Ft=1-Rt),Ft=PTt

失效概率密度函数:

失效率函数:

平均寿命:

可靠寿命:r为给定的可靠度

中位寿命:t0.5=eμr=0.5

特征寿命:r=e-1

寿命方差:

式中,μ为对数均值;σ2为对数方差。

2)基于数理统计的失效率预计

系统可靠性框图法及各单元寿命分布统计模型的建立,为电子设备可靠性预计奠定了定量计算的基础。但是,即使在电子设备的随机失效阶段,设备中各类元器件的寿命分布也并非都服从指数分布,例如半导体器件的退化失效时间、PCB互连焊点疲劳寿命等随机参数表现为服从对数正态分布或韦布尔分布,而不同的寿命分布,在数学上联合解析计算非常烦琐和不便。所以,若能把设备中元器件的寿命分布视为指数分布,可以极大地简化电子设备失效率的数学计算,便于可靠性预计。

电子设备的大量故障数据统计结果表明,总体失效率曲线为浴盆形态,其随机失效阶段的寿命分布近似服从指数分布(见图1-4)。因此,在预计电子设备失效率时,可以假设电子元器件的寿命分布为指数分布,并假设各元器件的随机失效相互独立,这对可靠性串联系统的电子设备而言,随机失效阶段的失效率预计只需将相关元器件的失效率相加即可,从而简化了可靠性预计的数学计算。MIL-HDBK-217F、Telcordia SR-332、FIDES、GJB 299C等预计手册,都采用了这种简化思路,提取元器件及SMT互连焊点的基本失效率,将其视为服从指数分布,方便了电子设备失效率预计。

例如,见图1-8中,系统的失效率λS等于各类元器件的失效率λi之和(假设系统内各元器件的工作时间相等,且均服从指数分布),即

系统的失效率λS为:

为了获得各类电子元器件在不同使用环境下的失效率统计数据λi,MIL-HDBK-217F NOTIC2、GJB 299C预计手册给出了不同温度应力下的基本失效率统计数据λb,以及基于Arrhenius失效物理模型推算不同温度应力下的基本失效率λb和温度因子πT的数学模型。显然,这些元器件的失效率预计模型,侧重考虑温度应力对失效率带来的影响,而其他环境应力(特别是振动、湿度和温循应力)的影响则通过环境系数πE的统计贡献值予以修正。

从失效率预计的统计数据源的性质来看,MIL-HDBK-217F NOTIC2、GJB 299C等手册中的预计方法,已不是纯粹的基于数理统计的失效率预计方法,虽然采用了指数分布的数理统计模型和大量的现场和试验统计数据,但在数据源方面,特别是元器件在不同温度应力下的基本失效率数据来源,采用Arrhenius模型推算,而SMT互连焊点在不同温变应力下的基本失效率,采用Coffin-Manson模型推算。如普通晶体管及二极管基本失效率模型[101,43],SMT互连焊点基本失效率模型[101,43]。在这些基本失效率推算中,采用了Arrhenius模型、结温边界状态系数及Coffin-Manson模型,反映了半导体芯片随温度(T)老化、SMT焊点材料随温变(ΔT)疲劳的失效物理内涵。尽管上述晶体管基本失效率模型并未精细到针对某个单一的失效机理,而是以温度加速应力试验数据获得的单一“等效”的表现热激活能Eaa[41,44],综合表征与温度相关的多种主要失效机理对产品基本失效率的贡献。显然,这是失效物理模型在恒定失效率假设前提下对失效率预计的典型应用。可以这样理解,这些手册中的预计方法是建立在数理统计基础上的基于温度应力失效物理模型的失效率预计方法,不过预计模型中基本失效率的载体是元器件,而不是产品的某个失效机理。

若从失效机理的角度看,MIL-HDBK-217F NOTIC2、GJB 299C等手册中的预计方法,仅仅把SMT互连焊点的热疲劳机理作为单一机理的失效率模型独立出来,而其他的失效率模型均以元器件的稳态温度基本失效率为基础进行建模,所以这些传统的手册预计方法仍是基于数理统计和经验数据的可靠性预计方法。

5.基于失效物理的可靠性预测

可靠性预测,包括失效率预计和寿命预测。失效物理是指电子产品在各种应力作用下发生失效的内在机理及物理、化学效应,并且包括这些效应随时间的变化,而引起失效的应力见式(1-9),包括:温度、机械、潮湿、电磁、盐雾、辐射、气压等应力。通过对多种应力条件下失效物理模型的建立和分析,可以对相关应力下失效机理对失效率的贡献以及对产品寿命的影响程度进行量化推断和预测,进而确定影响产品可靠性的主要应力和失效机理,为可靠性设计提供依据。

基于失效物理的可靠性预测方法的推动力,来自可靠性预测质量要求的提升和因电子元器件新技术的应用而导致的问题,例如特征尺寸小于130nm的CMOS集成电路、大尺寸集成电路高密度封装BGA互连等新技术的应用,导致金属迁移和焊点疲劳,这些耗损对产品失效率的贡献明显增加[95,96,101]。面对这些耗损问题产生的影响,发展了更科学、更精确的基于失效物理的可靠性预测方法,并已形成行业标准:基于失效物理的失效率预计方法[94,96,100]、基于失效物理的寿命评估方法[44,82,92]

1)电子产品的失效物理特点

电子产品的失效物理特点,从外在宏观来看,表现为产品在多种环境应力作用下随时间而产生的性能退化和失效现象;从内在微观来看,表现为产品内部结构和材料层面发生的物理及化学的变化过程。例如,机载设备板上气密封装DC/DC电源模块,长期使用后产品外部可能表现出输出电压超差,而产品内部可能表现为因气密封装泄漏而导致的半导体芯片金属键合盘在水汽作用下逐步腐蚀,而这些失效物理过程随应力和时间的变化,可以通过建立失效物理模型的方式进行量化描述。

为了便于失效物理模型的应用,在工程上将电子设备的主要失效物理问题,分为三个层次进行描述和建模[96]:板级失效机理及失效物理模型、封装级失效机理及失效物理模型、元器件级失效机理及失效物理模型。

板级失效机理及失效物理模型,分析对象是PCB电路板的金属材料、板上元器件互连焊点、板间电连接的失效机理。例如考虑:振动应力下的焊接点高周疲劳、温循应力下的焊接点低周疲劳、机械冲击应力下的位移损伤、水汽/电压环境下的层间导电阳极丝、大气环境下金属外壳和引脚的电化学腐蚀等。

封装级失效机理及失效物理模型,分析对象是包含一个半导体芯片或多个半导体芯片及芯片黏结的独立封装体的失效机理。例如考虑:振动应力下的芯片黏结材料疲劳和芯片破裂、温循应力下的芯片与基板间焊接层热疲劳、高温和温循应力下内引线与芯片键合盘间的IMC生长与疲劳损伤、温湿度应力下纯锡材料的锡须生长、潮湿环境下水汽渗入封装导致结合界面分层或半导体芯片参数漂移、海洋环境下盐雾导致金属外壳及引脚腐蚀、塑封器件吸潮后在电装工艺中爆裂等。

元器件级失效机理及失效物理模型,分析对象是有源器件半导体芯片和无源元件内部结构的失效机理。例如考虑:电流应力下半导体集成电路芯片Al或Cu布线金属原子电迁移(Electronmigration, EM)、衬底峰值电流应力下金属氧化物半导体场效应晶体管(MOSFET)的热载流子注入(Hot Carrier Injection, HCI)效应、电压应力下互补金属氧化物半导体器件(CMOS)的介质层时变击穿(Time Dependent Dielectric Breakdown, TDDB)、栅极电压下P型金属氧化物半导体场效应晶体管的负偏压温度不稳定性(Negative Bias Temperature Instability, NBTI)、空间环境的质子或海拔一万米飞行环境的中子造成的半导体器件单粒子效应(Single Event Effects, SEE)或单粒子闩锁效应(Single Event Latch-up, SEL)、大气中半导体集成电路的辐射电离总剂量(Total Ionizing Dose, TID)即电离累积效应、半导体器件的过电应力损伤(Electrical Overstress, EOS)或静电损伤(Electro Static Discharge, ESD)、水汽应力下导致芯片金属Al或Cu布线腐蚀、半导体芯片表面碱性金属离子沾污和在电场作用下的芯片表面反型效应等。

2)基于失效物理的可靠性预测方法的发展与标准现状

基于失效物理的可靠性预测方法的发展,其核心变化体现在将电子设备可靠性分析对象的基本单元,由传统的一系列元器件转换为一系列失效机理[100],其特点是针对特定失效机理获取可靠性预测的数据源,而一系列的失效机理又以应力类别加以区分,目的是以此获得诱发失效机理的微区应力信息和材料物理信息,进而针对性地通过应力影响因素的控制和材料及结构的优化,有效改进产品可靠性设计。

基于失效物理模型的可靠性预测方法与标准现状(失效率预计/寿命预测)见表1-11。这些预测标准的发展和演变,是为了适应电子产品新技术发展的需求,在原有的基于数理统计的可靠性预计方法的基础上,发展了更准确且适用于新型电子器件的基于失效物理的可靠性预测方法,增加了一系列典型耗损机理的可靠性预测模型,这是对传统手册中可靠性预计方法的必要补充和完善[96],而非对传统预计方法的否定。

由表1-11可知,从1961年至今,基于失效物理模型的失效率预计、寿命预测的标准发展有以下几个特点。

(1)1961年起,Arrhenius模型在预计/评估标准中开始应用,关注恒定温度对失效率和寿命的影响。

表1-11 基于失效物理模型的可靠性预测与标准现状(失效率预计/寿命预测)

续表

续表

续表

Arrhenius模型,是应用于可靠性预计中的最传统和最经典的模型,最早由MIL-HDBK-217标准于1961年用于元器件基本失效率λb模型、温度修正系数πT模型、温度加速系数AF模型的构建,尽管MIL-HDBK-217F标准考虑了CMOS集成电路在随机失效阶段,热载流子注入等耗损机理对器件失效率的贡献,但仍以电子器件个体为电子设备故障率分析的基本单元,并采用器件的“等效”表观热激活能;随着微纳电子器件的广泛使用,特别是特征尺寸130nm以下的器件,EM、TDDB、HCI、NBIT、MI等耗损机理的失效时间大大缩短,对这类器件的随机失效率贡献凸显,因而在后续的失效率预计、寿命预测标准中,将其设备故障率分析的基本单元由一系列元器件转变为一系列失效机理,例如,2010年发布的FIDES guide、2016年发布的ANSI/VITA51.2等标准;同时,为了区分不同应力失效物理对器件失效率的贡献,FIDES guide指南将各类元器件的失效率模型以热、机械、温循、潮湿等应力类型加以区分。

由表1-11内容,从1961年至今,基于失效物理模型的失效率预计、寿命预测相关标准的发展有以下几个特点:

(1)1961年起,Arrhenius模型在预计/评估标准领域开始应用,关注恒定温度对失效率和寿命的影响。

(2)1991年起,Eyring模型在预计/评估标准领域开始应用,关注恒温、电对失效率和寿命的影响。

Eyring模型,考虑恒定温度、电等多应力下的退化模型,最早由MIL-HDBK-217F标准于1991年用于CMOS-IC的与时间t相关的热载流子注入机理失效率λHCt)模型的构建,同样尽管考虑了电应力下的耗损机理,但仍以电子器件个体为电子设备故障率分析的基本单元;后续的标准包括JEP 122G、ANSI/VITA51.2等,则将这些耗损失效机理作为失效率预计或寿命预测的基本单元。

(3)1992年起,Coffin-Manson模型在预计/评估标准领域开始应用,关注温变对失效率和寿命影响。

Coffin-Manson模型,考虑温度变化产生的热机械应力对互连结构材料产生损伤带来的影响,如SMT互连焊点。最早由IPC-SM-785标准于1992年用于SMT焊点、PTH焊接的疲劳寿命预测模型的构建;1995年MIL-HDBK-217F标准NOTIC2,正式发布了SMT互联焊点失效率λSMT模型,将寿命时间远短于元器件的SMT焊点疲劳机理独立作为设备故障率分析的一个基本单元,取其韦布尔分布的中位寿命对应的平均失效率,作为恒定失效率值带入系统失效率模型;后续的标准包括217PlusTM、JEP122G、ANSI/VITA51.2等,亦基于Coffin-Manson模型构建器件封装及板级焊点互连的疲劳寿命和失效率预计模型。

(4)2002年起,Peck模型在预计/评估标准领域开始应用,关注潮湿对失效率和寿命的影响。

Peck模型,包括RH指数倒数模型、RH指数模型,考虑潮湿渗入对器件内部芯片带来腐蚀导致的失效,最早由IEEE Std 1413.1TM标准于2002年用于基于潮湿加速试验数据的失效率预计模型的构建;后续标准包括JEP122G、FIDES guide、217PlusTM、ANSI/VITA51.2等,均考虑了基于Peck模型构建塑封电子器件关于芯片腐蚀机理的腐蚀寿命和失效率预计模型。

(5)2002年起,Basquin定律在预计/评估标准领域开始应用,关注振动对失效率和寿命的影响。

Basquin定律,给出了应力和寿命(S-N)曲线之间的对数关系,考虑振动环境下模块产品、板级产品互连结构材料产生损伤带来的影响,如SMT互连焊点、PCB板金属布线等。最早由IEEE Std 1413.1TM标准于2002年用于基于振动加速试验数据的失效率预计模型的构建;后续标准包括FIDES guide、217PlusTM、ANSI/VITA51.2等,均考虑了基于Basquin定律以及Coffin-Manson模型(高周疲劳)构建板级互连高周疲劳寿命和振动疲劳失效率预计模型。

(6)1991年起,各失效物理模型综合应用于预计/评估标准领域,关注多应力的影响。

上述5种典型失效物理模型,考虑到了恒温、电、温循、潮湿、振动应力下的各类耗损机理对产品失效率和寿命的影响,而单一元器件失效率和寿命模型的构建,则需要综合应用各种应力的失效物理模型,如集成电路内部半导体芯片的失效率和寿命建模需要考虑恒定温度及Arrhenius模型、Eyring模型。非气密塑封防潮性的失效率建模考虑相对湿度及Peck模型等,气密封装金属外壳体热疲劳的失效率和寿命建模考虑温度循环及Coffin-Manson模型(低周),而集成电路组装在PCB上的焊点热疲劳失效率和寿命建模考虑温度循环及Coffin-Manson模型(低周)。1991年,MIL-HDBK-217F标准首先综合应用各种失效物理模型构建元器件失效率模型,将CMOS-IC工作失效率分解为芯片4项耗损机理失效率、封装潮湿腐蚀机理失效率、过电应力EOS/ESD失效率之和;2004年,IEC TR 62380标准,集成电路的建模亦采取类似方法;2010年,FIDES guide进一步明确集成电路基本失效率模型,是恒定温度下芯片基本失效率λ0TH、温循应力下气密封装体基本失效率λ0TCyCase和PCB焊点的基本失效率λ0TCySolderjoints、潮湿应力下非气密封装基本失效率λ0RH、机械应力下基本失效率λ0TCyCase之和。

(7)2002年起,以敏感失效机理作为失效率预计的基本单元,弥补传统预计方法的不足。

以敏感失效机理作为失效率预计的基本单元,是考虑到130nm以下新型CMOS器件、高密度SMT互连焊点的某些耗损失效机理,对元器件随机失效率贡献明显的问题,在失效率预计时单独考虑板级、封装级、元器件级的各种敏感失效机理。2002年,IEEE Std 1413.1TM标准提出基于应力损伤模型的可靠性预测,以最短失效时间的单一机理作为产品寿命预测对象,或者考虑失效时间相近的多个机理,引入各自机理失效概率密度ft)预测竞争失效时间;2016年ANSI/VITA51.2标准提出基于失效机理预计失效率的标准流程。

6.基于失效物理可靠性设计的本质

对电子产品而言,可靠性设计需要根据产品可靠性指标要求,定量设计解决四个阶段的可靠性问题。一是设计阶段,所设计产品的固有可靠性,如耗损寿命、基本失效率;二是生产阶段,所制造产品的可靠性离散程度,如寿命方差;三是试验阶段,批产品的筛选和可靠性试验的有效性,如早期失效品剔除率、失效率和耗损寿命评估的置信度;四是服役阶段,所交付产品的使用可靠性,如工作失效率、服役寿命等。

为保证所设计的产品满足固有可靠性和使用可靠性指标要求,基于失效物理的可靠性设计,是产品可靠性设计中不可缺少的一个重要环节。其本质是针对产品的主要失效机理,特别是耗损失效机理,通过可靠性分析、预测和评估,提出相应的设计要求,使这些机理导致的产品退化或应力损伤得到有效控制,同时让相关制造参数的离散性控制在可靠性指标容忍的范围,使设计产品满足固有可靠性和使用可靠性指标要求。

产品的主要失效机理的确定,需要采用前文中所述的FMEA、FTA、SCA技术和电路容差分析、热性能分析、机械强度分析、环境适应性和耐久性分析技术,结合产品的可靠性指标要求,综合分析排序并确定影响产品可靠性的薄弱环节和关键、重要部位的失效机理,目的就是为基于失效物理可靠性设计的实施提供所针对的失效机理对象。其中耗损失效机理和过应力损伤机理,这些有别于制造缺陷的两类不同的失效机理,更需要结合产品的失效率指标和寿命指标要求,对耗损失效机理的失效时间、过应力损伤机理的应力响应等进行定量分析。

产品的可靠性分析、预测和评估,需要采用前文所述标准的基于失效物理的可靠性预测方法。一般来说,电子设备进行定量可靠性预测的主要目的有两个[88]:①评估元器件和整机设计在使用条件下可靠工作的固有能力(鲁棒性);②预测电子设备现场工作故障率或任务成功率。第一个目的,并不需要基于数理统计的现场数据或模型,在此失效物理可靠性预测方法具有独特的技术优势,因为需要解决的可靠性问题是元器件的选择和整机电路与结构的设计,选择寿命模型、应力损伤模型及竞争失效模型是关键[82];第二个目的,则需要依托现场经验数据和由现场经验数据得到的预计模型,因为在满足第一目的的前提下,电子设备在其有效工作寿命期内(浴盆曲线的底部),现场故障主要由元器件和制造缺陷引起,需要通过以往的现场经验数据和统计分析模型,量化预计电子设备由制造缺陷引起的现场故障率。例如,美国217Plus™可靠性预计手册提供了质量缺陷数据用于平均故障率预计。

因此,正确选择寿命预测方法和失效率预计方法,关键是理解这些方法模型的建立基础和模型背后基础数据源的性质。目前,对电子设备故障率预计手册的基础数据源,从初始的现场随机失效基础数据发展为包括耗损失效机理的基础数据,其原因是新型微纳电子器件和新型高密度表贴互连技术的应用,使电子器件及电互连的某些耗损机理对电子设备随机故障率的贡献明显增加。例如,特征尺寸小于130nm的CMOS集成电路的热载流子注入(HCI)、与时间相关的电介质击穿(TDDB)等耗损机理,以及大尺寸集成电路BGA表贴焊点热循环疲劳等退化机理,这类机理在电子设备中所表现的早期耗损失效问题,已被行业发现和认识。尽管这些耗损机理的寿命分布是韦布尔或对数正态分布,而非恒定的指数分布,但它们对电子设备故障率的贡献仍能通过提取其平均失效率或中位寿命失效率,与设备中其他恒定失效率的元件、零部件同步混合处理,采用串联模型对电子设备的故障率进行计算,这种数据处理方式在行业标准中已得到应用[43,88,96,100,101]

在确定产品的主要失效机理并对这些机理进行量化可靠性预测后,需要根据预测或评估结果提出针对性的可靠性设计要求,确认是否满足可靠性指标要求,指引设计改进或制造控制,并不断反馈和迭代,甚至进行使用条件的调整,直至设计产品满足可靠性指标要求。