26
科技资讯
科技资讯 SCIENCE & TECHNOLOGY INFORMATION
2011 NO.13
SCIENCE & TECHNOLOGY INFORMATION 工 程 技 术
通讯设备的可靠性水平与设备运行期
间的故障检测率、虚警率等可测试性水平
有密切的关系。
1 可测试性与可靠性的关系
1 . 1 故障检测率和虚警率
可测试性指标很多 ,其中最重要的两
个指标是故障检测率FDR(Fault Detection
Rate)和虚警率FAR(False Alarm Rate)。这
些指标的确定直接与设备的可靠性要求以
及可维修性要求相关。故障检测率和虚警
率的概念分别介绍如下 [2]。
故障检测率 :
( / ) 100%DiD DFD
T i
N
p T F r
N
ll
l l
S
= = = = ´
S
式中各项的含义 :p (T /F )为系统有故
障时 ,测试结果指示有故障的条件概率 ,即
故障检测率,其中F表示实际有故障,T表示
测试结果指示故障 ;N
T
为工作时间 t内发生
的实际故障数 ;N
D
为工作时间 t内正确检测
到的故障数。λ
D
为所有故障模式在单位时
间内正确被检测出的总故障数 ,即正确检
测出的总故障频率 ;λ为所有故障模式在
单位时间内产生的总故障数 ,即总故障频
率 ;λ
Di
为第Di个故障模式被正确检测出的
故障频率。λ
i
为第 i个故障模式的故障频
率。
虚警率 :
( / ) 100%FA FAFA
F FA
N N
p T F r
N N N
= = = ´
+
( / )p T F 为在实际无故障时 ,而测试结
果指示有故障的概率 ,即虚警率 , F 表示实
际无故障 ,即 ( / )p T F 表示错误故障指示
(错误告警 )占总故障指示 (告警 )的比例 ;N
为故障指示 (报警 )总次数 ;N
FA
为错误故障
指示 (误告警 )的次数 ;N
F
为真实故障指示
(真实告警 )的次数。
1 . 2 有冗余备份的单元组的故障检测率和
虚警率的确定方法
(1)故障检测率。
一旦一个单元(对应图一中的一个unit)
检测到故障 ,确认故障后 ,就将启动倒换机
制 ,用无故障的备用单元代替有故障的工作
单元工作 ,保证任务正常执行。若倒换本身
的成功率是100%,每个单元的故障概率为P,
单元的故障检测率为r
FD
,相互备份形成的功
能组的故障概率为P
G
,那么P
G
应该由一个单
元故障但检测不到故障而不引起倒换的概
率 (1-r
FD
)P和虽能检测到故障但两个单元
同时发生故障的概率 r
FD
P2两部分组成。
设备可能还会有1∶N保护的业务单元
(即用一个冗余备份板 ,保护N个工作的业
务板 )那么对于这样的功能组合 ,同样可以
进行类似的分析。设备的系统
时 ,从基
本可靠性和任务可靠性的角度出发 ,单板
和备份组可接受的故障率就能基本确定
(2)虚警率。
可测试性指标中除了故障检测率外 ,
还有一个重要的指标是虚警率 ,它的确定 ,
与故障检测率相关。虚警率可根据经验公
式来确定。
FA
FD
r
r
a
a
=
+
式中 /FA sa l l= ,其中λ FA和 sl 分别为
故障检测系统BITE的故障率和总体系统的
故障率。α可在0.01~0.04之间取值。虚警
率越高 ,错误故障告警越多 ,这样会引入不
必要的维护活动 ,应尽量避免。因此一般的
测试系统有这样两条原则。(1)构成BITE的
元器件故障率比系统及设备所采用的元器
件故障率低一个数量级 ;(2)规定系统中用
于BITE的元器件数不多于整个系统元器件
总数的10%。从改善设备的基本可靠性出
发也是很容易理解的 ,元器件越多 ,设备的
基本可靠性越差 ,维修活动越频繁。
1 . 3 不带冗余备份的单元故障检测率和虚
警率的确定
不带冗余备份的单元 ,设备的可测试
性与可靠性也有密切的联系。可靠度R、可
用度A和维修度函数都属于可靠性研究的
范畴。假定设备运行故障的情况下 ,设备的
维修就是定位故障单元 ,然后更换故障单
元 ,设备继续工作 ,单元的维修工作 ,在脱
离运行的设备后再实施 ,实际情况也基本
上如此。那么故障检测度 r
FD
和可靠性指标
间有如下的关系。
( ) ( ) ( )[1 ( )]m m FD R rp mA t R t r S t R t= + -
式中 ( )R rpS t 为 rpt 在时间内更换成功的
概率。它与单板稳定性、时序设计、容差设
计、热插拔设计以及维护人员的熟练程度
有关。 ( )R rpS t 的值可凭经验估计。设备在系
统设计时根据分配给各单元的可靠度 ,可
用度指标 ,A(t
m
)和R(t
m
)的可接受范围应该
能大体确定。 FDr 为系统故障检测率 ,其值
的大小可以由系统设计时确定的相关可靠
性指标来决定。
2 基于FMEA的思想实施可测试性设计
可测试性的设计可以按照以下步骤循
环迭代实现。
(1)根据公式计算单板的故障检测率要
求达到的最小值。
(2)按照 FMEA的思路 ,分析并列举单
板上所有可能的潜在失效模式。
(3)制定故障严重度和故障发生概率的
评分
,根据评分标准对每个潜在的失
效模式进行故障严重度和故障发生概率的
评分。
(4)制定故障检测难易程度、检测将带
来的额外软、硬件代价的评分体系 ,其取值
范围1~10,难度低、代价低的取值高。
(5)计算每一个潜在故障故障的严重
度、故障发生概率和故障检测难易度的乘
积。Pi=SiOiEi,其中Si表示某故障的严重度 ,
Oi表示某故障的发生概率 ,Ei表示某故障的
检测的容易度simplicity。
(6)按照 Pi分值从大到小进行排序列
表 ,优先选择分值最大的故障 ,设置测试
点 ,估算所有 I个故障中 ,需要检测到的故
障个数DI,代入式中进行计算 ,判断故障检
测度能否满足步骤1,提出的要求。
(7)如果检测度小于要求的值 ,则增大
DI,再代入式中进行计算 ,判断故障检测度
能否满足步骤 1,提出的要求 ;如果检测度
大于要求的值 ,则可试图减小DI,再代入公
式进行计算 ,判断故障检测度能否满足要
求 ,如此叠到找到合适的DI值。
(8)按照步骤7计算得到的Di值 ,对应步
骤6得到排序列表中 ,前DI个故障都需要设
置故障检测点进行在线故障测试。
(9)根据故障检测点加入后 ,计算一下
专为故障检测功能而增设的部分其故障率
和单板总体的故障率 ,代入公式可以估算
单板的虚警率。当故障检测率 r
FD
越高 ,检测
电路的故障率越低时 ,虚警率就会越低。
3 结语
了可测试性与可靠性的关系 ,指
出通讯设备冗余措施要达到高可靠性的要
求必需依赖于高的可测试性 ,即使没有冗
余备份措施的单元 ,提高其可测试性同样
能达到提高设备可用度的目的。
参考文献
[1] 田仲 ,石君友 .系统测试性设计分析与
验证 [M].北京航空航天大学出版社 ,
2003.
[2] 李海泉 ,李刚 .系统可靠性分析与设计
[M].科学出版社 ,2003.
通讯设备的可测试性与可靠性分析
温王荣
(广州爱立信通信服务有限公司 广州 5 1 0 6 5 5 )
摘 要:为了满足通讯设备、网络设备等高可靠度和高可用度的要求,这些设备的重要组成单元都会采用冗余备份措施,借鉴失效模型故
障分析(FMEA)的思想,本文提出了一种新的关于故障检测率的定义方法,并在此基础上提出了一种提高冗余备份单元的故障检测率的设
计方法。
关键词:可靠性 可测试性 失效模型故障分析 系统设计
中图分类号 :TP274 文献标识码 :A 文章编号 :1672-3791(2011)05(a)-0026-01