摘要
预测与健康管理(prognostics and health management, PHM)指标是否科学将直接影响PHM的设计效果,进而影响装备的可用性。针对实践中缺乏理论性与可实现性强的PHM指标论证方法,提出从装备综合效能指标到PHM综合指标、再到PHM能力指标的分级论证方法。选取可用度作为装备综合效能指标,定义了健康状态评估率并将其作为PHM综合指标,推导出可用度与健康状态评估率的关系式,以可用度最大化为目标求解出健康状态评估率指标。证明了健康状态评估率等于故障覆盖率与评估准确度的乘积,二者分别取决于感知单元的数量和诊断预测方法的准确性,这对开展PHM设计有指导意义。通过案例检验了上述方法的有效性和实用性。
Abstract
The PHM index is directly affected the design of PHM and the availability of equipment. In response to the shortage of theoretical and implementable methods, a graded demonstration method was introduced, outlining a progression from comprehensive efficiency indicators to PHM comprehensive indicators and then to PHM capability indicators. The availability was selected as the comprehensive efficiency indicator, and the health evaluation rate was defined as the PHM comprehensive indicator. The relationship between availability and health evaluation rate was derived. The optimal health evaluation rate was obtained by maximizing the availability. It was deduced that the health evaluation rate was equal to the product of fault coverage and evaluation accuracy, where depend on the number of sensors and the accuracy of diagnostic/prognostic methods, respectively. This conclusion can guide PHM design. The effectiveness and practicality of this method were verified by cases.
随着装备机械化、信息化、智能化“三化”的融合发展,装备状态监控、故障诊断等技术正朝着故障预测与健康管理(prognostics and health management,PHM)技术发展。国内外开展了大量研究,尤其是在信号获取、特征提取、健康状态等级划分、健康状态评估等几个关键环节取得了显著进步[1-4]。PHM指标既是开展PHM设计的输入和目标,也是开展装备PHM能力考核的依据,因此开展装备PHM指标论证研究具有重要的工程实践意义与理论价值。
在指标定义及选择方面,隆金波等[5]借鉴AIR5909等国外标准,从监测及诊断、预测、决策评价三个方面构建了机电系统PHM评价指标体系。徐玉国[6]提出了描述装备PHM系统故障预测能力的准确率、虚警率和漏检率三个指标。杨述明[7]从“准确性”和“时效性”两个方面定义了故障可预测率、故障正确预测率、故障预测率、故障预测时间等指标。杨占才等[8]提出了预测覆盖率,用于描述故障预测系统预测能力的覆盖程度。谭晓栋[9]提出了故障可跟踪率、故障正确跟踪率等指标及预计方法。赵志傲[10]从故障模式和退化过程二维特性出发,提出了两个以预测故障发生时间为输出目标的装备PHM系统故障预测能力度量指标及验证方法。文献[11]将诊断与预测性能指标视为PHM系统的能力考核指标。以上研究主要针对故障预测能力,并未涉及健康状态评估能力这一PHM关键能力,对此有必要做进一步研究。
在指标论证方面,文献[11]针对民用飞机给出了故障成功检测率应大于97%、误报率不超过4%、隔离率应大于95%、失效预报率应达到90%(阈值)~98%(目标值)的指标要求,但未给出论证方法。考虑到健康感知或健康管理可视为传统测试性的提升和拓展,二者具有相似性,它们都反映了对装备技术状态的感知能力,前者是对故障的感知能力,后者是对健康状态的感知能力。因此,可借鉴测试性指标论证方法来研究针对PHM指标的论证方法。现有测试性指标论证方法中研究较多的是模型法,其基本思想是建立测试性指标与相关指标的数学关系模型,代入相关指标的取值,求解出测试性指标。代表性的模型法有两种:一种是基于测试性与可靠性、维修性等通用质量特性之间的关系模型,通过优化权衡来确定测试性指标,称为权衡分析法[12-13],文献[14]在对上述关系模型推导的基础上,提出了一种可靠性、战备完好性和可维性(reliability,operational readiness and maintainability, ROM)模型论证法;另一种是利用Petri网构建装备测试、诊断和维修活动的数学模型,再通过数值分析方法确定测试性指标,可统称为Petri网法[15-18]。这两种方法不论采取哪种,都需要结合PHM指标的定义做适应性研究,从而得到科学合理的PHM指标。
针对上述问题,本文首先给出健康状态评估能力指标定义,给出数学公式并进行分析,然后提出一种以可用度为顶层指标求解健康状态评估指标的方法,最后进行案例分析。
1 总体技术路线
PHM能力评价指标很多,大多仅描述某单一方面的能力,若平行开展指标论证,则工作量较大,且不易理清各指标间的关系。对此,采取分级论证:将装备指标体系自顶向下分层,顶层为装备使用效能指标,作为输入;二级为PHM综合性能指标;三级为PHM分解能力指标。二、三级指标采取逐级论证的方式得到。本文主要解决二级指标论证问题,具体涉及三个问题:①确定哪些指标用来作为顶层、二级指标;②确定顶层、二级指标间的关系;③给出由顶层指标求解二级指标的具体方法。针对上述问题,本文给出的技术路线如图1所示。
图1指标论证的技术流程
Fig.1Technical flowchart of the index determination
步骤1:指标的提出。从PHM能力指标中选择一个综合性指标并给出其定义式。详见2.1节。
步骤2:确定顶层指标。从各种效能指标中选择可用度作为顶层指标。详见2.2节。
步骤3:基于固有可用度的指标论证方法。详见2.3节。
步骤4:基于使用可用度/可达可用度的指标论证方法。详见2.4节。
步骤5:案例分析。演示指标论证过程,分析中间变量对指标的影响。详见第3节。
步骤6:进行总结。详见第4节。
2 指标论证方法
2.1 健康状态评估率指标的提出
PHM能力主要包括状态监控、故障诊断、故障或寿命预测、健康评估、维修决策等。上述能力的核心是评判装备的健康状态,据此定义健康状态评估率,记为γHE。参考故障诊断率、预测率等指标定义,将其定义为在规定时间和条件下,正确评估(含诊断和预测)的故障数与已发生的和未来将要发生的全部故障数的比值,其定义式为:
(1)
式中,λS和λFE分别表示装备在单位时间内发生的和评估出的故障次数,即故障率。
该指标综合了故障诊断、预测和状态评估等多项PHM功能,可将其作为PHM二级指标。一旦确定了该指标,即可由它进一步论证诊断率、预测率等三级指标。
2.2 顶层指标的选择
装备使用效能指标包括可用度、出动率、任务成功率、战备完好率等,这些指标都可以用来作为PHM指标论证的输入。考虑到可用度是目前使用最多的效能指标,本文选择它作为顶层指标。可用度可进一步分为固有可用度、可达可用度、使用可用度等。其中,固有可用度仅考虑装备工作时间和修复性维修时间,可达可用度考虑装备工作时间、修复性维修和预防性维修时间,使用可用度在可达可用度基础上进一步考虑修复延误时间。考虑到可达可用度与使用可用度定义相差不大,下面选取固有可用度和使用可用度为顶层指标来介绍本方法。
2.3 基于固有可用度的指标论证
2.3.1 固有可用度与健康状态评估率的关系式推导
定义固有可用度为:
(2)
式中,AIE、TMTBF-SE、TMTTR-SE分别表示装备具有PHM系统时的固有可用度、平均故障间隔时间、平均维修时间。
希望把式(2)变成包含γHE的公式,进而通过使AIE最大化来求解γHE。
先推导TMTBF-SE。不妨令装备故障服从指数分布,则有:
(3)
式中,λSE、λE、λFA分别表示在单位时间内PHM系统报出的故障次数、发生的故障次数、报出的虚警次数。
令γFA表示PHM系统的广义虚警率(包含诊断虚警和预测虚警),有:
(4)
再令
(5)
将式(1)、式(4)~(5)代入式(3),可得:
(6)
式中,TMTTR-S=1/λS,表示装备不带PHM系统时的平均故障间隔时间。
再推导TMTTR-SE。当装备有PHM系统时,其平均维修时间通常为PHM系统发现故障的维修时间tFE、常规的(即装备没有PHM系统,纯粹靠人工排故)故障维修时间tNE、PHM系统自身故障的维修时间tE、PHM系统虚警带来的维修时间tFA的平均值,即
(7)
显然,当装备具有PHM系统时,其维修故障的时间会显著缩短,不妨令
(8)
通常,PHM系统自身故障及其虚警产生的故障维修时间与常规的故障维修时间相等,即
(9)
令TMTTR-S表示装备不带PHM系统时的平均维修时间,显然有
(10)
将式(1)、式(4)~(5)、式(8)~(10)代入式(7),消去中间参数,可得:
(11)
将式(7)、式(11)代入式(2),消去TMTBF-SE和TMTTR-SE,得到:
(12)
式(12)中,TMTBF-S、TMTTR-S可通过老装备使用统计数据获得。作为新装备论证时的输入数据,k表示有无PHM系统时平均维修故障的时间之比,根据航空机载设备和系统的使用经验,其一般取值为0.4,因此这三个变量在本文中视为已知量;γHE、γFA、β是未知量,其中γHE还是本文的求解目标,下面做进一步推导。
2.3.2 变量γHE的进一步推导
装备健康状态评估率高不高取决于两个方面:①负责监测故障的感知单元(传感器、机内测试、自动测试)是否覆盖装备的全部故障点;②诊断和预测方法能否对故障实现高准确度的诊断和预测。据此将式(1)改写为:
(13)
式中,M和m分别表示装备总的故障数和可监测的故障数,和分别为装备总故障率和可感知的总故障率,λi和ψi分别表示第i故障的故障率和对该故障诊断或预测的准确率;/为PHM系统对装备故障的覆盖率;ψ为对可监测故障的诊断或预测的平均准确率。
下面进一步推导/的近似表达式。通常,可监测的故障数m与构成PHM系统的感知单元数量n成正相关,即感知单元越多,可监测的故障越多。不妨令
(14)
下面进一步推导h(n)。除上述规律之外,当故障覆盖率增至逼近上限1时,即使n继续增加,它也不再增大。据此可知,h(n)应该是一个上凸的抛物线函数,具有以下性质:①定义域和值域分别为[0,∞)和[0,1];②单调递增,且h(0)=0,;③增速单调递减,即h′(n)≥0,
。
。
式(15)指数形式的函数可满足上述性质。
(15)
式中,α1为待定参数,可通过改变参数取值来改变函数h(n)的上升速度。
将式(14)~(15)代入式(13),可得:
(16)
式中:ψ的取值范围为[0,1];α1为待定参数,其取值满足当n逼近故障数M时,1-αn1逼近1。表1列举了不同M时α1的取值建议。
2.3.3 变量γFA的进一步推导
γFA为广义虚警率,根据式(4),它由λFA和λFE决定。首先,综合式(1)、式(16),有:
(17)
其次,λFA与感知单元n的关系如下:当n较小时,λFA随n的增大而快速增大;当n较大时,可能出现冗余的感知单元,此时通过相互证实可能过滤一部分虚警,即λFA随着n的进一步增大而缓慢增大。据此,参考函数h(n),将λFA表示为:
表1α1取值
Tab.1Values of α1
(18)
式(18)中,α21和α22为待定参数,其取值满足:当n逼近故障数M时,(1-αn22)逼近1,γFA逼近虚警率上限。表2列举了ψ取值为0.95、γFA不超过0.08,不同M时α21的取值。α22的取值与α1的取值相同。
表2α21取值
Tab.2Values of α21
将式(17)~(18)代入式(4),得到:
(19)
2.3.4 变量β的进一步推导
β为感知单元故障率与装备故障率之比。不妨假设每个感知单元的故障率相等,则有:
(20)
式中:表示被测故障的平均故障率;α3为待定参数,表示单个感知单元的故障率。通常要求感知单元的可靠性比被测对象高一个数量级,即当n逼近M时,α3/≤0.1,可据此设定α3的取值。
通过上文推导,将变量γHE、γFA和β表示为变量n的函数;将式(16)、式(19)~(20)代入式(12),将AIE表示为变量n的函数;绘制AIE曲线,得到使AIE最大或使其刚好满足要求时对应的n值,将其代入式(16),得到γHE。上述步骤中还涉及一些中间变量,如α1、α21、α22和α3,需要在计算前确定它们的取值。
2.4 基于使用可用度/可达可用度的指标论证
定义使用可用度为:
(21)
式中,AO、TMTBM和TMDT分别表示使用可用度、平均维修间隔时间和平均不能工作时间。TMTBM包括累积工作时间(记为To)和累积待机时间(记为Tv),TMDT包括修复性维修时间(记为TCM)和预防性维修时间(记为TPM)。
(22)
(23)
式中:TCM包括平均维修时间和平均延误时间;TPM在没有PHM系统时主要是定时维修时间,因为是有准备的维修,所以仅有平均维修时间。于是有:
(24)
(25)
其中,TMLD表示平均后勤延误时间,TMTBPM-S表示平均预防性维修间隔时间,To/TMTBF-S和To/TMTBPM-S分别表示工作时间内的故障后维修次数(等于发生的故障数)和预防性维修次数。
综合式(21)~(25),有:
(26)
设计PHM系统后可知:①受PHM系统影响,平均故障间隔时间由TMTBF-S变为TMTBF-SE,平均维修时间由TMTTR-S变为TMTTR-SE;②对可预测故障实现视情维修,其维修时间仅含平均维修时间;③对非可预测故障只能采取事后维修,其维修时间为平均维修时间加延误时间。不妨令可预测故障数与可监测故障数量之比为ρ,对式(24)和式(25)分别进行修改,得到:
(27)
(28)
式中,(1-αn1)(1-ρ)+αn1为非可预测故障占工作时间内总故障的比例,(1-αn1)ρ为可预测故障占总故障的比例。
再令带有PHM系统的使用可用度为AOE,综合式(21)~(23)、式(27)~(28),有:
(29)
将式(6)、式(11)代入式(29),即可得到AOE的最终表达式。
在给定To、Tv和TMLD时,式(29)与式(12)相比还多了一个变量ρ。在后面的案例中,将分析该变量对指标的影响。
若不考虑延误时间,则去掉式(29)中的TMLD即可得到可达可用度AAE的表达式。
3 案例分析
考虑到可达可用度与使用可用度定义相差不大,下面仍选取固有可用度和使用可用度作为顶层指标来演示本文方法,并分析中间变量对指标论证结果的影响。
3.1 基于固有可用度的案例分析
以可用度为顶层指标演示健康状态评估率的论证过程,分析参数ψ对指标的影响,并与战备完好率做顶层指标的论证结果进行比较。
3.1.1 指标γHE论证过程演示
参考文献[14]中的数据,TMTBF-S=150 h,TMTTR-S=30 h,M=57。不妨令k=0.4、ψ=0.95,可算得参数α1=0.922 4、α21=5.452 2×10-4、α22=0.922 4、α3=1.169 6×10-5。绘制出AIE、γHE和γFA随变量n的变化曲线,如图2、图3所示。
图2函数AIE曲线
Fig.2Curve of function AIE
图2是AIE随n的变化曲线,可以看出:①AIE曲线表现出先升后降的特点,这说明增加感知单元数量可提升装备固有可用度,但是过多的感知单元反而有害;②可用度极大值点位于n=36处,即当感知单元数量为36时,可使固有可用度最大。
图3案例1函数γFA和 γHE曲线
Fig.3Curves of function γFA and γHE in case 1
图3是案例1函数γHE和γFA随n的变化曲线,可以看出:①γHE、γFA均随n逐渐增大;②γHE在n位于区间[0,40]时增速较大,而在区间(40,100]变化平缓;③γFA在n区间[0,40]增速较大,而在区间(40,100]变化平缓。这与前文对γHE和γFA的分析结论一致。取n=36,可得γHE=0.898 2,γFA=0.075 6。
3.1.2 参数ψ对指标的影响分析
依次取ψ=0.95、ψ=0.85、ψ=0.75、ψ=0.65、ψ=0.55,其他参数仍采用前面的设置,绘制AIE、γHE和γFA曲线,如图4、图5所示。
图4不同ψ时的函数AIE曲线
Fig.4Curves of function AIE with different ψ
由图4可知:随着ψ的增大,AIE曲线整体上移,这说明诊断或预测算法准确度越高,使用可用度越高。由图5可知:随着ψ的增大,γHE曲线整体上移,而γFA曲线整体下移,这说明准确度增大带来γHE指标的提升和广义虚警率的下降,这与前文分析结果一致。
图5不同ψ时的函数γFA和γHE曲线
Fig.5Curves of function γFA and γHE with different ψ
3.1.3 同已有方法对比
文献[14]基于战备完好率论证诊断率指标,其关键公式为:
(30)
式中,OSE表示带有PHM系统的装备的战备完好率,tr表示修理时间,tn表示从接到作战任务到任务结束所经历的时间。将式(30)中的参数KR和KM推导过程涉及的诊断率和虚警率分别替换成本文的健康状态评估率和广义虚警率,并采用本文的参数估算方法进行指标计算。
应用上述仿真算例数据,此外利用文献[14]中的数据tn=240 h、tr=20 h,计算并绘制OSE和AIE随变量n的变化曲线,如图6所示。
可以看出:①两条曲线趋势一致;②固有可用度整体高于战备完好率,这是因为二者计算式有所不同,前者为分数式,而后者为指数式,此外还与给定的TMTBF-S和TMTTR-S有关,但这一差别对求解γHE指标影响不大;③OSE曲线的极大值点位于n=45处,不同于AIE的n=36,这与二者的计算式有关,这一差别将影响γHE指标结果,将n=45代入式(16)和式(18),得到γHE=0.922 8,γFA=0.077 9。可见基于相同数据,由固有可用度得到的指标略高于由战备完好率得到的指标,这是二者定义式的不同造成的差异,对指标计算结果影响不大。
图6函数OSE和AIE曲线
Fig.6Curves of function OSE and AIE
3.2 基于使用可用度的案例分析
以可用度为顶层指标演示健康状态评估率的论证过程,并分析参数ρ对指标的影响。
3.2.1 确定指标γHE
据文献[19]中的数据,某装备年均应工作5 000 h,工作中的平均故障间隔时间为50 h,平均故障维修时间为30 min,维修故障因时间管理和资源保障方面所造成的平均延误时间不超过20 h,规定装备每工作1 000 h需要进行10 h的预防性维修,装备每年还有12 d因转移运输而停用。根据上述条件,有To=5 000 h,TMLD=20 h,TMTBF-S=50 h,TMTTR-S=0.5 h,TMTBPM-S=10 h。
下面计算累积待机时间Tv,它可理解为装备可工作但不工作的累积时间,通常不会直接给定,可用全年总小时数(记为Tw)减去累积工作时间To、累积转移运输停用时间(记为Tz)、累积维修时间(记为Tu)后的剩余时间表示,即
(31)
式中,Tw=365×24 h=8 760 h,Tz=12×24 h=288 h,Tu=TCM+TPM,根据式(24)~(25),有TPM=50 h,TCM=2 050 h。将上述参数代入式(26),可得AO=0.752。这是没有进行PHM系统设计时装备的使用可用度。
设计PHM系统后,用式(29)计算使用可用度。文献[19]中未提供装备故障数,考虑到在实际开展指标论证时,无法获取准确的故障数,对此可将组成设备或可更换单元的数目视为故障数,不妨令M=85。再令k=0.4、ψ=0.9、ρ=0.25,算得α1=α22=0.947 3、α21=0.001 5、α3=2.352 9×10-5。
据此,绘制出AOE、γHE和γFA随变量n的变化曲线,如图7、图8所示。
图7函数AOE曲线
Fig.7Curve of function AOE
图8案例2函数γFA和γHE曲线
Fig.8Curves of function γFA and γHE in case 2
图7为使用可用度AOE随n的变化曲线,可以看出:①曲线表现出先升后降的特点;②极大值点位于n=43处,此时AOE=0.792 6。相比未设计PHM系统,该装备使用可用度可提升0.04。
图8是案例2函数γHE和γFA随n的变化曲线,取n=43,可得γHE=0.807 5,γFA=0.072 4。
3.2.2 ρ对指标的影响分析
依次设置ρ=0.05、ρ=0.15、ρ=0.25、ρ=0.35、ρ=0.45,绘制AOE随n的变化曲线,如图9所示。
可以看出:①随着ρ的增大,AOE曲线整体上移,这说明随着可预测故障占比的增大,使用可用度显著提升;②随着ρ的增大,AOE极大值点对应的n值变大,相应地,带来γHE指标的提升,这是因为随着可预测故障数的增加,只要针对这些故障相应增加感知单元数即可提升健康状态评估率。以上结论与理论分析结果是一致的。
图9不同ρ时的函数AOE曲线
Fig.9Curves of function AOE with different ρ
4 结论
本文定义了一种PHM能力指标——健康状态评估率,给出了由装备可用度作为输入论证该指标的方法,并进行了案例分析,主要结论如下:
1)定义健康状态评估率作为PHM综合能力指标是合理的,实施分解指标论证是可行的。
2)推导发现,健康状态评估率可表示为故障覆盖率与评估准确度的乘积,前者与感知单元充分与否相关,后者与诊断/预测方法准确性相关,这对开展PHM设计有指导意义。
3)案例分析发现,装备可预测故障占比越高,带来的可用度增益越大,这对开展PHM预测能力设计有指导意义。
4)三种可用度均可用于健康状态评估率指标论证。实际中宜优先选用所需参数多的可用度作为输入,因为参数越多,论证结果越可信。
5)与已有方法对比发现,二者曲线相似,结果较为相近,相互佐证了有效性。鉴于实际中可用度应用更普遍,且涉及参数较少,因此本方法具有更好的适用性。




