媒体网关MGW自定义告警的应用
成果上报申请书
成果名称 媒体网关MGW自定义告警的应用
关键词索引(3,5MGW、自定义、告警
个)
对企业现有
规范的符合度:(按填写说明5)
完全符合现有规范
成果来源:如果该成果来源于集团研发项目,请填写研发项目年度、项目名称及类型(按填写说明6)
专利情况:如果该成果产出相关专利,且专利处于国知局专利申请审查阶段或已授权,请说明专利名称、类型、申请号、状态、是否海外申请等情况。(按填写说明7)
成果简介:简要描述成果目的和意义,解决的问题,取得的社会和经济效益。
在现网中,媒体网关MGW肩负着转发语音和信令的双重作用。随着技术的发展,爱立信交换设备MGW的集成度越来越高,每块板卡都会集中多个处理器,当其中一个处理器不能正常运行时,交换机往往会没有告警呈现。此时,会造成客户电话单通或交换机接通率明显下降,客户拨打时易出现拨几次才能拨通的情况。在这种情况下,有的可以通过性能统计告警发现,有的需要完全靠客户投诉才能发现问题。
由于交换机性能统计以小时为单位输出,输出后,需要先进入网管数据库进行解析,解析后,才能根据设定的阈值进行判断分析,告警才能出现在网管告警监控平台。整个过程历时需要1.5小时。也就是说,性能统计告警在交换机运行已经出现异常时需要1.5小时才能呈现出来。而此时,客户通信早已经受到影响。
为了能先于客户发现交换机运行异常问题并及时处理,辽宁公司结合历次MGW板卡处理器隐性故障,对MGW 关键KPI指标进行了全面分析,并对新升级版本CNPR6.2.2.0功能进行了深入的研究,经过多次实验、测试和观察,通过在媒体网关MGW自定义告警,最终实现了对交换机运行异常现象的及时发现,使原来通过性能统计告警1.5小时才能发现的网络问题或通过客户投诉才能发现的网络问
1
题,在2分钟内即可呈现。
成果应用后,在多起MGW硬件处理器隐性故障发生时,均能通过关键KPI指标异常自定义告警反映出来。维护人员通过传送到网管告警监控平台的网元自定义告警,即可立即发现问题并及时进行处理,从而将问题消灭在萌芽中,极大提升了我省的网络质量。
省内试运行效果:描述成果引入后在本省试运行
、取得的效果、推广价值和建议等。 运行方案及效果:
2012年7月,在全网105台爱立信MGW进行了MGW自定义告警设置工作,从8月份自定义告警工作部署完成后,在多起MGW硬件处理器隐性故障发生时,关键KPI指标异常自定义告警均能在2分钟内立即呈现到网管告警监控平台中,使维护人员能及时进行处理,将问题消灭在萌芽中,极大提升了我省的网络质量。
推广价值:
?适用广泛
该研究成果适用于所有爱立信CNPR6.2.2.0软件版本MGW。
?高效性
该项成果的应用,使原来经过1.5小时才能发现的MGW硬件处理器隐性故障提升为2分钟内即能发现,极大提升了问题发现和解决速度,从而使我省网络质量得到提升。
?低成本性
爱立信MGW CNPR6.2.2.0软件版本为集团要求升级版本。该工具由维护人员自主
、研发,不需要再进行任何额外投资。
文章主体(3000字以上,可附在表格后):根据成果研究类别,主体内容的要求有差异,具体要求见表格后的“填写说明8”。
1 背景情况
在现网中,媒体网关MGW肩负着转发语音和信令的双重作用。随着技术的发展,爱立信交换设备MGW的集成度越来越高,每块板卡都会集中多个处理器,当其中一个处理器不能正常运行时,交换机往往会没有告警呈现。此时,会造成客户电话单通或交换机接通率明显下降,客户拨打时易出现拨几次才能拨通的情况。在这种情况下,有的可以通过性能统计告警发现,有的需要完全靠客户投诉才能发现问题。
由于交换机性能统计以小时为单位输出,输出后,需要先进入网管数据库进行解析,解析后,才能根据设定的阈值进行判断分析,告警才能出现在告警平台。整个过程历时需要1.5小时。也就是说,性能统计告警在交换机运行已经出现异常时需要1.5小时才能呈现出来。而此时,客户通信早已经受到影响。
2
2 技术方案
2.1 概述
为了能先于客户发现交换机运行异常问题并及时处理,辽宁公司结合历次MGW板卡处理器隐性故障,对MGW 关键KPI指标进行了全面分析,并对新升级版本CNPR6.2.2.0功能进行了深入的研究,经过多次实验、测试和观察,通过在媒体网关MGW自定义告警,最终实现了对交换机运行异常现象的及时发现,使原来通过性能统计告警1.5小时才能发现的网络问题或通过客户投诉才能发现的网络问题,在2分钟内即可呈现。
2.2 网络解决方案
梳理MGW到其它外部网元的接口及相关
栈。结合历次MGW板卡处理器隐性故障进行深入分析,最终确认在MGW中有8处关键KPI指标为一旦下降指标即会有业务受到影响指标,需要及时关注(如下图图中标注红色部分),分别为以下7个方面:
1. pmNrOfContextsRej(对应图中01)标识Context分配情况,每一个通话数据链路的建立对应
一个Context,所以Context的分配情况与业务严密关联。
2. pmNrOfIpTermsRej(对应图中02)标识IP Termination分配情况,对应于Nb接口话务物理资
源的分配使用情况。
3. pmNrOfAal2TermsRej(对应图中03)标识ATM Termination分配情况,对应于IuCS接口的话
务物理资源的分配使用情况。
4. pmNrOfOrigNbInitFaults(对应图中04)标识Nb接口初始化成功情况,直接反映MGW之间的
话务状态。
5. pmNrOfGcpRetrans(对应图中05)和pmNrOfGcpSentPendingMess(对应图中06)标识MGW
与MSC-S之间的应用层通信情况,GCP层的工作状态直接反映。
6. pmNrOfSentIpbcpRejectMsg(对应图中07)标识MGW之间在Nb接口初始化前的IP地址和
UDP端口号等信息交互情况。
7. pmSctpStatRetransChunks(对应图中08)标识MGW与MSC-S之间的通信情况,SCTP层的
工作状态直接反映。
3
通过对MGW功能的深入研究,经过多次实验、测试和观察,找到了自定义网元告警的方法,可以将上述8个计数器的变化情况定义成网元告警,这样一旦计数器发生变化,告警会在2分钟内从网元反映到网管监控系统,从而实现隐患的迅速发现。同时,根据拓扑图可知,当下带RNC,下带BSC,上连CE,相关MSC-S,相邻MGW等任何网元发生潜在问题时,都会迅速从已经定义了此告警的MGW上有所反应。
2.3 自定义告警的具体定义方法
通过爱立信MGW维护软件Node Manager登录到MGW网元, 选择Mo View , ManagedElement , SystemFunctions , PerformanceSupervision , 右键点击 , 选择Mo Action , 弹出下图对话框
4
在此对话框分别定义梳理出的8个计数器的告警,对应各项指标的参数设置情况如下: 1. pmNrOfContextsRej,managedObjectType为Vmgw,counterName为pmNrOfContextsRej,
thresholdType默认,thresholdValue定义为20,alarmSeverity定义为3,告警名称定义为
User define alarm High Contexts Rejections,userOpi不填写。
2. pmNrOfIpTermsRej,managedObjectType为Vmgw,counterName为pmNrOfIpTermsRej,
thresholdType默认,thresholdValue定义为20,alarmSeverity定义为3,告警名称定义为
User define alarm High IP Terms Rejections,userOpi不填写。
3. pmNrOfAal2TermsRej,managedObjectType为Vmgw,counterName为
pmNrOfAal2TermsRej,thresholdType默认,thresholdValue定义为20,alarmSeverity定
义为3,告警名称定义为User define alarm High Aal2 Terms Rejections,userOpi不填写。 4. pmNrOfOrigNbInitFaults,managedObjectType为Vmgw,counterName为
pmNrOfOrigNbInitFaults,thresholdType默认,thresholdValue定义为20,alarmSeverity
定义为3,告警名称定义为User define alarm High Nb Init Faults,userOpi不填写。 5. pmNrOfGcpRetrans,managedObjectType为Vmgw,counterName为pmNrOfGcpRetrans,
thresholdType默认,thresholdValue定义为20,alarmSeverity定义为3,告警名称定义为
User define alarm High GCP Retrans,userOpi不填写。
6. pmNrOfGcpSentPendingMess,managedObjectType为Vmgw,counterName为
5
pmNrOfGcpSentPendingMess,thresholdType默认,thresholdValue定义为20,
alarmSeverity定义为3,告警名称定义为User define alarm High GCP Pending,userOpi
不填写。
7. pmNrOfSentIpbcpRejectMsg,managedObjectType为Vmgw,counterName为
pmNrOfSentIpbcpRejectMsg,thresholdType默认,thresholdValue定义为20,alarmSeverity
定义为3,告警名称定义为User define alarm High IPBCP Rejections,userOpi不填写。
8. pmSctpStatRetransChunks,managedObjectType为Vmgw,counterName为
pmSctpStatRetransChunks,thresholdType默认,thresholdValue定义为20,alarmSeverity
定义为3,告警名称定义为User define alarm High SCTP Retrans,userOpi不填写。 3.效果
成果应用后,在MGW板卡处理器隐性故障发生时,MGW自身能实现对关键KPI指标的监控,一旦异常,立即出现告警,使原来通过性能统计告警1.5小时才能发现的网络问题或通过客户投诉才能发现的网络问题,在2分钟内即可呈现告警。
在应用后的多起MGW硬件处理器隐性故障发生时,均能通过关键KPI指标异常自定义告警反映出来。维护人员通过传送到网管告警监控平台的网元自定义告警,即可立即发现问题并及时进行处理,从而将问题消灭在萌芽中,极大提升了我省的网络质量。
4 本省应用推广情况
2012年7月,在全网105台爱立信MGW进行了MGW自定义告警设置工作,从8月份自定义告警工作部署完成后,在多起MGW硬件处理器隐性故障发生时均能及时出现告警。从而使维护人员能先于客户发现问题,将问题消灭在萌芽中,极大提升了我省的网络质量。
6