基于SLA实现5G设备CPE故障告警实时上报的方法技术

技术编号:30556892 阅读:17 留言:0更新日期:2021-10-30 13:38
本发明专利技术涉及一种基于SLA实现5G设备CPE故障告警实时上报的方法。其特征在于包括SLA指标体系选择和告警实时上报监控过程,SLA指标体系包括:1)服务可用性,2)时延和丢包率,3)测速速率;告警实时上报监控过程包括:1)数据解析,2)告警上报,3)告警监控。本发明专利技术可以灵活设置针对不同业务目的方向IP的时延,丢包率指标阈值进行监控,通过端侧测速统计,获取真实的管道最大带宽速率,实现多设备多层次实时监控;其次通过串联衔接SEQ、DSI、LTM、CPE等服务模块实现SLA指标故障告警实时上报,配合使用故障树定界主动发现故障问题根因,从而提高故障定位的及时性、准确性和系统可靠性。准确性和系统可靠性。

【技术实现步骤摘要】
基于SLA实现5G设备CPE故障告警实时上报的方法


[0001]本专利技术涉及一种基于SLA实现5G设备CPE故障告警实时上报的方法。

技术介绍

[0002]由于5G无线网络技术刚起步,运营商管理5G无线网络设备CPE时通常采用下列方式:1)依赖人工监控端到端5G无线网络设备:运营商可以看到CPE模式、AR模式设备网络状态以及设备参数,可直观进行基本的在线离线监控,但设备关键运行指标信息需依靠人工触发检测测试后获知;2)投诉处理中被动发现故障问题:对于5G无线网络设备而言,设备故障是客观存在,随机发生的,5G网络运维和投诉处理中,收到用户投诉工单后逐一对5G无线网络设备问题分析定位,传统的故障定位主要依赖于人工处理。
[0003]现有技术存在以下缺点:1)缺乏可衡量手段:当客户设备出现故障并出现争议的时候,需要有相对客观的衡量方法,同时能够让运营商自证清白。于是产生SLA指标衡量体系,SLA指标体系是一种合同契约的要求,SLA指标泛指(速率、时延、丢包、可用性等),对于接入的5G无线网络设备CPE目前没有通用手段可以实时监控周期行指标运行数据;2)缺乏实时上报故障告警功能,自动化程度低:当前5G无线网络终端通过人工触发检测测试获知每个无线网络设备的关键运行指标信息,人工对比指标参照值判断设备运行状态如何,当设备出现故障问题时,相关受影响的关键运行指标信息不能及时获知,导致维护时间长,效率低,客户满意度差。

技术实现思路

[0004]针对现有技术中存在的问题,本专利技术的目的在于提供一种基于SLA实现5G设备CPE故障告警实时上报的方法的技术方案。
[0005]所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于包括SLA指标体系选择和告警实时上报监控过程,(1)SLA指标体系包括:1)服务可用性服务可用性指CPE无线网络设备在面对异常时能够提供正常网络服务的能力,即服务的效果、效能和效率,体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警,测量对象包括CPE模式和AR模式;2)时延和丢包率时延指CPE无线网络设备在访问网络另一端的IP地址得到响应的所需要的时间,体系中故障告警标识分为各个目的方向IP上的时延大于阈值告警即时延告警;丢包率指CPE无线网络设备在访问网络另一端的IP地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,体系中故障告警标识为各个目的方向IP上的丢包率大于阈值告警即丢包率告警,测量对象包括CPE模式和AR模式;3)测速速率
测速速率指CPE无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警,测量对象不区分CPE模式和AR模式;(2)告警实时上报监控过程包括:1)数据解析,包括CPE模式数据解析和AR模式数据解析;2)告警上报,包括CPE模式告警上报和AR模式告警上报;3)告警监控,包括周期性指标监控和告警监控。
[0006]所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:服务可用性中断告警上报监控过程如下:步骤一:数据解析CPE模式:(1)CEP模块接收用户表中所有属于CPE模式的用户号码所对应的用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息,此用户数据就会输出加载到PT数据库的疑似故障用户列表内;(3)SEQ的WEB模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的CPE设备号码、随机获取一个目的方向IP;(5)用每个CPE设备号码和目的方向IP向DSI发送所属的IPPing检测指令请求;(6)DSI接收到请求后立即转发请求到LTM;(7)LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;(8)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的IPPing Result检测指令请求,通过DSI转发到LTM,LTM触发CPE设备提交IPPing Result检测测试;(9)CPE设备会将IPPing检测测试结果反馈给LTM;(10)LTM再将反馈信息立即返回给DSI;(11)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;(12)WEB模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;AR模式:(1)CEP模块接收用户表中所有属于AR模式的用户号码对应的7张用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息,则进行AR模式下告警上报步骤;步骤二:告警上报CPE模式:
(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小丢包率检测值为准;(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条告警标识信息供告警监控使用;(5)CEP模块此后若再一次收到同一CPE设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此CPE设备链路异常已经恢复;(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息;(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条告警恢复标识信息供告警监控使用;(8)此CPE设备往复继续执行上述告警上报过程;AR模式:(1)CEP模块实时解析流入的用户流量数据信息,关联用户表获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码这些数据信息;(2)同时记录链路异常起始时间点为Time1;(3)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条服务可用性中断告警标识信息供告警监控使用;(4)CEP模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的CPE设备链路异常已经恢复;(5)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于包括SLA指标体系选择和告警实时上报监控过程,(1)SLA指标体系包括:1)服务可用性服务可用性指CPE无线网络设备在面对异常时能够提供正常网络服务的能力,即服务的效果、效能和效率,体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警,测量对象包括CPE模式和AR模式;2)时延和丢包率时延指CPE无线网络设备在访问网络另一端的IP地址得到响应的所需要的时间,体系中故障告警标识分为各个目的方向IP上的时延大于阈值告警即时延告警;丢包率指CPE无线网络设备在访问网络另一端的IP地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,体系中故障告警标识为各个目的方向IP上的丢包率大于阈值告警即丢包率告警,测量对象包括CPE模式和AR模式;3)测速速率测速速率指CPE无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警,测量对象不区分CPE模式和AR模式;(2)告警实时上报监控过程包括:1)数据解析,包括CPE模式数据解析和AR模式数据解析;2)告警上报,包括CPE模式告警上报和AR模式告警上报;3)告警监控,包括周期性指标监控和告警监控。2.根据权利要求1所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于:服务可用性中断告警上报监控过程如下:步骤一:数据解析CPE模式:(1)CEP模块接收用户表中所有属于CPE模式的用户号码所对应的用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息,此用户数据就会输出加载到PT数据库的疑似故障用户列表内;(3)SEQ的WEB模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的CPE设备号码、随机获取一个目的方向IP;(5)用每个CPE设备号码和目的方向IP向DSI发送所属的IPPing检测指令请求;(6)DSI接收到请求后立即转发请求到LTM;(7)LTM识别请求的CPE设备号码,触发CPE设备提交IPPing检测测试;(8)WEB模块30秒后会再次用CPE设备号码向DSI发送所属的IPPing Result检测指令请
求,通过DSI转发到LTM,LTM触发CPE设备提交IPPing Result检测测试;(9)CPE设备会将IPPing检测测试结果反馈给LTM;(10)LTM再将反馈信息立即返回给DSI;(11)DSI接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到SEQ的WEB模块,一份输出到CEP模块,一份输出到SPARK模块;(12)WEB模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,CEP模块接收后进行告警上报步骤,SPARK模块接收后进行告警监控步骤;AR模式:(1)CEP模块接收用户表中所有属于AR模式的用户号码对应的7张用户面XDR单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)CEP模块内保存每个用户号码对应提取的数据信息,若超过5分钟CEP模块再没收到这个用户的流量数据信息,则进行AR模式下告警上报步骤;步骤二:告警上报CPE模式:(1)CEP模块实时解析流入的合规格式数据,获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向IP、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向IP数据,则以30秒内所有目的方向IP数据中最小丢包率检测值为准;(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此CPE设备链路异常,同时记录链路异常起始时间点为Time1;(4)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条告警标识信息供告警监控使用;(5)CEP模块此后若再一次收到同一CPE设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此CPE设备链路异常已经恢复;(6)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为Time2并用用户号码关联为一条链路异常恢复信息;(7)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条告警恢复标识信息供告警监控使用;(8)此CPE设备往复继续执行上述告警上报过程;AR模式:(1)CEP模块实时解析流入的用户流量数据信息,关联用户表获取5G设备参数信息、主要包括企业名称、用户号码、CPE设备号码这些数据信息;(2)同时记录链路异常起始时间点为Time1;(3)CEP模块保存此设备链路异常信息,并同时向PT数据库加载一条服务可用性中断告警标识信息供告警监控使用;(4)CEP模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的CPE设备链路异常已经恢复;(5)因为CEP模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时
间点为Time2并用用户号码关联为一条链路异常恢复信息;(6)CEP模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向PT数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;(7)由于流量数据信息不包含服务小区电平值、服务小区质量值,SEQ的WEB模块定时间隔3分钟扫描PT数据库中的属于服务可用性指标、AR模式的CPE设备告警信息,用这些告警信息所属的CPE设备号码请求无线数据接口获取服务小区电平值、服务小区质量值,用此更新CPE设备告警信息填入服务小区电平值、服务小区质量值;同时对有Time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;(8)此CPE设备往复继续执行上述告警上报过程;步骤三:告警监控周期性指标监控:(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库获取此CPE设备服务可用性中断的时间总和;(2)按照可选月粒度、年粒度计算出服务可用性中断占比;(3)获取最新计算后的结果数据实现实时监控;告警监控:(1)SEQ的WEB模块定时间隔3分钟重新查询PT数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。3.根据权利要求2所述的基于SLA实现5G设备CPE故障告警实时上报的方法,其特征在于所述检测条件如下:A、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空继续B,其中新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空;B、从用户工作时间表里获取此用户对应星期的当天工作时间分段,若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件。4. 根据权利要求1所述的基于SLA实现5G设备CPE故障告警实时上...

【专利技术属性】
技术研发人员:严龙卢斌高铖黄钢吴培培林正董乐为张洪斌
申请(专利权)人:杭州东信网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1