基于AI的基站及回传网故障定因

C114通信网
摘要:中国联通广东分公司针对大面积断站故障场景,对5G基站和回传网的网络特性和关联特征进行分析后,提出基于AI的故障定因解决方案。该方案基于AI算法,通过对回传网设备日志的学习和抓取,结合设备告警、性能等数据进行关联分析,实现基站及回传网的故障定因,同时提出最佳抢修建议。
1
概述
2019年6月6日中国联通获颁5G运营牌照,5G网络的建设和商用进一步提速。广东联通作为5G的先发城市,到2019年底预计全省开通10 000个以上5G站点。
1.1 5G网络运维面临挑战
5G网络建设的推进,促使网络规模不断扩大、网络复杂度不断提升,2G/3G/4G/5G四代同堂,故障修复越来越难。于此同时,传统的维护手段和工具,如性能监控、告警类应用通常处理的数据量较小、数据相关性分析不足、故障前瞻性预测不够。对5G网络和业务的运行状况进行持续有效的监控,迅速实现故障恢复是5G业务保障的重要工作。
1.2 AI技术的发展和应用推广迅猛发展
AI技术诞生于20世纪中叶,几经沉浮,近年来借助于现代计算和数据存储技术的迅猛发展而再次复兴,凡是给定场景涉及到了数据的统计、推断、拟合、优化及聚类,AI均能找到其典型应用。目前,AI应用已经渗透到语音识别、图片识别、视频识别等技术领域,覆盖行业包括车联网、物联网、互联网等。
AI技术为5G网络运维面临的挑战提供了一种超越传统理念与性能的可能,已成为业界重点关注的研究方向,3GPP、ITU等组织均提出了5G与AI相结合的研究项目。AI取代缓慢易错的人力决策部分,快速给出决策建议或提前规避故障,基于AI的运维创新将大大提升网络运维效率。
2
解决方案
广东联通2018年底启动“5G+AI项目组”,选取基站及回传网的主要故障场景进行了详尽的分析,提出了基于AI的基站及回传网故障定因解决方案,方案主要包括三大部分。
a)资源管理:通过移动回传网与基站的资源动态关联,实时感知业务状态。
b)事件推理:基于设备日志的学习及抓取,还原网络中的关联事件,提供最佳抢修建议。
c)根因定位:对关联事件中的关键信息进行学习,由专家进行标注,直达故障根源。
2.1 资源管理
广东联通目前无线基站数量已经超过12万,作为回传网的IPRAN设备数也已经超过3万,随着5G网络建设的进一步加快,网元数量会更多。按照传统的资源管理模式,广东联通要安排至少22个专职的工程师进行网络资源数据的管理。
作为整个方案的基础,提出通过基于基站与回传网的信令链监测,实现资源自动关联,同时做到4G/5G基站的自动识别,在故障处理时强化业务感知能力。基站和回传网资源数据的自动识别,为AI算法在事件推理和根因分析中的应用提供必备的基础。
目前IPRAN网络中对基站的地址管理,网络部署方案采用L2VPN+L3VPN(简称L2+L3)和L3VPN+L3VPN(简称L3+L3)2种,在不同的网络部署方案中,基站的网关会配置在不同角色的设备上,其中L2+L3组网的基站网关配置在汇聚设备ASG,L3+L3组网中基站网关配置在CSG上。
2+3基站发现流程如图1所示。
图1:2+3基站发现流程
a)无线侧:通过ftp服务器获取无线基站相关信息,包括基站名称、MAC、IP地址、GPS信息等。
b)IPRAN侧:采集所有基站的mac地址、IP地址;采集ASG至CSG PW的连接信息;构建CSG与基站MAC的关系。
c)无线侧与IPRAN跨专业关联:通过基站mac与IP把无线的基站信息与IRPAN的CSG进行关联。
L3+L3基站发现流程如图2所示。
图2:L3+L3基站发现流程
a)无线侧:通过ftp服务器获取无线基站相关信息,包括基站名称、MAC、IP地址、GPS信息等。
b)IPRAN 侧:采集所有基站的mac地址、IP地址,构建CSG与基站MAC的关联关系。
c)无线侧与IPRAN跨专业关联:通过基站mac与IP把无线的基站信息与IRPAN的CSG进行关联。
以广东某地(市)为例,通过上述方式发现的基站占比到达98%,准确度100%。
研究发现,基站如支持新一代发现协议,如LLDP,系统可以通过60 s刷新的粒度进行监测,满足后续分析的需要。
2.2 事件推理
基于基站及回传网设备的资源信息,系统可以快速收集全量网络日志信息,并通过AI算法实现事件推理,最大程度地还原网络发生的事件,从而给出最佳的抢修建议。事件推理通过离线分析积累故障经验库,通过在线分析推理出故障原因。系统架构如图3所示。
图3:事件推理技术架构图
日志量、模块数异常检测:以5 min的颗粒度对日志量以及模块数以3σ准则进行异常数量检测,假设当前时刻t6的日志量和模块数分别为N6,C6,分别计算出前6个周期(t0~t5)的日志量和模块数的均值u1、u2和方差σ1、σ2,若 (|N6 - u1|>3 σ1 )and( |C6 - u2|>3σ2 )则判定此时刻的日志为疑似异常,触发日志异常检测模块。
日志截取:基于日志量、模块数,对疑似异常时间段取前后5 min日志进行截取分析。对日志以10 s时间粒度为界限,以滑动窗口方式进行截取,若10 s内出现新的日志窗口继续后延10 s,直至无日志出现。
如:将2018年 9:30:39 s的数据进行合并,10 s内的日志归并为同一事件所产生的日志,即:9:30:39 - 9:30:43 s的日志为同一个事件的日志。同理9:31:09 - 9:31:11 s的日志共4条为同一事件的日志。
基于日志内容NLP异常检测:基于历史日志,使用异常检测算法Autoencoder对截取的日志内容进行异常检测,判断日志内容是否为异常。该方法采用autoencoder作为编解码器,分别为编码 encoder与解码decoder,其中encoder和decoder分别有2层,其中encoder参数分别为16维,8维, decoder参数分别为8维,16维,输入one-hot编码的文本。
日志分类模型:若检测日志内容为异常,利用离线训练好的分类模型,对日志内容进行类别区分。
故障推理:故障推理是根据故障日志类别与故障经验库进行比较,识别出故障类型,并根据日志中关键信息,提取出故障主体信息,从而绘制出完整的故障事件。
2.3 根因分析
系统通过对日志信息的提取和分析,对关联事件中的关键信息进行学习,并由专家进行标注,直达故障根源。
以日志The physical status of the port changed to Down. (EntPhysicalName=“GigabitEthernet0/5/0”, hwPortDownReason =“LOS”) 为例:
a)提取日志模板:将检测出异常的日志,转换为数字词典的形式,同一类日志对应同一个数字,并提取其中变量,如案例日志提取为:[日志1,“GigabitEthernet0/5/0”, “LOS”]。
b)抽取重要日志:由专家进行标注训练二分类模型,实现抽取性文本摘要功能,抽取出能反映根因的日志,并按照日志手册返回时间可能原因以及处理意见。
c)工程师注解:光丢失,建议派单至传输专业。
3
现网验证
以广东某地(市)2019年3月25日发生双开故障为例,通过该方法快速感应到故障所在位置,并且快速得出故障根因。
3.1 拓扑及故障还原
通过移动回传网与基站的资源动态关联快速感应到故障所在位置(见图4)。
图4:故障所在环路拓扑图
3.2 异常检测及预警
3.2.1 流量异常告警
环路中的ASG设备接口GigabitEthernet4/0/4从2019-03-25T14:15就开始陆续出现流量异常告警。
3.2.2 日志异常告警
系统实时检测环路中的设备,以5 min的颗粒度对日志量以及模块数以3σ准则进行异常数量检测,发现设备10.28.74.14在2019-3-25的14:15和14:50都有日志预警,该设备日志数量环比上升2 266%,日志成分数量环比上升466.6%,超过3σ准则动态阈值,判定此时刻的日志为异常。此外算法还监控到设备10.28.74.11在2019-3-25的14:50、设备10.28.74.19在2019-3-25的15:40均有日志异常。
3.3 事件推理分析
上述算法识别出来的异常事件点的日志进一步模板格式化,为每一条日志打上分类标签,并分配一个离线训练好的模板ID,调用日志内容NLP异常检测算法Autoencoder,检测到设备10.28.74.14日志的还原误差是918.2828993、设备10.28.74.22日志的还原误差是908.7424327、设备10.28.74.11日志的还原误差是595.5569471,还原误差均超过误差阈值50(经验设定值)。
系统通过算法Autoencoder分析出<10.28.74.14>、<10.28.74.22>、<10.28.74.11>3台设备日志有异常。同时,捕捉到< 10.28.74.14>设备在 2019-03-25T14:17:18 有环口链路中断日志, 在2019-03-25T17:07:34 有环口链路中断恢复日志;捕捉到<10.28.74.22>设备在2019-03-25T14:49:00有环口链路中断日志,在2019-03-25T15:38:32有环路链路恢复日志;算法捕捉到<10.28.74.11>设备在2019-03-25T14:49:00有环口链路中断日志,在2019-03-25T15:38:32有环路链路恢复日志。
根据捕捉到的异常日志中的关键信息,结合故障主体信息,从而绘制出完整的故障事件。
与故障经验库进行比较,进一步推理识别出故障类型,分析该故障的根因为链路双开:2019-03-25T4:49,某地(市)AR**环路双开引起大面积断站。
4
结束语
基于研究的成果,先后在广东联通多个地(市)进行测试验证,试点应用情况如下。
2019年5月在广东某地市开始试用,完成2次抢修验证,抢修优先级统筹时间由30 min大幅缩减至3 min,提速90%。
对于故障的定因分析,2019年5月开始某地(市)试点,在线监测分析22个接入环,200台设备的日志,基于日志对历史故障离线验证5次,跟工程师验证效果吻合,准确率100%。
综上所述,基于AI的基站及回传网故障定因方案,可以借助AI算法和IT系统的能力,切实解决困扰运维部门的维护难题,为广东联通在5G网络运维提供了高效可行的技术手段,有望在广东联通未来的5G网络运维中大幅提升工作效率和降低运营成本。
▍参考文献
[1] 尤肖虎,张川,谈晓思,金石,邬贺铨. 基于AI的5G技术_研究方向与范例[J].中国科学:信息科学,2018(12)1589-1602
[2] 任凯,邓武,俞琰. 基于大数据技术的网络日志分析系统研究[J]. 现代电子技术,2016(2)39-41
[3] 姜传菊. 网络日志分析在网络安全中的作用[J]. 现代图书情报技术,2004(12)58-60
[4] 文娟,薛永生,段江娇,王劲波. 基于关联规则的日志分析系统的设计与实现[J]. 厦门大学学报:自然科学版,2005(B06) 258-261
[5] 张春生,郭长杰,尹兆涛. 基于大数据技术的IT基础设施日志分析系统设计与实现[J]. 微型电脑应用,2016(06)49-52
[6] 李德新. 基于数据挖掘的网络日志分析[J]. 电脑知识与技术:学术交流,2011(9) 6074-6075
[7] 应毅,任凯,刘亚军. 基于大数据的网络日志分析技术[J]. 计算机科学,2018(B11)353-355
[8] 黄健青,黄浩. Web日志分析中数据预处理的设计与实现[J]. 河南科技大学学报:自然科学版,2009(5)45-48
[9] 韩放. 基于模型的日志合理性分析评价指标[J]. 电子技术与软件工程,2017(1)192-192
[10] 葛中魁,汪锋,林康. 基于自身告警关联实现基站故障精准定位[J]. 电信技术,2017(12) 40-43
[11] 曲桦,栾智荣,赵季红,徐西光,张涛. 基于软件定义的以用户为中心的5G无线网络架构[J] .电信科学, 2015(05) 42-46
[12] 胡晓娟,张园,夏旭,邓桓. 基于SDN融合的虚拟化移动核心网络研究[J] .电信科学, 2013(09)51-54
[13] 潘乙林. 5G无线网络物理层关键技术探析[J]. 电子世界,2018(23)71+73
[14] 周勇. 5G无线通信网络物理层关键技术[J]. 数字通信世界,2018(10)40+47
[15] 刘云. 5G无线通信网络物理层关键技术分析[J]. 通讯世界, 2017(09)118-119
▍作者简介
叶晓斌,工程师,学士,主要研究AI在通信网络中的应用相关工作。
姚丽红,工程师,硕士,主要研究AI在通信网络中的应用相关工作。
刘惜吾,工程师,硕士,主要研究AI在通信网络中的应用相关工作。
马丹丹,工程师,硕士,主要研究AI在通信网络中的应用相关工作。
程亚锋,工程师,硕士,主要研究AI在通信网络中的应用相关工作。