解放运维工程师你需要服务器智能运维
原标题:解放运维工程师你需要服务器智能运维
随着互联网、5G、IoT等技术的飞速发展,全球大型数据中心数量将以3.6%的复合年增长率增长,数据中心规模不断扩大,数据中心服务器规模已经达到10万级,这不仅需要更多的运维工程师,给企业增加运维成本,同时给运维工程师也带来了极大的难度和挑战:如何及时发现异常设备?异常根因是什么?故障是否能自愈?是否能预测故障?性能趋势是什么?如何决策?
运维发展历程:人肉运维、自动化运维和智能运维
早期的运维工作,大部分是由运维工程师手工完成,这被称作人肉运维。服务器运行状态,全靠运维工程师每日肉眼查看,进行问题定位与解决。自动化运维应运而生,大大提升了发现异常设备的效率,降低了运维成本。但是,面对故障根因、故障预测、性能趋势和控制决策,自动化运维力不从心。
Gartner在2016时提出了智能运维(ArtificialIntelligence for ITOperations)的概念,并预测到2020年,智能运维的采用率将高达50%。从服务器运维的角度来分析服务器智能运维,目标就是通过对带外信息(配置信息、状态信息、性能信息、日志等)和带内信息(配置参数、性能信息、日志信息)进行采集,通过机器学习的方式来解决运维问题,提高系统预警能力和稳定性,降低运维成本,提高运维效率。
异常快速检测,问题准确告警
在服务器运维中,异常检测是根本,常见的有三大监控数据:状态指标、性能指标和日志数据,状态指标一般误报率较少,而传统性能指标的设置阈值,常常某一时刻产生噪点数据而产生误报;对于周期性变化的数据又无法进行动态调整,也常常产生误报,大大降低了告警的准确性。日志一般是半结构化数据,根据日志级别产生告警,其准确性极差,并且只能检测到已知和确定模式的异常。
浪潮服务器智能运维采用无阈值告警,无需人为设置阈值,通过对时序数据进行去噪、升维、方差等处理后,经过神经网络、LSTM、随机森林等算法进行动态的学习,达到对监控的性能指标,自动、实时、准确的识别出异常数据。对于日志的处理,通过对单条日志的语义识别和日志文件的时序识别方式,经过自然语言、专家系统、神经网络、深度学习等算法进行训练或者维护,从而不断完善,达到日志异常的准确检测。
故障智能处理,轻松运维soeasy
智能故障诊断是建立在异常检测之上,有了准确的异常检测,通过综合各个异常指标进行数据的融合、过滤、权重等处理,使用神经网络、SVM、随机森林等智能算法,寻找问题根因,给出问题解决方案,使得运维工程师能够分钟级解决问题。
智能故障预测是对设备某一部件的性能数据和状态的动态检测,对原始数据进行数据挖掘,寻找特征数据建立数学模型,使用神经网络、SVM等智能算法进行在线/离线训练,形成预测模型。在部件发生故障前,感知故障,从而避免业务宕机,提高系统稳定性。
智能故障自愈是指故障确认后或者预测到故障时,无需人为干预,能够通过重启、配置或者一定的流程,使得系统能够恢复正常。故障自愈,需要维护一定的规则或者对故障进行标记,经过神经网络、SVM等算法进行训练,形成自愈模型,实现系统的故障自愈。
智能决策,感知未来发展
浪潮服务器智能运维工具可对服务器的性能数据进行预测,经过ARIMA、至小二乘法、指数平滑、LSTM等智能算法,能够感知系统在未来几个小时、几天或者一年的数据的走势、增长量或者周期性变化等,不仅为人工预测或者智能决策提供基础数据,还能够为业务系统提供优化建议。
浪潮服务器智能决策是建立在异常检测、故障诊断、故障预测、性能预测等之上,通过建立数据模型,经过神经网络、深度学习、专家系统等智能算法的不断学习,形成决策模型,无需人为干预,对服务器的配置参数进行智能调整,版本基线的升级/回退等决策,从而达到系统性能优、异常少、功耗低等效果。
例如监控服务器运行的性能,在业务少的时候,可以将服务器功耗降低,在集群方式下,甚至可以进行服务器关机操作,在业务量大的时候,将服务器性能调整至优等智能决策。在整机柜/机房中,功耗的管理,当服务器都处于满载时,服务器的功耗是否超越了整个机房或者机柜的大功耗,超越之后如何进行智能决策等。
智能推荐,发掘无限价值
智能推荐是对平台大量数据的统计、计算、分析和挖掘等处理,建立数据模型,通过神经网络、深度学习、至小二乘法、SVM等智能算法,建立推荐模型,实现对整个数据中心进行分析和预测,来指导客户决策服务器下架、备件量、扩容量、缩容量、采购厂商等。例如某一型号服务器的故障率过高,维护费用相应增高,建议下架,又由于业务的增长,需要采购新的服务器,通过智能算法评估采购量,进行推荐。
目前,浪潮依托自身技术优势,已自主研发了一系列自动化、智能化服务器管理软件集,从服务器上架、配置、部署、监控、故障分析等实现了全生命周期运维管理。其中ISPIM(浪潮物理基础设施管理平台)突破了大规模基础设施智能管理平台的分布式网格架构、高性能数据采集框架及智能分析系统、无状态管理技术,实现大规模服务器的全生命周期的智能管理。