实时监控平台让运维走向智能化——矿业计控检验中心网络设备智能运维攻关侧记
发布时间:2023-02-27 09:05:26监控模板305套、触发器14141个,监控项数量达24308个……自2022年矿业公司网络设备实时监控平台上线以来,实现了对矿区网络设备运行状态实时监控,提高了对网络设备运行状态风险识别能力,将网络运维从幕后推向台前,推动计算机网络运维管理由人工运维向智能运维转变。
公司中心机房肩负着百里矿区的网络通信责任,现有核心交换机、云平台、网络安全设备、erp服务器等网络设备160余套。其中,云平台云服务器包含云服务器操作信息、运行情况等日志信息,每天信息增长量高达500mb,相当于500多万行数据信息,数量大、种类多、运维难度非常高。运维人员无法做到全面巡检,多数情况只能出现故障再处理。处理时,必须现场检查设备运行状态,逐一分析cpu、内存、端口等数据指标,凭借经验进行故障原因判断,不仅效率低,而且无法对潜在故障进行预警,一旦发生重大故障,将影响公司整体网络与运营,甚至导致系统瘫痪。
“开源”pk“外购”
传统方式的人工运维已不能满足管理需求,急需采用技术手段,对网络设备进行7×24小时智能监控。经考察调研,社会市场有很多成熟的监控j9九游会真人游戏第一的解决方案,能快速实施部署,但价格昂贵、灵活性低,而且可拓展性差,后期增加网络设备时,需要厂家配合部署调试。本着“一切费用皆可降”的理念,矿业计控检验中心信息安全创新工作室结合公司实际情况,决定自主研究搭建网络设备运行状态实时监控平台,尝试采用开源技术,实现对网络设备运行状态的统计监控及实时分析。
综合考评择最佳
行业内常用的开源技术有nagios、centreon、cacti、ganglia、zabbix等,考虑到每项技术的适用环境不同,为选定符合矿山需求的技术,工作室成员李同同对每一项开源技术的部署方案、关键技术、模拟测试等方面进行试验。其中,模拟测试环节最耗时间和精力,从搭建虚拟环境开始,需要技术版本选型下载、环境匹配、安装部署、连通设备、创建模板、功能配置、模拟监控等16个大步骤,每一步需要完成不同参数的设定,无论哪个参数设定不合适,都无法进行下一步测试,更别说完成整体试验。
“虽然过程繁琐重复,但一定要细致严格。”李同同经过反复测试并深入对比发现,nagios功能单一,需要额外安装大量插件,centreon不易更改配置、可定制性差,cacti只适合特定场景,ganglia无告警机制,这些开源技术虽然应用简单,但无法满足公司管理需要。考虑到公司长远发展需求,工作室决定采用具有图形化监控和报警功能的zabbix技术。该技术功能强大,但部署却很复杂,需要进一步研究和攻关。
着眼长远勇攻关
公司网络设备不仅数量多,而且种类和品牌呈现多样化,这就意味着,在监控平台搭建过程中必须综合考虑各种影响因素,比如不同类型的操作系统、web服务、编程语言、数据库等。
对于常规的windows操作系统,建立监控平台与被监控端的连接,只需打开自带的snmp服务即可。但是公司服务器还有一部分linux操作系统,没有该项服务选项,只能通过执行程序命令的方式来实现,这对李同同而言是一项新的技术突破。他从查阅各类资料入手,在测试机开展性能测试,设置参数、分析报错、修改程序,百余次重复操作,终于实现了平台与被监控端的稳定连接。但这只是平台部署最初步的技术验证,为更好地梳理160余套网络设备,李同同将其分为交换机、服务器、数据库、应用等几大类,并有针对性地创建适合的监控模板,因品牌、连通方式等差异,仅交换机监控模板就多达25项,所有的部署工作也要重复25次。面对复杂的部署环境,工作室成员一项项测试,最终成功搭建了监控平台,实现了对网络设备cpu温度和占用率、内存使用率、风扇状况、端口状态、访问流量、响应时间等信息的实时展示,通过对以上大数据的分析,提高了对网络设备运行状态风险识别的能力,达到了对潜在故障的智能预警、故障定位的目的。
网络设备监控平台精准度高、预警性强,实现了对网络设备的可视化监控和管理,为公司网络、信息系统安全稳定运行保驾护航。