自动化运维管理系统故障处理机制的设计与实现

自动化运维管理系统故障处理机制的设计与实现


2024年6月2日发(作者:)

ELECTRONICS WORLD

技术交流

自动化运维管理系统故障处理机制的设计与实现

中国电子科技集团公司第七研究所 沈晓慧 廖永行

随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网

络设备、服务器、储存设备、中间件、业务系统让运维人员难以轻

松应对,迫切需要自动化的运维管理服务,可以提供自动化的故障

处理机制,实现故障感知,故障预警,故障自愈及故障自动排查,

来实现高效的运维服务。

随着企业IT系统的规模扩大、复杂度不断提高、监控数据日益

增长,传统的运维管理平台已经不能满足互联网以及大数据时代运

维需求,智能化是运维管理平台的发展方向,自动化是智能化运维

的最佳实践。自动化运维管理系统可以实现设备的统一管理、实时

监控、数据采集、性能分析、故障诊断等自动化运维任务,可以最

大程度地减少运维的重复劳动,提高运维的工作效率。其中,故障

管理是自动化运维管理系统中非常重要的功能模块,自动化的故障

处理机制可以保证系统的稳定运行,为业务提供可持续性的支撑。

1 故障管理需求分析

故障管理过程分成故障发现、故障处理、故障恢复三个阶段。

在故障发现阶段,传统的运维管理系统缺乏有效的故障预警机制,

不能在故障发生前进行报警,需要等到故障发生后再由人工采取修

复措施,运维人员工作被动、效率低,且此时经常已经造成业务停

滞等更严重后果。在故障处理阶段,缺少流程化的故障排查机制

来引导故障排查,很难快速、精准的定位到故障原因。在故障恢复

阶段缺少规范化的故障解决指导方案来对故障进行快速的修复和处

理,且有一些简单重复的问题,耗费了运维人员日常大部分时间和

精力,可以定制故障恢复策略,辅助系统进行故障自愈。

图1 故障处理功能框架

2 故障处理机制设计

图1所示是本文设计的一个完整的故障处理过程,通过对采集

118

的数据进行分类汇总,处理完成后进行数据存储,对故障进行判

断,选择故障策略对故障做出预测,或为故障提供自愈手段,或提

供故障排查方案。针对复杂的业务场景,转移到人工排查处理。

2.1 故障数据采集

故障处理的基础是数据采集,数据采集来自于对管辖的设备、

应用系统的全面监控。如图2所示,本文实现的运维管理系统包含

对系统内设备对象的监控、对业务的监控、对下级运维系统的监

控。设备对象的监控包括设备的参数阈值、设备及系统的运行状

态,业务监控包括业务及用户的访问,对下级运维系统的监控包含

下级运维系统所监控的所有对象。

图2 数据采集

在数据采集的通道上,一种是通过定时轮询被管设备进行故障

信息的采集,同时根据需要定时去检查设备、业务的运行状态。另

一种来自设备、应用系统的主动上报和采集,将约定的有价值的信

息上传给运维系统服务器。

2.2 故障数据分析

故障处理的核心是对故障数据的分析。数据分析是对数据的一

种操作手段,用适当的统计分析方法对收集到的数据进行处理与分

析,提取有价值的信息,通常都是得到一个指标统计量结果,如总

和、平均值等,将这些指标数据与业务结合进行解读,发挥出数据

的价值与作用。通过对数据的分析提取,可以对将来的趋势和行为

进行预测,运维管理系统可以在故障发生之前,提供预警信息,结

合策略管理,帮助人们做出科学的决策,使得系统和业务得以持续

性稳定运行。

对于大量采集的原始数据,需要进行以下步骤的预处理:首先

剔除异常环境下产生的流程不完整的数据;然后依据故障现象和设

备类型,完成对数据的划分分类;接下来需要量化故障信息,针对

故障设备、故障原因和排查情况进行数据转化;最后,对故障现象

进行建模、关联、挖掘。通过以上步骤,能够在大量数据中提取故

ELECTRONICS WORLD

技术交流

障的关键要素信息,然后进行分析统计。

2.3 故障知识库

知识库用于存放数据分析所需要的领域知识,包括故障预警策

略、故障自愈策略和故障排查方案,本运维系统支持知识库直接导

入,便于用户操作使用。

故障预测功能需要有明确的故障预警策略。基于对运维对象的

经验认知,故障策略管理模块把运维故障抽象出来,模拟出一些常

见的故障场景,通过对待处理的需求、待解决的问题的理解,按设

备类型、业务类型、阈值范围制定一系列的故障预警策略。通过监

控系统获取业务运行指标、智能异常检测、网络异常事件,在故障

预警策略池中进行分类筛选匹配,对故障进行预警,并结合策略及

运维对象的状态反馈来适时调整执行规划。

要想实现故障自愈,首先得有明确的故障自愈策略。同样是基

于对运维对象的经验认知,将经常出现的故障及其自愈方案加入到

故障自愈列表中。监控到出现故障后,先在自愈策略中寻求故障匹

配,如果找到自愈策略,则根据策略对故障进行自恢复,否则转入

故障排查阶段。通过故障信息的收集分析处理和故障策略知识的应

用,可以构建各种故障的自愈能力,通过及时的发现异常,快速的

恢复,能够有效的提升业务的可用性和质量。

在故障排查阶段,为用户提供故障排查措施,并将故障信息

和推荐解决措施等信息通过可视化界面呈现给用户,帮助用户快速

的定位和排查故障。通过对比知识库中的历史故障数据对该故障信

息进行分类,结合故障知识库所存储的历史故障排查经验生成故障

排查树,对导致故障发生的因素进行数据分析,优先定位在发生概

率大的故障因素,按照排查流程指导用户快速排查,缩短故障修复

时间。决策由人工或系统进行,由系统执行并将执行的结果再次采

集。采集到的故障排查结果将通过加权,进一步优化故障知识库。

以路由器告警为例,一旦网络运维系统发现故障,系统将基于故障

知识库和历史数据,形成故障树,对故障因素进行排序,优先推荐大概

率事件的排查,以缩短故障排查时间。路由器告警故障树见图3所示。

图3 路由器告警故障树

故障树通过不同颜色标识不同的底事件发生的概率,发生的概

率越大,颜色越深,对比故障树,运维管理系统将逐步指导用户进

行排查,简单易操作,针对排查结果进行跟踪分析,优化故障知识

库。指引排查示意图见图4所示。

图4 指引排查示意图

如图5所示,根据指引排查步骤,运维管理系统可将故障定位

到现场可更换单元。并在排查步骤中获取设备位置、责任人、厂家

信息。便于快速维修、系统迅速恢复,保障系统持久可靠运行。

图5 故障信息示意图

2.4 故障可视化

运维管理系统管理的设备繁杂,设备之间链路关系复杂,故障

可视化可以让运维人员的管理工作变得高效便捷。本运维管理系统提

供被管设备的网络拓扑图,对被管设备及设备之间的链路进行实时监

控,在拓扑图中可实时更新设备、链路的故障信息,同时支持语音提

示、弹出窗口、颜色图形的变换及故障冒泡来提示故障信息,以帮助

运维人员直观的发现、定位故障。通过故障可视化,使运维人员可以

对全网故障形势一目了然,对全网运行状态作出快速研判。

系统长期运行必然会产生大量故障数据,本运维管理系统支持

故障信息记录和统计,可以按故障类型、故障产生时间、故障等级

等条件进行故障信息检索并生成故障统计图表。通过对故障信息的

统计汇总,为用户提供系统资源利用状况分析报告。

结束语:随着企业信息化程度的提高、IT环境规模的扩大和IT

环境复杂度的增加,如何保证IT系统安全稳定运行,为业务提供可

持继性的支撑,对IT系统运行维护支持以及IT服务水平提出了新的

要求和挑战。自动化运维管理系统中自动化、智能化的故障处理机

制,可以节省人力投入,通过预设定的处理流程和智能化的判断策

略,实现故障的快速定位,提高故障处理可靠性,降低故障处理时

间,提升服务稳定性,为业务可持续性保驾护航。

119


发布者:admin,转转请注明出处:http://www.yc00.com/web/1717280590a2736352.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信