传统运维工作是以人工处理为主,通过各种专业的人对系统进行检查的方式来发现系统中存在的问题。随着系统复杂性和建设规模不断增大,各种复杂设备对人的要求越来越高。
初级的运维管理系统应运而生,
这类系统是以“工具”的形式出现,即“我不知道该看什么指标,该管什么设备,反正我都可以管,具体怎么管用户自己定”。系统投运后,大量的工作都需要用户自己完成,转变不外乎从登录设备操作改变到登录运维系统进行操作。这样的运维管理系统一旦部署,用户的工作量并没有任何改变
,对这类管理系统更大体会就是难用。因此,
用户也迫切希望建设具有自动管理能力,更像一个高水平的“管家”帮助用户全方位的监控各类系统的运行状况,及时给出异常提醒和操作建议。
阈值管理也是传统运维管理系统的核心特征。通过设置设备运行的固定阈值,来界定设备处于正常和故障两种状态。
然而事实上,阀值管理很难对实际的运维管理工作有指导意义。这是因为由于各类设备都承载了各种业务,由于每个用户实际业务不同,即便完全相同的设备的运行指标也呈现出不同的负载变化。另外运维管理系统的核心价值体现是“防患于未然”,
采用固定阈值的结果是走向两个极端,要么设备故障了才告警,要么一堆告警而设备完全正常。这两种极端会导致用户被动处理各种故障或者对故障提醒麻木。这些都导致运维管理的核心价值没有体现。因此真正的管理应遵循设备本身的实际运行状态情况,“贴身”描绘出各个设备各个时间段的性能变化情况,并根据变化情况建立跟踪曲线,通过跟踪曲线可以真正建立趋势管理视角,依据设备运行数据变化情况来做趋势分析和预测,准确把握设备处于健康状态、亚健康状态和“生病”状态。
所以趋势管理才是用户真正需要的运维管理。
虽然大多数用户建设信息系统时采用的设备、技术都有相似性,但是系统的复杂性、耦合性、环境多样性都导致每个用户的运维管理重点与难点是存在较多的差异。这种差异既有实际环境中带来的各种现实问题,也有不同发展阶段不同运维要求带来的实际问题。这些都要求运维管理系统提供全面、深入的管理能力同时还需要具备开放性,能够根据用户自身运维经验提供“私人专属”的定制运维策略能力,将用户历史的运维经验,目前的管理重点都通过智能运维策略自动实现,真正实现即兼顾全面的综合运维管理要求又能充分兼顾用户个性化运维诉求。
综上所述,以大量KPI库为核心,以阈值管理来区别设备正常或者故障,以通用标准为诉求点的旧运维管理系统已经越来越难以适应用户管理要求。具备自动学习功能,可以完整学习各类设备日常运行状况,根据基线数据自动运维,主动汇报设备异常,可以根据用户真实管理要求进行定制策略智慧运维管理平台将成为用户选择的主流。