【IT168 专稿】目前,对于中大型企业用户,市场竞争的重点正在转变成以客户为中心的服务质量的竞争。由此引发的是企业业务应用的持续增加,其IT基础设施的架构也变得越来越复杂,然而,单纯凭某个网管工具或某个人,已经不能胜任如此大的工作量同时也无法满足业务紧迫性的要求。
【 困惑一】业务繁多,管理分散
随着网络规模的不断扩大,网络设备数量和各种应用软件系统的逐渐增多,软件和硬件设备出现问题的情况也越来越多,运维人员的压力非常大。运维人员每天需要处理大量的网络、设备、系统故障,处于一种“救火员”工作方式,缺乏宏观的针对业务系统监控,变被动查错为主动发现。面对整体架构复杂的各种系统,多层次、多环节的问题定位复杂,处理滞后。
某大型三甲医院,各类网络设备和客户端数量众多,信息中心有运维人员15人,部分年龄偏大,技术能力参差不齐,网络经常出现故障,导致无法正常挂号、缴费引起病人及家属的强烈不满,甚至被投诉到院长办公室。虽然每个运维人员也都尽力工作,但是交换机、路由器、防火墙、各个系统平台、数据库、Web服务器、各应用系统及这些系统设备运行环境……等等,每个环节都要有人维护,人员成本越来越高。负责数据库的不懂交换机,负责防火墙的不懂应用系统,负责中间件的又不懂路由器,每天所有的技术人员一个都不能少的待命。信息中心主任感到非常苦恼,一时又没有好办法。
【困惑二】效率低下,知识无法共享
运维人员疲于被动地应对多套管理工具,多种形式的告警。分离的故障和投诉不仅大大降低了已有网络资源的利用效率和维护人员的工作效率。另外,对系统异常的处理因人而异,无法沉淀或形成知识管理,经验难以共享。
有一个现实的例子,某国内大型油田,有勘探部、钻探部、开发部、档案部等六个部门,计算机网络分为四个网段内,约600台计算机和服务器。其中,网络设备厂商有Cisco、3Com、Dlink;服务器操作系统有Windows2000、Windows2003、SUN Solars、Linux、SGI、AIX等。
该大型油田曾试用过几乎所有的免费、专业网络管理软件,但发现难以满足油田现有业务对IT环境可管理性的要求,还曾测试用过多家网络设备厂商提供的管理软件,但发现只能管理其自己公司的网络设备,并不能管理操作系统、系统应用。这些零散的工具都限于对单项资源或单项应用的分散监测,故障发生时,很难从分散的告警中分析出真实的故障根源;更无法提前发出预警,预防事故的发生,保障业务的运行。 我们仔细分析一下这个大型油田企业,会发现,其网络管理自动化程度低,维护人员疲于被动的应对多套管理工具,多种形式的告警,分离的故障和投诉。不仅大大降低了已有网络资源的利用效率和维护人员的工作效率,也造成IT管理严重脱节于企业业务的整体管理。随着网络规模的不断扩大,网络设备数量和各种应用软件系统的逐渐增多,软件和硬件设备出现问题的情况也越来越多,因此建设统一的IT管理平台就成了当务之急。
【困惑三】管理无依据
由于不能自动收集来自网络、系统、应用的多方面事件并对其进行关联分析处理,所以大量的事件会对故障分析和解决造成较大的混淆性。缺乏对系统数据维护的量化的依据以及对CIO、维护人员、操作人员提供方便直观的报表处理能力。
某政府部门,机房建在老楼,环境比较差。空调、UPS突然断电,温湿度、消防、漏水等经常出现问题却又无法提前报警,严重影响内部OA业务系统的正常应用,新领导非常重视OA系统的应用,所以运维人员每天都一个人在机房进行巡视,但还是不能保证系统稳定。
【困惑四】缺乏环境监控
对机房环境缺乏日常监视和常见故障处理功能,如果能对这设备的状态和参数进行统一监控,并可诊断设备部件情况,当设备故障或报警发生时及时给出报警信息,那对运维工作的帮助就太大了。
出现以上问题,主要是因为目前采用的IT管理工具大都是从以传统的IT元素监控为出发点,管理自动化程度低,存在着对以人为管理中心的严重依赖,维护人员疲于被动的应对多套管理工具,多种形式的告警,分离的故障和投诉,这就给IT系统带来了很多系统和安全隐患。不仅大大降低了已有网络资源的利用效率和维护人员的工作效率,也造成IT管理严重脱节于企业业务的整体管理。那么怎样才能保证核心业务系统的稳定运行的同时又能及时发现系统存在的问题呢?
|