三. 新闻网络的管理维护经验
在讨论了新闻网络日常管理维护的基本任务之后,下面将把我们在网络实践中得到的一些经验和体会提供给读者作为参考。
1.维护人员的管理机制
无论怎样完善的网络维护管理策略都是由人来执行的,所以维护人员的基本素质和业务能力是网络管理维护水平的重要决定因素。通过对网络运行特征和维护任务的阐述,读者已经可以发现,新闻网络对维护人员有着比其它业务网络更高的要求。
目前,对于国内电视台新闻网络的管理者来说,总是存在着这样的困惑,那就是合格网络维护人员的匮乏。这是因为在电视台的数字化、网络化进程中,受近年来电视发展状况和管理体制的限制,相关人材的补充和更新速度相对较慢,网络管理维护人员往往由原来操作、处理传统设备的技术人员构成,其组织结构也采用旧有管理模式。一般来说,在这种管理体制下,维护人员很难具备制作模式网络化变革所需要的专业技术能力,组织结构也不能适应新的管理需求,总是习惯性地用陈旧的观念和手段来完成网络的管理和维护,这在无形中限制了网络化制作模式优势的发挥。
在我们的网络实践中,为克服这一障碍,建立了比较新的网络维护人员管理机制。我们成立了台内专门的网络管理机构,同时与网络系统集成商签订了技术服务协议,采用电视台网络管理机构和集成商运营维护部在协议工作框架下,双方合作共同负责新闻网络管理维护的模式。通过较长时间的实践,我们认为这种管理维护模式存在以下好处:(1)维护双方可以相互监督、取长补短,共同促进维护水平的提高;(2)新生力量的加入解决了电视台方专业技术人才不足的问题,有利于运行维护的职业化、规范化,从而提高整体维护水平;(3)可以与网络开发人员保持畅通的技术交流渠道、加速问题的反映和解决过程,并提高系统集成商对所建设网络的责任感;(4)考虑到台内外收入水平的差异,可以节约总体维护成本。无疑,与旧有模式相比,新的网络管理机制具有比较明显的优势和生命力。
当然,我们在实践中发现这种合作管理模式也不是十全十美的,主要表现为尽管维护双方的基本出发点一致、都希望促进网络的应用水平,但在某些问题上还是会产生一定的分歧。有意思的是,产生分歧时,双方对同一类问题的立场经常是不固定的、有时甚至是互换的。比如对网络潜在危险的处理上,厂商一般会更多地考虑经济利益、倾向于解决到不影响正常工作的层面,而电视台方总是习惯从政治要求出发、希望百分之百、甚至百分之二百地解决问题。而在对网络故障的即时处理上,厂商一般倾向于彻底解决问题后再恢复正常运行,但电视台方迫于节目生产的压力总是希望尽可能快地恢复新闻生产,哪怕系统带病作业也在所不惜。应该承认,如果解决不好这种分歧,对双方的合作是有害无益的。
总的来看,合作管理维护模式在国内电视台新闻网络生产业务领域还是一种新兴方式,具有比较光明的发展前景。同时,这种模式对我们提出了更高的要求,首先要在网络建设阶段选择好有实力的合作伙伴,还要在网络维护过程中加强相互间的磨合,逐步达到理想的效果。
2.故障的应急处理
尽管对于作为电视台支柱业务的新闻生产系统,我们会在方案选择阶段和管理维护过程中从多种角度采取有效措施来维持其整体可用性,但从辩证唯物主义的角度来看,网络异常和故障的发生是必然的。虽然如此,维护人员如何去面对故障、将故障对网络正常运行产生的影响降低到最小程度,却是一个至关重要的问题。
在网络实践中我们发现,网络的异常和故障具有这样的特点,那就是往往以小规模、低危害的形式发生。如果我们的维护人员不能从网络异常的蛛丝马迹中敏锐地发现潜在的危险,或者在处理网络异常的过程中没有集中足够的注意力,甚至对处理手段可能引起的后果缺乏必要的预见性,那么小异常往往会演变成大故障,给新闻节目生产带来重大影响。在这方面我们曾经有过惨痛的教训。那是在系统试运行期,存储数据库文件的共享SCSI盘塔的风扇报警,维护人员在解决过程中不慎碰到了电源开关,致使数据库处于读写状态时存储体掉电,造成库文件丢失且不可恢复。由于当时网络处于试运行期,相应的数据恢复手段还不完备,故障之后的恢复工作整整用了12小时,并且很多重要数据彻底丧失。尽管事件发生在晚上,但还是对新闻节目的正常制作和网络的推广应用造成了很不好的影响。
当然这是一个比较极端的例子。我们想说明的是,任何表面上看起来无足轻重的网络异常都有可能因维护者的轻率导致最严重的后果。教训促使我们非常重视对维护人员故障处理原则和手段的培养。在我们的网络中,始终遵循对异常敏于发现、慎重处理的原则,维护人员首先要明确网络异常的性质,如果适逢网络运行的高峰期,对单机和局部故障的处理尤其要小心,必要时可以放到网络运行的空闲期再来处理。其次,维护人员对处理手段的潜在危险要做到事先预见,对可能产生重大影响的技术手段要由网络高级管理人员拍板决定是否执行,并做好应急准备。以上的故障处理原则形成制度后,我们发现网络的异常和故障尽管仍然不可避免、爆发的形式也多种多样,但最终导致严重后果的情况越来越少,故障的威胁得到了有效遏制。
关于故障处理,还有一个问题需要引起我们的重视,那就是制定有效的故障应急方案并加强网络维护人员的定期演练,这样才能保证故障发生时维护人员可以做到遇变不惊、心中有数。在网络建设过程中,我们一般都会制定比较详尽的故障应急方案。但是随着网络正常业务的开展,维护人员对故障处理的认识往往会变得模糊。同时,网络的软硬件配置环境也会随着网络应用的逐步深入而改变。作为网络管理者,我们需要定期督促维护人员严格验证故障应急方案的可行性。这样一方面可以加深维护人员对故障处理的理解和认识,另一方面也可以根据实际环境的变化对应急方案予以必要的补充和完善。
3.软件的修改升级
在我们的网络实践中,软件的升级主要包括两类:一类是系统软件升级,一般是指设备制造商提供的固件升级(Firmware Upgrade),即对固化在设备内部的系统软件升级;另一类是应用软件升级,一般是指系统集成商提供的操作软件升级。前者主要是针对稳定性所做的修改,而后者主要是针对功能性所做的补充。
对于系统软件升级,我们的原则是:既要重视升级的作用,又要慎重安排升级的过程。毕竟系统软件的升级一般是需要停机完成的,而网络的整体关闭和重启过程要比传统设备复杂得多,且具有一定的危险性。由于此类升级主要是修改一些使用过程中发现的Bug,而这些Bug不一定会立竿见影地表现为异常、但有可能在一定时间周期或条件下发作,所以这类升级对消除设备运行中的潜在危险很有帮助,我们切不可因为升级目的不明确而予以忽视。
与此同时,我们在升级中要注意保持不同设备固件之间的兼容性,不要因为系统软件升级给网络运行带来新的安全隐患。众所周知,网络是一个开放的平台,来自不同厂商的设备通过统一、标准的接口相互访问和调用。但是,在通用接口协议之外,各个厂商为保持自身产品的特点和提供高于标准的性能,都会采用一些非通用的、独特的技术手段,这就容易导致设备之间的兼容性问题。网络的应用越细化、设备间的调用越深入,兼容性问题就会越突出。在系统软件升级时由于要引入新的系统软件版本,可能产生的兼容性问题不可低估。在我们的网络实践中,每次设备固件升级都会要求设备厂商彼此确认最兼容的软件版本,以防升级带来的隐患。
必须指出,这种兼容性方面的安全隐患一旦形成,由于其爆发的不确定性,是很难被发现并解决的。我们就有过这方面的经验。在网络运行过程中通过设备环境监测我们发现,共享存储体S2A的控制器HSTD的主机端口(Host Port)偶尔发生瞬时信号中断的现象。虽然大部分情况由于设备的自动恢复机制发挥作用并未造成严重后果,但有一两次最终演变为端口故障,需要重新初始化端口。通过仔细观察,我们发现,每一次发生这一现象的端口都是连接在一台FC交换机上的,并且每次出现情况的交换机不同。经分析,我们怀疑是控制器HSTD和交换机Firmware的兼容性可能存在问题。通过厂商确认最佳兼容版本后,我们对双方进行Firmware升级,升级后异常消失。在这个例子中,虽然兼容性隐患最终被消除,但前后花费了大约两个月的时间和大量精力进行测试、观察和比较,如能事先考虑到这方面的问题就不至于这么被动了。
相对于系统软件升级而言,由于目前国产软件的成熟度和稳定性都无法和国外商业软件相比,加之用户需求的随意更改现象比较普遍,应用程序的升级要频繁得多。在实践中,我们对应用程序的升级建立了一套规范的工作流程,以保证其顺利进行。首先我们要求