微博

QQ

分级多通道硬盘播出系统中视频服务器的运行维护

2011-10-17 刘国胜 传播与制作


【摘要】 本文对运行多年的中央电视台分级多通道硬盘播出系统运行维护提出自己的想法。

【关键词】 硬盘播出系统 运行维护 典型故障

  随着时代的变迁,广播电视行业为了适应不同受众对电视节目内容的各种需求,大规模增加电视频道的数量,而原有的播出系统已不能满足数字电视飞速发展的需求。近些年,网络技术、硬盘存储技术的不断成熟,以硬盘服务器、视音频设备、网络设备构建的多通道硬盘播出系统,被越来越多地运用到广播电视领域。2003年9月1日我台搭建的24套付费标清和2套高清的多通道硬盘播出系统对外正式开播。接着在2006年5月18日20套常规多通道硬盘播出系统也正式投入使用。

  一.系统构成

  多通道硬盘播出系统主要由视频服务器系统,软件控制系统及监测报警系统等部分组成。

  视频服务器系统由上载级、存储级、播出级等部分构成。上载级配备机械手、录像机、编、解码板等,可以实现自动调度上载,解码板实时回放,逐一审看素材。存储级搭建了与近线,音像资料馆等的连接接口,完成对外围系统的素材传输,我们把存储在上载集群和播出集群中的素材叫做在线存储,把存储在数据流磁带库的素材叫近线存储。播出级采用双簇镜像并增加冗余备份解码通道的配置,从而保证系统的互备性和安全性。此种方式的优点是:播出集群任务单一,减少了播出集群的传输和操作,增加了系统的稳定性。采用这种功能分级的模式,是适应频道数量多,节目需求量大,系统升级扩展性好等要求。简单的说,分级模式就是根据需要将服务器的结构划分成多个不同的集群。比如,播出集群专门负责播出,上载录制集群专门负责录制、审看素材,存储集群专门负责存储以及与其它系统的连接,如近线存储系统、音像资料馆、SATA库等等。这种功能分级会大大提高整个系统的稳定性,而且还有利于今后的系统维护工作。

  中央电视台目前运行的两套硬盘播出系统,由于搭建时间的不同及各自系统承担的任务不同,使得两套系统在功能设计上有着一些区别。付费系统于2003年建成,其上载集群是配置一对一编码卡和解码卡来进行工作的。受当时硬盘技术发展的制约,上载集群中的素材盘是36GB的SCSI硬盘,容量存在局限性,只能增加存储集群以满足需求。常规系统2006年投入使用,其集群中单个节点内素材盘容量为146GB的SCSI硬盘,由于硬盘容量的提高,常规硬盘系统采用两级存储,从而简化了系统结构,提高了安全性。

  二.运行维护和典型故障

  运行维护
  在系统搭建起来后,按照惯例我们要对系统进行试运行和通道指标的检测等工作,也发现了硬盘播出通道存在的一些问题。在系统正式开播后,我们技术保障科对硬盘播出系统的维护工作主要包括:日常巡检、季检、年检。和厂家工程师一起定期对系统进行维护。我们为了及时更换故障设备,在播出机房准备了充足的备件,包括机箱、各类板卡、风扇、硬盘等。

  在常规系统开播前,我们在对整个硬盘播出通道进行检测工作时,发现了其中存在的一些问题。例如,对硬盘播出通道进行图像质量主观评价时,通过使用标准清晰度电视广播测试图发现图像上部有效行缺失4行,分别为第23行、第24行、第336行、第337行,缺失原因为解码器输出图像的每场有效行为286行,而标准图像的每场有效行为23到310行。经分析,解码器起始行的设定值为9,在加上为了满足32行VBI设置所定义的值16(32/2,即每场16行),所以第一个有效行为9+16=25。工厂更改编码器的firmware后,做到起始行设定值为7,在设置为NoVBI、16VBI、32VBI的情况下,每场的第一二行均有正确图像,经过回归测试,图像格式错误得到了修正。由此可见,检测工作非常重要,可以保证系统始终运行在正常状态。

  在系统正式开播后,我们在日常巡视工作中,通过每个集群的管理计算机对各个集群进行巡检、测试和管理。巡检中需要观察各服务器的状态,查看日志。下面详细说明巡检内容:

  1.检查整个系统各个集群内部的连接情况,进入各服务器控制界面,查看该服务器内部的信息。

  2.检查各个编解码器的状态,出现异常及时消除。

  3.检查系统服务器所有硬盘的健康状态。正常的状态为“在线”,查看每个硬盘的状态,所有的数值为0说明硬盘没有问题;如果有硬盘损坏会显示为“无回应”状态;在更换了新的硬盘之后会显示为“重建”状态;当更换的硬盘重建完成后显示恢复为“在线”状态。

  4.查看系统日志,重点检查有无硬盘长读信息,如发现有硬盘出现连续多次长读现象,主要看它是否出现物理损伤 Media Error 和数据读取时长门限值大于1000ms的次数,来综合判断是否更换新硬盘。在实际工作中,我们发现有硬盘只报一次长读,就显示“无回应”状态的“猝死”现象。也有硬盘连续报4-5次长读,工作却是正常的现象,我想这应和当时服务器工作时的数据的吞吐量有关,遇到这种情况,我们就会对其进行重点跟踪,来判断此硬盘是否存在隐患,依情况看是否需要更换新硬盘。有时,为了避免硬盘故障影响系统工作,特别是重点保障时期,对于没有彻底坏掉的硬盘,我们可以手动强制此硬盘到“无回应”状态,来进行更换新硬盘工作。需要注意的是更换硬盘时,要关闭该服务器的迁移指令(理论上一块素材盘重建对硬盘播出系统是没有影响的,对传输的素材也不会有任何影响,但在实际工作中出于对播出安全的考虑,要关闭此服务器的迁移指令),等硬盘重建工作完成后,再将迁移指令打开。

  5.检查服务器风扇的状态,如果有问题,会有相应的报警显示。

  6.检查服务器CPU的状态显示,如果有问题,会有相应的报警显示。

  7.检查服务器CPU的温度显示和服务器内部的温度显示。服务器内部的温度要求不能超过30摄氏度,如果发现服务器的温度超过了30摄氏度,需要加大空调的风量。如果服务器的温度长时间在30摄氏度以上,那么可能会对服务器中的硬盘造成影响,即硬盘的长读和损坏。

  8.检查服务器电源POWER的状态显示,如果有问题,会有相应的报警显示。

  我们知道,现实生活中没有100%的可靠性设备,计算机的可靠性再高也是无限接近于这个理想指标而已。所以,定期重启服务器,可以消除冗余错误对播出安全所带来的隐患。在日常巡视中,随着工作的不断深入,经过一段时间的摸索总结,我们找出了一些让系统运行良好的办法。例如,我们总结出在节点运行时间达到5000小时的时候,需要对其进行重启维护工作,步骤如下:

  1.在“素材管理工作站”以及涉及该服务器的相关设备关闭该服务器上的所有迁移指令。

  2.重启服务器,检查编、解码板的工作状态。

  3.服务器重启完毕后,在“素材管理工作站”以及涉及该服务器的相关设备打开该服务器的所有迁移指令。

  在做系统重启维护时,需要准备好充足的备件,以应对各种可能出现的问题。

  总之,从事技术维护工作必须要遵循科学规律,对系统进行预防性维护,把各种事故发生的可能消灭在萌芽状态,提前排查故障。我们要根据设备的实际使用情况,以及各种设备的技术要求,制定详细的设备维护计划和严密的操作规程。制作各种相关设备运行状态和维护情况的一览表,使设备运行和维护工作一目了然,让整个工作有章可查,有据可依,清晰明了。对在用设备需要采取定期清理维护的措施,努力降低损坏率,确保设备稳定运行。

  软件部分

  随着工作的不断深入,我们也发现了系统有一些待完善的地方。比如,2006年2月底常规频道播出系统接连发现有个别素材在上载级和播出级解码计算机显示为NTSC制、文件长度为0字节。出现此现象时,播出控制机会报警,根据报警信息,值班员进入相应的控制软件对问题素材进行处理,重新生成附属文件可解决此问题,经厂家工程师分析,原因为:所有不能审看的素材PD文件大小为0。节点重启后,Strservice服务未能够正常启动,造成生成PD文件不正确。此后经过升级,增加Watch Dog服务,检测每次系统启动后,所需的服务能够正常启动。NTSC制素材的问题得到解决。

  再有,2008年1月9日,播出级解码计算机先后死机导致播出异常中止,后经厂家实验室搭建环境,24小时监测解码计算机满负荷播出状态,查明是解码软件中存在着一个判定条件,该判定条件时间运行门限值为2^32ms,约合49天16小时。我们临时采取49天定期维护解码计算机解码器的方式以避免这个错误的出现。目前,厂家已经提交了解决该问题的新版本软件,在备机进行循环播出测试,运行正常。因此,进行软件升级就可以解决该问题。
由此可见,对于发现的每一个问题,我们都不能轻易放过,要进行认真分析,仔细查找出现的根本原因。需要督促厂家尽快解决,不能拖拉,要尽最大努力消除隐患,确保播出安全。

  硬件部分

  中央电视台硬盘播出系统自开播至2008年底素材硬盘损坏情况统计见图表1、表2和表3。

  2008年付费系统增加3台高清存储、播出用服务器,共增加72块146GB硬盘(24*3=72块硬盘),总数为512+72=584块。

  由上图可以看出,2008年付费系统硬盘损坏率和2007年硬盘损坏率相比,基本持平。

  由以上可以看出,2008年常规系统硬盘共损坏11块,与去年12块相比,基本持平。

  以上,除了素材硬盘是视频服务器中易损件外,服务器电源也是不能忽略的因素。举例来说,2008年整个系统总共坏了11个电源模块,其中付费系统7个,常规系统4个。

分级多通道硬盘播出系统中视频服务器的运行维护
分级多通道硬盘播出系统中视频服务器的运行维护
分级多通道硬盘播出系统中视频服务器的运行维护
分级多通道硬盘播出系统中视频服务器的运行维护

  通过几年的统计,可以看出硬盘系统的硬件故障率还是比较稳定的。通过定期维护、细致观察,关键是要对易损部件(如硬盘)重点观察,在其影响系统工作前及时更换,这些措施基本保证了系统运行顺畅。

  三.结束语

  我们知道,系统维护工作的目的是要保证系统正常而可靠地运行,并且通过软件升级,还能使系统得到改善和提高,以充分发挥作用。要随着技术的发展,保证系统始终处于稳定的工作状态。要与相关设备厂家进行联系,定期对系统内的设备进行整理维护,使系统运行正常,确保安全播出。B&P

中央电视台 分级 通道 硬盘

视听科技视频号 广告
发表评论