的正常运行时间,优化关键任务设施和数据中心

怎么做 0
的正常运行时间 第7号白皮书 版本
0 作者JoeSoroka >摘要 随着科技发展遍布世界的每一个角落,数据中心和任务关键设施对于我们的重要性以及我们对其的依赖性达到前所未有的高度。
我们不再只把正常运行时间作为理想中的目标,而是必须达成的要求。
但是设施的正常运行时间不是一个产品,不能通过确定其参数和设计就能获得,也不能在安装之后就不再过问。
除非对影响正常运行时间的因素完全了解,关键任务设施或数据中心就无法达成其设计要求中99.99%的可用性。
优化正常运行时间是一个知识体系。
它始于设施规划阶段,存在于设计、实施、验证和试运行、运营、故障分析以及重新验证等环节中的每一个步骤。
目录 点击内容即可跳转至具体章节 借鉴过往经验优化
2 正常运行时间 规划
2 建设
4 验证/试运行
5 运营
6 结论
8 资源
9 施耐德电气旗下 的白皮书现收录于施耐德电气白皮书资料库 由施耐德电气数据中心科研中心发表, DCSC@ 优化关键任务设施和数据中心的正常运行时间 借鉴过往经验优
化正常运行时间 1908年9月17日,OrvilleWright的飞行器在FortMeyer,Virginia坠毁,副驾驶员
T.E.Selfridge不幸遇难,调查飞行器事故的委员会随即诞生。
美国陆军通讯部航空委员会和航空实验协会(AEA)责成以AlexanderGrahamBell为领导的团队进行了一次彻底的事故调查。
通过调查,Bell博士意识到防止故障在未来重复发生的重要性,于是他写了一篇总结OrvilleWright飞行器事故经验教训的文章。
借鉴过往经验是防止飞行器故障最重要的手段。
而如今,基于对于事故原因的调查,美国国家运输安全委员会(NTSB)制定了借鉴过往经验防止未来发生类似事故。
在数据中心和关键任务设施中防止故障发生和优化正常运行时间需要相同的步骤。
四种故障类型 NTSB调查分析得出事故的发生源于一个或几个类型的故障:设计缺陷引发的故障、灾难引发的故障、复合并发故障和人为失误故障。
关键任务设施,或者说数据中心的宕机时间也是由这四种类型的故障造成,每类故障需要不同的方法来预防。
为了实现优化关键任务设施和数据中心的正常运行时间,必须检查全部四种类型的潜在故障,并且建立一套积累和借鉴过往经验教训的流程。
设计缺陷引发的故障可以通过选择与有能力的厂商合作加以避免。
选择合适的公司和验证团队以及运营人员非常有助于获得避免故障所需的经验。
灾难引发的故障通常无法预测。
但是全面的运维计划能够尽可能多地验证和消除许多潜在的问题。
这样做可以避免加重灾难带来的影响,是不可预测的问题带来的影响降至最低。
复合并发故障是由多种事件并发导致的。
缺少对细节的关注是导致并发故障的主要原因。
大型设施中细小且繁琐的事物因为不会产生负面影响,时常未被察觉或者被忽视。
但是在几个细小问题同时爆发的时候,这些的事物能够共同作用引发系统故障。
人为失误故障是导致数据中心设施故障的主要原因之
一。
通过使用有经验的员工并不断对他们进行培训可以减少这类故障的发生。
而且就算有合格且经过培训的员工,仍然需要制定详细的规程实施办法(MOPs)。
MOPs应该由两人合作参与实施,互为照应。
规划 资源链接 第122号白皮书确定数据中心关键性等级的准则 首先要有一个通盘的考虑。
无论是新建,还是升级或者运行已有的数据中心,制定计划和按计划进行都是非常重要的。
在设计阶段,与经验丰富的设计团队,尤其是同与具有你所要求设计数据中心相类似经验的设计团队进行咨询。
设计阶段的关键部分就是将设计意图进行具体地深化。
不巧的是设计意图往往并不具体,或者说很含糊。
设计意图应该清晰地体现业主的要求。
创建一个良好的设计意图档案应该有对项目背景的清晰描述,并提供对设计目标和要求的详细论证。
应该对所需的使用功能和关键任务设施的的要求进行清晰地解释。
性能和维护指标也应明确说明。
虽然有时很难量化,但是应该对设计的使用寿命和整体的项目质量进行定义。
整体的设计意图对于所有项目参与方共同优化数据中心正常运行时间来说至关重要。
如果缺少具体的设计意图,而由不同的参与方各自进行解释会导致误解的产生,最终降低项目的完整性。
选择设计理念 设施设计配置方案不只局限于一种。
任何设计方案和理念都是要达到相似的目的,但是各有各的
优势和劣势。
系统要求的可靠性和项目预算将会决定使用那种设计方案。
但是设计理念基本上分为四个等级:TierI,TierII,TierIII,和TierIV.详情请参见第122号白皮书《确定数据中心关键性等级的准则》。
施耐德电气—数据中心科研中心 第7号白皮书版本02 TierI •单条供电回路•N容量,无冗余•可用性99.671%•年度宕机时间28.8小时 TierII •单条供电回路•N+1容量冗余•可用性99.749%•年度宕机时间22小时 TierIII •两条供电回路,一用一备•N+1容量冗余•可用性99.982%•年度宕机时间1.6小时 TierIV •两条供电回路,同时可用•2(N+1)容量冗余•可用性99.995%•年度宕机时间0.4小时 优化关键任务设施和数据中心的正常运行时间 设备的选择和集成 为项目选择正确的设备供应商有助于保障项目的成功完成。
确保设备的规格参数满足工程的要求至关重要。
除了设备本身,供应商的对设备提供相关支持的能力同样重要,这包括装运时间,安装支持,开机服务和备件库存充足,以及授权维护人员等。
对于复杂或者工期紧张的大型项目,宜考虑使用设备集成商。
复杂的系统需要依靠多系统或者多平台的运行。
因此,让一家公司集中精力做好各系统间整体的联调和集成极为重要。
一家合格的集成商可以减少或者避免由于多家安装分包商之间信息请求(RFIs)传达不畅造成的误解和混淆。
集成商与业主之间是一对一协议关系,这样在减少项目完成工期的同时还可以确保所有系统正确安装和连接。
当选择关键任务设施的设备时,应与集成商合作,共同验证设备满足项目要求。
以下列出一些选用关键任务设施中的设备时,应注意的事项。
•发电机组 当选择发电机时,应审查其规格参数满足项目要求。
审查发电机的可选辅件和功能。
例如为水套加热器选配隔离阀在最初购买发电机时比较便宜,而在现场更换水套加热器上的软管则要求关停发电机和较长的维修时间。
另一个发电机的可选件是断路器的辅助干接点,发电机因断路器脱扣或未闭合导致供电中断的情况极为普遍,需要辅助干接点进行监测和告警。
发电机是用来在电力中断时提供保障的,应该确保其在被需要的时候能够被使用。
•UPS系统 UPS有很多不同的种类,UPS系统架构也有很多种类。
双转换式、在线互动式或者Delta 施耐德电气—数据中心科研中心 第7号白皮书版本03 资源链接 第104号白皮书数据中心管理软件工具分级 建设 优化关键任务设施和数据中心的正常运行时间 转换式UPS系统系统因要求不同,它们的适用范围也不同。
无论哪种系统适用于给定的应用,都应安装适合的静态旁路和外部维修旁路。
维修旁路应该满足在系统需要100%容量时,能够承担100%负载。
•UPS电池组 当使用阀控铅酸(VRLA)电池组时,确定各条电池组的能并联独立工作且受到断路器保护。
使用并联的VRLA电池组可进行独立的、隔离的维护,从而保障UPS系统上的关键负载不受影响。
监测 当选择监测系统时,了解系统的能力并创建各种告警,趋势报告和提醒功能而不仅仅是告警提示,而且还应利用历史数据进行分析和预测,防止故障发生。
当然监测系统本身持续运行监测其它系统也很重要。
为监测系统配置适当的告警触发设定也非常重要,这样既可以阻止故障的发生,也可以减小告警的影响。
了解更多数据中心管理软件的知识,请参阅第104号白皮书《数据中心管理软件工具分级》 设定工期进度 创建一个实际的项目进度并在整个项目进程中不断更新,这样有助于减少和避免意外情况的发生并避免项目延误。
当创建项目进度时,确定关键的里程碑式的事件并列出这些项目可能产生的影响。
妥善规划、有序实施的建设项目是保障设施可靠性和可维护性的关键。
业主也应当采取措施选择建设阶段的团队并积极参与其中。
采用团队合作的方式建设数据中心将有助于确保最终的产出能够满足设计要求。
安全第
要坚持让厂商在开工之前制定和提交安全预案。
对预案进行审查以确保其满足项目的需求。
人员伤亡事故会影响机构或企业的声誉,还可能导致相关部门的处罚和其它诉讼带来的成本。
未能安全完成的项目将会导致成本的上升和项目延迟。
提前花时间确保项目场地由始至终安全是很值得的,因为这样会节约时间,金钱和避免人员伤亡。
建设施工监察 业主或者业主的代表应该定期对在建场地进行视察和监督,并且在监查的过程中以文字或图片形式进行记录存档。
任何产生顾虑的事项都应该尽快解决,而不应等到建设结束之后。
在建设中发生问题的时候予以纠正可以确保项目遵守计划的预算进行。
在对安装进行适当视察的同时,对安全程序进行检查以及对整体的组织和安排也是必需的。
一个组织无序,安排混乱,漠视安全建筑施工场地会导致事故的发生,项目进度拖延以及错误的发生。
建设施工例会 进行定期的建设施工例会是专业和生产力的体现。
尤其是当数据中心项目工期紧障,需要团队合作,团队合作最有效的方式就是协同工作。
拥有良好的互助和协调技巧是一笔宝贵的财富。
职业的态度,团队合作以及专业知识会使项目按时且保质保量的完成。
施耐德电气—数据中心科研中心 第7号白皮书版本04 验证/试运行 优化关键任务设施和数据中心的正常运行时间 拍摄图片留档 为建设日志配以图片是非常有用的。
在项目投入运行以后,有些时候会需要参考建设阶段拍摄的照片,来回顾设备是如何安装的。
在建设阶段系统地拍摄一些照片存档,即使项目结束很多年后都可以为维护和运行提供有用的信息。
施工验收图纸 在安装结束之后,应该确保项目的施工验收图纸得到妥当的保存。
花一些时间验证图纸的准确性是很重要的。
然后还要施行一套方案保证在设施升级改造之后所有图纸都进行更新。
如果原计划并未包括施工验收图纸,那么应该及时地创建。
在故障发生时,施工验收图纸是快速解决问题恢复服务的最有效的武器。
此外在进行一项升级改造的时候,施工验收图纸也是很有价值的工具。
试运行是验证设施设备表现并记录存档的一个系统流程。
这个流程分成几个阶段,包括规划阶段,设计阶段,建设阶段、验收阶段和验收之后的项目评估阶段。
对设施进行试运行会产生很多好的收益,从而获得直接和间接回报。
开始试运行之前,需要先定义试运行的关键目标。
例如,系统能够设定运行在较高的效率,但是这可能会影响系统的可靠性。
因此需要在能效和系统可用性之间作出权衡。
最终让业主按优先级排列作出决定。
验证和试运行设施的收益如下所列: •改善系统的性能和可靠性•减少能源消耗•改善环境控制系统•改善室内空气质量•运维人员实践操作培训•在早期发现问题•验证运行参数和程序•建立系统运行准则•延长设备使用寿命•减少人员对于室内空气质量及舒适度的担忧 试运行步骤 所有运行程序的功能都应该在是运行阶段进行测试。
这包括设备的开机和关停,设备旁路切换和故障恢复程序。
设备应该在所有运行模式上都进行试运行。
为了避免未来发生这样那样的问题,在设施投产之前验证所有的运行模式和运行程序步骤是极为重要的。
重新试运行 重新试运行是对之前已经验证过的系统在作出一些变更之后重新试运行的过程。
将原始的试运行存档记录作为设施运行性能基准。
当制定一个重新试运行的计划时,所有新的设备和升级都应该添加进新的计划。
再重新试运行阶段IT设备已经进驻数据中心设施,因此应该制定详细的实施办法包括如何在不影响设施运行的情况下完成所有必需的的测试。
由于数据中心是任务关键设施,所以需要格外认真小心地评估系统和制定正确的程序来确保正常运行时间。
施耐德电气—数据中心科研中心 第7号白皮书版本05 资源链接 第148号白皮书数据中心项目:验证/试运行 运营 优化关键任务设施和数据中心的正常运行时间 系统执行重新试运行的频率由这样几个因素决定,系统需要达到的可用性和可靠性,不佳的性能表现对运行的影响,能耗,能源成本,以及执行试运行以后发生变更和升级的次数。
典型来说关键任务设施应该在每3至6年重新验证和试运行一次。
升级改造后试运行 升级改造后试运行是对一个未经过试运行的现有数据中心执行试运行的过程。
升级改造后试运行和一般试运行过程基本一样,唯一的不同是这时IT设备已经进驻数据中心并投入使用。
由于是运行中的数据中心,因此应该制定详细的实施办法包括如何在不影响设施运行的情况下完成所有必需的的测试。
了解更多信息,请参见第148号白皮书《数据中心项目:验证/试运行》 运营和维护(O&M)人员配备 一旦数据中心开始运营,就需要决定如何配备设施的工作人员。
无论使用自己的员工还是服务外包,工作人员的知识技能都需要满足关键任务设施的要求。
运营的规程 数据中心运营、维护和灾难恢复规程的开发和确认对优化正常运行时间来说至关重要。
规程实施办法(MOPs)应该进行彻底且具体描述,细化到开关的详情并在项目的验证阶段简易测试。
急于将数据中心投入使用经常会忽略创建,编写和实施MOP的必要性。
但是在进行类似切换UPS至维修旁路等操作时,相比于在早期即作出必要的准备,在需要时才回过头来创建规程所付出的代价会更昂贵。
规程应该在早期即准备得当,并在设施完全投入使用前进行测试。
维护时间安排 但设计或升级数据中心时,需要考虑维护频率与时间的长短来确保设施得到适当和适量的维护。
为了实现并行维护,系统需要配置适当的冗余和旁路。
应该根据设备清单制定年度维护计划来确保系统具有足够的冗余度。
如果系统没有用于维护的冗余度又要保证业务的持续运行,则需要向系统安装临时的设备进行支持。
预测性维护 维护不应该仅限于补救性维护和预防性维护,还应包括预测性维护。
使用设备运行趋势报告对每一个发生的事件进行彻底的故障分析,再基于分析结果进行预测可以主动防止未来问题发生。
所有维护应该详细记录归档,并提供预测潜在问题和弱点的方法。
全面的预测性维护方案是由详尽的信息组成。
维护计划 提前计划所有的维护活动。
从最基本的操作开始,创建完整的设备清单并将设备清单作为维护计划的基础,为清单中的每一项设备制定具体的规程。
规程应该包括开机、关停、转旁路运行、上锁、标签、维护以及灾备。
审查维护时间安排和严格实施设备自动强制性维护时间表。
施耐德电气—数据中心科研中心 第7号白皮书版本06 优化关键任务设施和数据中心的正常运行时间 防灾预案与灾备恢复 数据中心应当制定完整的业务连续性计划(BCP),它与创建完整的数据中心IT设备和物理基础设施计划同等重要。
计划应该由IT部门和设施部门共同参与完成,同时应该至少每年进行一次测试和更新,尤其是对设施进行改造升级之后。
市政供电和供水等设施 2003年8月的大停电波及到从底特律至纽约的广大地区。
在停电的那一刻,数以千计的备用发电机收到启动信号,而他们中的大多数成功启动。
但是严重老化的启动电池,较低的燃料配给,缺少散热剂和不当的维护也造成很多油机无法启动,最终导致其支持的设施停止运转。
为下一次停电做准备的时间应该就是现在。
除了停电之外,数据中心也必须为其它形式的市政设施故障做好准备,例如通信网络中断,市政供水中断,排污设施故障以及燃气供应中断等。
当市政供水中断时,需要保障冷却塔补水和员工日常用水获得足量的补给。
冗余的水源,例如井水和储水罐在灾备园中非常重要。
在发生大面积停电时,燃料,例如柴油等的补给也非常重要。
通常情况下,燃料供应商可以在几小时内补给更多的柴油。
,但是在大面积停电期间,运送燃料的时间安排将会受到影响。
监测发电机可以减少燃料短缺的状况发生。
培训 对员工进行全面系统的运维培训也非常重要。
培训项目应该包括来自设备提供商和安装团队的培训,在开机和验证/试运行期间对员工进行运维培训是非常理想的。
一旦场地设施投入运营,还应该安排定期的培训来保持运维人员的知识和技能不断更新。
施耐德电气—数据中心科研中心 第7号白皮书版本07 结论 优化关键任务设施和数据中心的正常运行时间 综上所述,优化数据中心或关键任务设施的正常运行时间取决于应用的科技,各环节之间建立信任和团队工作。
基础设施集成商协调组织不同团队的工作能够确保关键任务设施实现设计要求的性能和可用性。
如数据中心基础设施这类重要资产,花时间仔细考虑选择值得信任且具有优化运行时间和规避风险的经验和资源的厂商将会带来不错的回报。
理想的数据中心基础设施专业厂商能够提供所有的产品、专业人员、服务和策略以满足设计、集成、验证、人员配置、维护、维修和监控的需求。
从一家厂商获得所有重要的服务可以减少麻烦和误会的产生。
科技在“OrvilleWright事故”之后到现在的一百年中发生了巨大的变化。
但是借鉴过往经验仍然是确保不再重复发生事故的关键所在。
一个经验丰富的数据中心基础设施集成商能够提供必要的专业技能防止事故和优化正常运行时间。
不管是设计缺陷引发的故障,灾难引发的故障,复合并发故障还是人为失误故障,都是可以通过流程避免的其发生,或者将其影响转移或减至最小。
针对现场发生的故障不断分析和解决的过程是不断优化正常运行时间的手段。
正常运行时间不是一个产品,他将时时刻刻存在于数据中心的全生命周期的各个阶段。
正常运行时间是一个知识体系,需要在每天的运行中不断地实践,学习,积累和改进。
鸣谢 感谢JoeSoroka为本白皮书初版编写所做的工作 施耐德电气—数据中心科研中心 第7号白皮书版本08 资源 点击图标打开相应 参考资源链接 优化关键任务设施和数据中心的正常运行时间 数据中心管理软件工具分级 第104号白皮书 数据中心项目:验证/试运行 第148号白皮书 确定数据中心关键性等级的准则 第122号白皮书 浏览所有白皮书 浏览所有TradeOffTools™权衡工具 联系我们 关于本白皮书内容的反馈和建议请联系: 数据中心科研中心DCSC@ 如果您作为我们的客户需要咨询数据中心项目相关信息: 请与所在地区或行业的施耐德电气销售代表联系,或登陆:/support/contact/index.cfm 施耐德电气—数据中心科研中心 第7号白皮书版本09

标签: #朋友圈 #台式电脑 #文件 #太大 #编辑 #苹果 #编辑 #文件