機房基礎設施故障(事故)上報處置流程
一、目標
加強和規範化中心機房基礎設施故障(事故)的報告和處置流程,提高運維保障效率,保證故障(事故)的快速反應並及時修復、恢復,使損失降低到最低。
二、範圍
中心機房,共計3個機房區域。
三、定義
3.1一級故障:
故障影響範圍小,不會對業務系統造成中斷影響,並且不會對其它系統使用造成影響。
3.2二級故障:
關鍵系統單個設備或獨立系統故障,造成單個或局部業務系統中斷,不會造成重大業務系統運行中斷,不會造成關鍵系統運行中斷。
3.3三級故障:
外部出現供水、供電、網絡系統等中斷,關鍵性系統造成大面積中斷。涉及到外協單位修復,並且無法在短時間(2小時)內恢復,可能造成重大損失。
四、故障報告原則
先搶修,同報告;先核心,後邊緣;先始端,後末端,分故障等級進行處理。
五、故障(事故)類型
5.1一級故障
單臺的機櫃PDU斷電、單臺UPS及空調關鍵設備報警、機房溫度上升到30℃以上、空調漏水影響到其他區域等。
5.2二級故障
單臺UPS電源故障停機、單臺空調機組故障停機、環控系統無法檢測數據、機房溫度超過35℃等。
5.3三級故障
UPS前端供電中斷、空調配電櫃前端供電中斷、空調冷凍水供水中斷(失壓)、機房溫度超過40℃、網絡中斷等。
六、故障報告流程
6.1當發現一級故障的情況下,當班運維人員首先進行故障確認,確認故障後進行一般性修復,無法修復的設備及時通報運維管理負責人以及數據中心當日的值班民警,運維負責人通知相應的技術工程師到場維修。事故恢復後形成事故總結報告。
6.2當發現二級故障的情況下,當班運維人員首先通知運維負責人以及數據中心當日值班民警,值班民警及運維負責人及時趕到現場,同時判斷故障產生的原因。值班民警、運維負責人和相應專業技術工程師協調溝通相關部門,相關單位派維修工程師進駐現場解決,短時間(1小時)無法解決的通知項目經理,值班民警及時通知數據中心主管領導。事故恢復後形成事故總結報告。
6.3當發現三級故障情況下,當班運維人員首先通知運維負責人、項目經理以及值班民警並告知物業管理部門相關人員。值班民警、項目經理及運維負責人及時趕到現場,判斷故障產生原因上報公司上級領導,值班民警上報主管領導和數據中心主要領導。由相應的數據中心領導、項目經理及物業部領導聯繫外協單位進行解決。事故恢復後形成事故總結報告。
七、故障處置方法
7.1一級故障的情況下,現場運維人員主動解決故障,運維負責人及時聯繫專業工程師到場解決故障。值班民警現場關注解決故障進程,並且配合解決外部單位協調工作。
7.2二級故障情況下,項目經理到場主持工作,聯繫專業工程師以及維修工程師及時到場解決故障。值班民警現場關注解決故障進程,並配合解決外部單位協調工作,同時通知上級主管領導,主管領導到場關注故障維修工作進程。
7.3三級故障情況下,項目經理到場主持工作,並上報公司領導,聯繫專業工程師及維修工程師及時到場解決故障。值班民警到場關注解決故障進程,並配合解決外部單位協調工作。值班民警及數據中心主要領導和主管領導,以及公司領導到場關注故障維修進程。同時數據中心主管領導通知各個使用單位,啓動機房內各業務系統應急預案,同時項目經理安排專業工程師對UPS間、機房內設備等進行應急操作。
-
企業安全生產管理責任書【精品多篇】
企業安全生產管理責任書篇一爲全面貫徹“安全第一、預防爲主、綜合治理”的方針,認真貫徹執行上級有關部門關於___年春運安全生產工作的規定,落實安全責任,及時消除各種安全隱患,保障廣大羣衆生命財產安全,確保春運期間旅客走的及時、安全、有序、滿意,實現“安全、...
-
淺談企業戰略管理(通用多篇)
戰略管理心得篇一通過今年上半年的學習,我學習了《企業戰略管理》這一門課程,體會到這是企業的高層決策者根據企業的特點和對內外部環境的分析,確定企業的總體目標和發展方向,制定和實施企業發展總體謀劃的一個動態過程。它包括企業總體戰略和產品組合、商場競爭、...
-
年度公司管理報告多篇
【第1篇】度公司副經理年終述職報告述職報告各位公司領導,各位同事:上午(下午)好!非常感謝總公司和通訊導航公司公司對我的信任,給我這次彙報一年來工作的機會。2003年的歲末即將過去,一年的學習、工作,時間並不算太長,但我得到大家的幫助實在是太多,相比之下自己所付出...
-
企業創新管理精品多篇
規範運作是保證篇一規範化管理是現代化大生產的客觀要求,在現代企業是高度分工與協作的背景下,沒有規範化管理,就不可能把全體員工的意志統一起來,工作的質量也難以提高。只有進行規範化管理,建立統一、規範和相對穩定的管理體系,才能打造企業有章可循、有規可依、人...