近日來,各地紛紛傳出限電的消息。江蘇、廣西、河南、云南、沈陽、湖南……眾多省份均有市級地區發布限電措施,讓眾多企業措手不及的同時,也讓網友們產生了很多奇怪的猜測。
不過,對于數據中心這一類對能源依賴極強的產業來說,能源供給大環境是屬于時刻關注的重點。這一波在很多人眼中不知所以的“限電”,其實早有苗頭。
早在今年8月份,發改委就印發了一份《2021年上半年各地區能耗雙控目標完成情況晴雨表》,展示了中國各地區能耗雙開目標的完成情況。從晴雨表看,整體情勢只能用嚴峻來形容。
具體到數據中心產業,除了各地的能耗指標日益嚴格外,各地限制“挖礦”則是更加直接的手段。包括近日國家發展改革委等十部門出臺的,都明確指出,所謂“挖礦”活動“能源消耗和碳排放量大,對國民經濟貢獻度低”。
當然,從事正規業務的合法合規數據中心自然不用擔心被這樣限制,能耗指標也是先批后用。不過“限電”令下,作為耗電大戶的數據中心產業很難獨善其身,一旦停電來臨,如何確保業務安全穩定運行呢?
做好UPS電源等基礎設施準備
根據UptimeInstitute發布的2020年度數據中心掉線調查報告顯示,斷電在數據中心故障中的地位已經超越人為失誤,成為第一大服務中斷原因。數據顯示,在2020年發生的數據中心故障中,大約有37%與電源有關,22%與軟件、系統相關,17%與網絡有關,其次則為13%問題來自制冷系統的故障。
而斷電帶來的損失,往往不僅僅是一瞬間的服務中斷、未保存數據丟失,重新供電后的服務重啟、數據同步等工作往往會消耗數個小時甚至更長時間,很多長年累月以來逐步調優的設置重置更會成為運維人員的噩夢。
所以,做好基礎保障系統的冗余,依舊是建設、運維數據中心的必要工作。
雙路以上的市電供電,可支持設備運行一定時間的UPS和蓄電池,可連續供電十數個小時或者更長時間的柴發,或者龐大的儲能系統,以及蓄冷裝置等……還有2N或者更多的冗余。
災備演練加強業務存續能力
有計劃的斷電可以預先準備,意外來臨都是令人措手不及的。作為一個運維人員,自然無法避免市電突發故障、限電乃至鏟車、雷擊等N多種意外斷電可能,但完全可以在做好基礎保障的基礎上,減少甚至避免斷電帶來的業務損失。
無論是有計劃的還是意外,擁有強大的業務持續能力將成為數據中心企業最有吸引力的優勢之一。
完備的硬件并不是萬無一失的保證,在日常,應該有規律的在不影響業務環境的情況下進行斷電測試,并且進行業務遷移等演練,以備不時之需。
同時要加強對當前系統的了解,數據中心的運維人員必須知道所有設備的位置,每一時刻的耗能情況。一旦斷電發生,哪些設備需要優先供電,哪些設備應該放棄等。每一次演練,都需要做完善的記錄,對于過程中產生的問題、故障,要有完善的日志和解決方案。
在斷電恢復中,設備的啟動順序,以及設備的依賴、連接情況。當眾多設備重新加電啟動,對于供電系統穩定性的影響等,都要有了解以及預案。
數據中心斷電毫無疑問是最可怕的運營事故,其造成的損失難以估量。而在類似“限電”等可計劃、可準備的斷電情況下,保障業務持續性將是數據中心運營商運維能力的真正體現。