近日,媒體報道,主機托管公司WebNX位于美國猶他州的奧格登數據中心著火。大火起源于數據中心大樓的一臺發電機,后蔓延至多臺服務器。由于數據中心火災,奧格登市的一些IT服務在周日和周一都癱瘓。
WebNX在Facebook帖子中將這起事件歸咎于本地停電后備用發電機發生故障。該公司表示:“周日下午,奧格登市出現停電;按照設計,我們的備用發電機自動開啟。可是就在這個供電切換期間,我們最近專門針對這種情形進行了常規測試和基準測試的一臺備用發電機遇到了災難性故障,著火了...“
而就在今年3月份,歐洲云計算巨頭 OVH 位于法國斯特拉斯堡的機房發生嚴重火災,其中一個數據中心被完全燒毀,另有一個數據中心的建筑物部分受損。
本次火情,疑似部分客戶設備主用、災備服務器在一個機房樓或者主備云服務器在一個機房樓,導致約360萬網站出現故障, 約1.5萬名客戶的資料可能受到影響,部分客戶數據完全丟失且無法恢復。
不止這些,2020年8月,澳洲電信Telstra位于英國首都倫敦的托管數據中心由于UPS故障引起火災并引起宕機。當地消防部門共調集了4輛消防車和25名消防員到場救援。
2019年7月,某地市的一家移動公司大樓機房失火,現場濃煙滾滾,火情嚴重。該大樓地處市中心,是這個地市移動較大的機房,下面的營業廳也曾經是最大的營業廳。
2018年11月,韓國三大電信運營商之一KT位于首爾市中心的大樓發生火災,事故原因為地下電纜隧道起火。火災燒毀16.8萬股電話線和220套光纜。由于通信設備受損,此次事故導致韓國的警察、醫院、金融等社會基礎設施被迫停轉。
2018年8月,東京某建筑發生火災,該建筑為建設中的亞馬遜AWS東京數據中心。起火是由于聚氨酯保溫材料被乙炔氣火炬上落下的火花引起。大火燃燒了八個小時,導致五人死亡,五十人受傷,燒毀了大約三分之一建筑物!
......
數據中心機房作為海量數據的關鍵載體,是信息化的核心場所,其復雜性、特殊性和重要性不言而喻,但往往數據中心機房又是如此的脆弱。數據中心機房的安全是整個計算機信息系統安全的前提,如果數據中心機房存在這樣那樣的不安全因素,從而導致發生數據中心機房事故,則整個信息系統的安全也就不可能實現。特別是機房火災,一旦發生將給機房造成不可挽回的巨大損失。
如何做好機房的防火及數據災備工作?我們結合《信息安全技術 網絡安全等級保護基本要求》(GB/T 22239-2019)及實際測評要求,建議如下:
防火要求
以等保第三級安全要求為例,防火要求:
機房內設置火災自動消防系統,可以在發生火災時,自動檢測、報警并滅火,如自動氣體消防系統、自動噴淋消防系統。
使用相應耐火等級的建材。耐火建材可以有效阻止火災的發生和蔓延。
對機房進行區域劃分并設置隔離防火措施。區域劃分可以很好的阻止火勢蔓延,避免造成更多損失。
溫濕度要求
除了防火措施本身,機房的溫濕度也影響防火工作。根據《基本要求》溫濕度控制要求:
應設置溫濕度自動調節設施,使機房溫濕度的變化在設備運行所允許的范圍之內。
實際操作中,機房內需要安裝空調、除濕機、通風機等設備,使機房內的溫濕度變化保持在適宜范圍內。通常機房內適宜的溫度18~27℃,空氣濕度35~75%。
安全運維-環境管理
做好硬件設備準備工作后,日常運維中也很重要,應做到:
應指定專門的部門或人員負責機房安全管理維護工作;
對機房出入進行管理、登記,記錄包括來訪人員、來訪時間、離開時間、攜帶物品等;
定期對機房供配電、空調、溫濕度控制、消防等設施進行維護管理,并做好維護信息記錄。
數據備份與恢復
做好預防管理,不意味著可以一勞永逸,災難的發生往往是不可預測無法阻擋,而數據備份工作是信息系統正常運行使用的最重要保障。數據備份工作應做到:
對重要數據庫的本地數據做每天全量備份(或每天增量備份,定期全量備份),定期測試備份數據是否正常可用;
應該建設災備中心,對重要數據提供異地數據備份,保證本地系統發生災難后不可恢復時,能利用異地備份對數據進行恢復;
對重要業務數據處理系統,應當提供熱冗余,當發生災難時可以迅速切換至備用系統,保證業務系統的正常使用。
數據備份的類型、儲存介質、周期各有不同,可以根據自身的業務狀況、重要性、成本等因素選擇適合的模式。
應急預案與應急演練
建議根據不同的火災風險場景(如UPS、供電線路、柴油發電機失火等),分別制定切實可行的應急預案,并按照桌面演練、模擬演練、實戰演練逐步開展應急演練,確保應急預案可靠有效。并定期根據情況進行修訂和演練。