日前,數(shù)據(jù)中心行業(yè)專家獲得一個(gè)可以提高數(shù)據(jù)中心可靠性的簡單建議,就是將數(shù)據(jù)中心冗余設(shè)施提高一個(gè)數(shù)量級,如果數(shù)據(jù)中心行業(yè)可以被說服并采納的話。專家認(rèn)為這個(gè)并不現(xiàn)實(shí)。
可靠性并不是一個(gè)綠色節(jié)能的問題,但它肯定與能源效率有著相互影響。這二者要求往往是相互對立的,可靠性越來越高,通常意味著數(shù)據(jù)中心在儲備區(qū)儲存更多的柴油乃至整個(gè)熱備用設(shè)施部署更多的設(shè)備,這都會增加了企業(yè)的碳足跡。
但是,在可靠性方面的所有這些努力可能會導(dǎo)致碳浪費(fèi),其實(shí)際上可能是在浪費(fèi)時(shí)間。
很多人可能對他們的數(shù)據(jù)中心的可靠性感到迷惑,關(guān)鍵設(shè)施專家伊迪 安森特對此作了一個(gè)發(fā)人深省的演講。
安森特在報(bào)告中指出,有時(shí)候硬件會失效,這種情況并不常見,但數(shù)據(jù)中心的故障通常是由于人為錯(cuò)誤,或者因?yàn)閿?shù)據(jù)中心設(shè)施的設(shè)計(jì)、測試、維護(hù)或操作細(xì)節(jié)被忽視所造成的。
接著他列舉了一些經(jīng)典的數(shù)據(jù)中心的事故,例如一個(gè)數(shù)據(jù)中心,其備份柴油儲存罐忘記了密封,其導(dǎo)致的后果是柴油機(jī)沒有及時(shí)啟動,其原因是那個(gè)只有20美分硬幣大小的部件缺失。故障發(fā)生時(shí),電力系統(tǒng)從飛輪切換發(fā)電機(jī)組,但是其輸出頻率開始漂移。這為一個(gè)靜態(tài)轉(zhuǎn)換開關(guān)創(chuàng)造了一個(gè) 異相 的條件,其變壓器線圈飽和。
在另一個(gè)例子中,一個(gè)數(shù)據(jù)中心通過兩個(gè)飛輪UPS系統(tǒng)對其進(jìn)行電源冗余備份,但是還是發(fā)生了故障。當(dāng)安森特被召集來調(diào)查時(shí),他馬上就知道問題出現(xiàn)在哪里,因?yàn)樗谄渌臄?shù)據(jù)中心遇到過這種情況。
這種故障可以進(jìn)行預(yù)測和預(yù)防,但前提是以前的故障調(diào)查結(jié)果已經(jīng)公布。因?yàn)閿?shù)據(jù)中心的故障調(diào)查在正常進(jìn)行下需要簽署保密協(xié)議(NDA),因此該信息如果公開的話,將讓那些存在此類問題的企業(yè)受益,但事實(shí)上由于保密,通常不會公開這些信息。
如今,由于技術(shù)的進(jìn)步,復(fù)雜的系統(tǒng)可以做得非常可靠。那些成熟的行業(yè),如航空業(yè)可以實(shí)現(xiàn)無故障10萬到20小時(shí),而這個(gè)數(shù)字則是數(shù)據(jù)中心行業(yè)的恥辱,因?yàn)闆]有做到。
數(shù)據(jù)中心可靠性還有上升的空間,只是因?yàn)槿藗儾煌夥窒怼?安森特說。航空公司被迫通過法律來分享事故調(diào)查的結(jié)果。他們受到嚴(yán)格管制,因?yàn)橐坏┌l(fā)生故障,那么乘客將命懸一線。
這并不適用于數(shù)據(jù)中心,盡管這可能會改變,因?yàn)樵跀?shù)據(jù)中心基礎(chǔ)設(shè)施中,需要承擔(dān)更多重要保護(hù)人身安全的功能。而業(yè)內(nèi)人士不希望得到嚴(yán)格的監(jiān)管和控制。
但在這次會議議上,安森特提出一個(gè)想法。那就是在共享一個(gè)匿名數(shù)據(jù)庫的基礎(chǔ)上,經(jīng)歷事故的數(shù)據(jù)中心可以分享自己的失敗情況,通過實(shí)際調(diào)查,數(shù)據(jù)中心行業(yè)人士都可以從案例中進(jìn)行學(xué)習(xí)與借鑒。這個(gè)想法如果得實(shí)施的話,就可能促成數(shù)據(jù)中心的可靠性真正的突破。
促成這件事情將是一場艱苦的斗爭,但這應(yīng)該贏得行業(yè)人士的支持,因?yàn)闊o論誰都想要削減數(shù)據(jù)中心的成本,無論是浪費(fèi)的電力,資金或精力。