日前,數(shù)據(jù)中心行業(yè)專家獲得一個可以提高數(shù)據(jù)中心可靠性的簡單建議,就是將數(shù)據(jù)中心冗余設(shè)施提高一個數(shù)量級,如果數(shù)據(jù)中心行業(yè)可以被說服并采納的話。專家認為這個并不現(xiàn)實。
可靠性并不是一個綠色節(jié)能的問題,但它肯定與能源效率有著相互影響。這二者要求往往是相互對立的,可靠性越來越高,通常意味著數(shù)據(jù)中心在儲備區(qū)儲存更多的柴油乃至整個熱備用設(shè)施部署更多的設(shè)備,這都會增加了企業(yè)的碳足跡。
但是,在可靠性方面的所有這些努力可能會導(dǎo)致碳浪費,其實際上可能是在浪費時間。
很多人可能對他們的數(shù)據(jù)中心的可靠性感到迷惑,關(guān)鍵設(shè)施專家伊迪 安森特對此作了一個發(fā)人深省的演講。
安森特在報告中指出,有時候硬件會失效,這種情況并不常見,但數(shù)據(jù)中心的故障通常是由于人為錯誤,或者因為數(shù)據(jù)中心設(shè)施的設(shè)計、測試、維護或操作細節(jié)被忽視所造成的。
接著他列舉了一些經(jīng)典的數(shù)據(jù)中心的事故,例如一個數(shù)據(jù)中心,其備份柴油儲存罐忘記了密封,其導(dǎo)致的后果是柴油機沒有及時啟動,其原因是那個只有20美分硬幣大小的部件缺失。故障發(fā)生時,電力系統(tǒng)從飛輪切換發(fā)電機組,但是其輸出頻率開始漂移。這為一個靜態(tài)轉(zhuǎn)換開關(guān)創(chuàng)造了一個 異相 的條件,其變壓器線圈飽和。
在另一個例子中,一個數(shù)據(jù)中心通過兩個飛輪UPS系統(tǒng)對其進行電源冗余備份,但是還是發(fā)生了故障。當安森特被召集來調(diào)查時,他馬上就知道問題出現(xiàn)在哪里,因為他在其他的數(shù)據(jù)中心遇到過這種情況。
這種故障可以進行預(yù)測和預(yù)防,但前提是以前的故障調(diào)查結(jié)果已經(jīng)公布。因為數(shù)據(jù)中心的故障調(diào)查在正常進行下需要簽署保密協(xié)議(NDA),因此該信息如果公開的話,將讓那些存在此類問題的企業(yè)受益,但事實上由于保密,通常不會公開這些信息。
如今,由于技術(shù)的進步,復(fù)雜的系統(tǒng)可以做得非??煽?。那些成熟的行業(yè),如航空業(yè)可以實現(xiàn)無故障10萬到20小時,而這個數(shù)字則是數(shù)據(jù)中心行業(yè)的恥辱,因為沒有做到。
數(shù)據(jù)中心可靠性還有上升的空間,只是因為人們不同意分享。 安森特說。航空公司被迫通過法律來分享事故調(diào)查的結(jié)果。他們受到嚴格管制,因為一旦發(fā)生故障,那么乘客將命懸一線。
這并不適用于數(shù)據(jù)中心,盡管這可能會改變,因為在數(shù)據(jù)中心基礎(chǔ)設(shè)施中,需要承擔更多重要保護人身安全的功能。而業(yè)內(nèi)人士不希望得到嚴格的監(jiān)管和控制。
但在這次會議議上,安森特提出一個想法。那就是在共享一個匿名數(shù)據(jù)庫的基礎(chǔ)上,經(jīng)歷事故的數(shù)據(jù)中心可以分享自己的失敗情況,通過實際調(diào)查,數(shù)據(jù)中心行業(yè)人士都可以從案例中進行學習與借鑒。這個想法如果得實施的話,就可能促成數(shù)據(jù)中心的可靠性真正的突破。
促成這件事情將是一場艱苦的斗爭,但這應(yīng)該贏得行業(yè)人士的支持,因為無論誰都想要削減數(shù)據(jù)中心的成本,無論是浪費的電力,資金或精力。