在最近進行的一次調(diào)查中,要求被調(diào)查者說出所在公司對正常運行時間的最低要求。針對這一問題,大約25%的人回答,他們最低的要求是99.999%!由此不難看出,為什么現(xiàn)在大部分企業(yè)數(shù)據(jù)中心都將系統(tǒng)可用性看成是最主要的設(shè)計因素。與此同時,從業(yè)者和設(shè)計人員卻很難確定針對每個公司的 理想設(shè)計 。之所以備感棘手,其中涉及到諸多原因。首要原因當屬數(shù)據(jù)中心較長的使用壽命。一個數(shù)據(jù)中心有可能維持10年甚至更長,設(shè)計人員通常不會介入如此長的時間,來獲得確定如何改進設(shè)計所需的反饋。
與此同時,諸如微小的設(shè)計缺陷加上低劣的操作程序等各類因素也會引發(fā)很多問題。最終,也許正是由于人們對這方面了解不夠致使改進設(shè)計工作遇到困難。我們只有邊做邊學,將從修建上一個數(shù)據(jù)中心過程中積累的經(jīng)驗,應(yīng)用到新的數(shù)據(jù)中心上,并加以改進。
縱觀現(xiàn)有眾多高可用性數(shù)據(jù)中心,每個數(shù)據(jù)中心的設(shè)計和運營模式差異巨大,但在很多方面卻又存在著相似點。通過整合各類數(shù)據(jù)中心的數(shù)據(jù)、反饋和目標,我們希望促進并協(xié)助設(shè)計或改進數(shù)據(jù)中心的過程。
本文要討論的主要問題是:
●電源設(shè)計容量的供求不平衡;
●預測未來的電源需求;
●迅速改變數(shù)據(jù)中心的功率密度;
●建立能夠有效分配電源的基礎(chǔ)設(shè)施;
●增加新數(shù)據(jù)中心的熱限制;
●創(chuàng)建和優(yōu)化電源冗余選件;
●了解運營和培訓的影響;
●解釋實現(xiàn) 99.999% 的可行性;
●系統(tǒng)的恢復是如何影響可用性的。
UPS供電設(shè)計容量與實際需求無法平衡
在設(shè)計和建設(shè)數(shù)據(jù)中心時,人們將預測數(shù)據(jù)中心規(guī)??闯墒且粋€基本的程序。但是,如果預測的數(shù)據(jù)中心設(shè)計壽命是10~15年,那么這項任務(wù)就變得異常困難。在這種類型的使用壽命期內(nèi),房間內(nèi)的設(shè)備可能被新一代的設(shè)備 刷新 或更換四五次。IT設(shè)備的快速更新使得最基本的未來容量預測成為泡影。
例如,摩爾定律指出集成電路的集成度每18個月翻一番。對于每一代產(chǎn)品來說,附加的晶體管需要成比例地增加電源容量。相應(yīng)地,微處理器的熱量輸出也顯著上升。Intel最新的Pentium4芯片大約產(chǎn)生100W的熱量。相比486,后者發(fā)熱量不足10W。芯片密度的增加以同樣的比率增大了熱量的產(chǎn)生。由此聯(lián)想到數(shù)據(jù)中心的設(shè)計,我們所看到的是,功率密度的要求在過去的幾年中迅速膨脹。不久前,每平方米50W還是一個比較典型的數(shù)值,但是目前的大部分設(shè)計人員則將這一數(shù)值增大到每平方米150~200W甚至更多。僅僅在最近幾年中,系統(tǒng)基礎(chǔ)結(jié)構(gòu)就實現(xiàn)了驚人的擴展,以應(yīng)對數(shù)據(jù)中心的電源容量和冷卻不斷變化的要求。
預測未來電源需要這一極富挑戰(zhàn)性的任務(wù)引發(fā)了最嚴重的數(shù)據(jù)中心問題之一,即UPS設(shè)計容量供求的不平衡。這一問題的出現(xiàn)不僅影響了數(shù)據(jù)中心的效率、利用率和支持能力,而且還妨礙了資本的最優(yōu)使用。例如,一個大型數(shù)據(jù)中心建成后,經(jīng)常需要2~4年才能達到或接近設(shè)計能力。因此,在前幾年的運營中對電源容量的需求很少。而這時的用戶經(jīng)常會斥資數(shù)百萬美元建設(shè)能夠達到全部設(shè)計容量的數(shù)據(jù)中心,包括購買數(shù)兆瓦的冗余電源系統(tǒng)來支持數(shù)據(jù)中心。系統(tǒng)在以最小限度的低容量運行幾年后,才能使用全部容量。在這種情況下,大量的資金用于最初的容量建設(shè),以滿足多年以后才會出現(xiàn)的需要。具有諷刺意味的是,在使用全部電源容量的同時,數(shù)據(jù)中心仍有很大的占地面積可供使用。出現(xiàn)這種情況是因為設(shè)備的功率密度在兩年內(nèi)不斷增加,電源容量已被全部使用,但占地面積卻十分充足。瞬息萬變的設(shè)備技術(shù)使這種情況變得更糟,通常數(shù)據(jù)中心每四年就需要一次大修。除了大修的費用,數(shù)據(jù)中心的宕機風險也在實施過程中大幅度增加。
圖1大型互聯(lián)網(wǎng)數(shù)據(jù)中心的利用率典型曲線
這對于以出租數(shù)據(jù)中心為主要收入來源的設(shè)備托管和互聯(lián)網(wǎng)服務(wù)商來說尤其危險。這些公司在正式運營以前就要支付整個設(shè)施的費用,但是與此成本對應(yīng)的收入經(jīng)常是在多年以后才會收到。對于這類資本密集型行業(yè)來說,在獲得收入之前承擔巨大的成本負荷是極其危險的(如圖1所示)。應(yīng)注意的是,利用率曲線可能有很大的變化,而且兩年通常是一個非常樂觀的數(shù)字。從圖1中可以看出,供求平衡點幾乎永遠也不存在,這樣就會導致巨大的成本,無法實現(xiàn)最優(yōu)的利用率。
[1]
[2]
[3]
[4]