電源是數(shù)據(jù)中心的基礎(chǔ)要素之一,通常由服務(wù)器管理員負(fù)責(zé)管理。而且,斷電或低質(zhì)量電源是造成數(shù)據(jù)中心服務(wù)器停機的一大主要因素。這里,我指的不是公用電源故障,而是電源分布系統(tǒng)的操作和管理的通病。
在數(shù)據(jù)中心,有如下幾個關(guān)鍵的基本電源組成部分:?
公用電源和主電源板?
備用發(fā)電機和自動轉(zhuǎn)換開關(guān)(ATS)
不間斷電源(UPS)和支路維護板(maintenancebypasspanel)?
電源分配單元(PDU)?
機架級PDU?
服務(wù)器的內(nèi)部電源
在大多數(shù)情況下,服務(wù)器管理員都不會涉及到前四項的設(shè)計或操作。不過,他們會直接掌管著機架級PDU和服務(wù)器電源。大多數(shù)電源故障都發(fā)生在這里。
雙電源服務(wù)器的實際情況
在關(guān)鍵任務(wù)環(huán)境下,雙電源服務(wù)器是比較普遍的做法,它可以提高數(shù)據(jù)中心的可靠性。然而,盡管服務(wù)器管理員想盡可能地充分利用雙電源提高冗余,但有時這些雙電源服務(wù)器并未得到合理地部署。有時,不合理的操作實際上反而會降低電源的冗余。在 完美 的安裝執(zhí)行中(如,Tier4數(shù)據(jù)中心),應(yīng)該有兩條完全獨立的電源線路,每條線路分別由上述6個部分組成。而且,每條線路必須能夠獨立承載整個數(shù)據(jù)中心的負(fù)載。這就是我們所說的2N冗余。
2N冗余意味著電源故障絕不會中斷數(shù)據(jù)中心設(shè)備的運行。當(dāng)然,并不是每個人都那么走運能操作一個Tier4數(shù)據(jù)中心。盡管我們誰都想擁有完全的電源冗余,但鑒于成本因素,我們通常不得不采取一些折中的做法。由于受到成本預(yù)算的限制,所以通常盡管服務(wù)器有雙電源,但其它5項卻沒有兩條完全獨立的線路。
服務(wù)器管理員對冗余的理解通常有偏差
在本文前面已提到,管理員直接負(fù)責(zé)服務(wù)器和機架級PDU的安裝和管理。通常,每個機架只有一個PDU。因此,雙電源服務(wù)器的冗余度就僅限于服務(wù)器電源本身的故障。
然而,更普遍的情況是有兩個機架級PDU,服務(wù)器的兩條電源線分別插到不同的PDU上。這讓大多數(shù)管理員有了一種冗余的錯覺,實際上其中也隱藏著電源故障的威脅。
通常,服務(wù)器安裝和操作環(huán)境的兩個機架級PDU都是可用的。當(dāng)兩個電源都正常時,雙電源會分擔(dān)服務(wù)器負(fù)載,大概各占50%。當(dāng)其中一個發(fā)生故障或失去電源輸入時,剩下的一個電源必須承擔(dān)100%的負(fù)載。因此,最佳的做法應(yīng)該是PDU的負(fù)載不要超過短路開關(guān)的跳閘值。
即使每個PDU的負(fù)載只占它最大額定負(fù)載的60%,也可能會出現(xiàn)問題。實際上,即使PDU有測流計顯示負(fù)載達到額定功率的60%,大多數(shù)管理員也會以為機架級PDU還可以承載更多的服務(wù)器,因為現(xiàn)在 才使用了60%的功率 。實際上這已經(jīng)超載了,但很多管理員沒有意識到這一點。
為什么呢?如果服務(wù)器的電源發(fā)生故障,那么剩下的電源和PDU就要承擔(dān)服務(wù)器的全部負(fù)載。這意味著120%的PDU功率負(fù)載會落到剩下的那個PDU身上,短路開關(guān)會跳閘,關(guān)閉機架內(nèi)所有設(shè)備。這是一個典型的串聯(lián)故障。同樣,如果添加服務(wù)器或其它設(shè)備使負(fù)載超過其中任何一個PDU的跳閘負(fù)載值,也會出現(xiàn)這樣的問題。
正確地執(zhí)行雙電源服務(wù)器
要確保雙電源服務(wù)器和雙PDU機架的安全,唯一的辦法是不要超過機架PDU額定值的40%。PDU和它的供電電路必須總是受到斷電開關(guān)的保護。根據(jù)UL和NEMA的規(guī)范要求,只有不超過PDU額定值的80%才是安全的。
例如,一個額定值為20安的PDU,負(fù)載不能超過16安。這就是說,在一個雙PDU機架里,所有設(shè)備負(fù)載不應(yīng)該超過16安。因此,每個PDU應(yīng)該只有8安的負(fù)載,以免出現(xiàn)超負(fù)荷。
現(xiàn)在,很多機架的PDU都沒有測流計,有時是因為它們太老式,有時是因為預(yù)算不足。不過,即便是有測流計,有些管理員也不會意識到如果它們負(fù)載超過了40%,就會有串聯(lián)電源故障的危險。另外,由于服務(wù)器隨時都有可能更新和添加,所以危險會不知不覺地越來越高,直到問題出現(xiàn)時已為時已晚。從這一點來看,很多人都誤以為它們是 完全冗余的 。
如果你有幸能避免這個錯誤的觀點,我建議你檢查一下每個機架級PDU的使用情況。如果沒有PDU測流計,可以考慮一下升級。如果你的機架數(shù)量較多,那么可以考慮遠(yuǎn)程監(jiān)測(通過SNMP或網(wǎng)絡(luò))PDU。這可以減輕你手動監(jiān)測成百上千PDU的沉重負(fù)擔(dān)。實際上,上述方法適用于電路中的所有部分。
總之,在執(zhí)行冗余時如果要確定當(dāng)其中一條線路發(fā)生故障時另一條線路是否能承擔(dān)全部的負(fù)載,就審查一下負(fù)載結(jié)構(gòu),主動監(jiān)測和管理所有PDU的負(fù)載程度和電路中其它所有要素。更改PDU布置可能會需要一些停機時間。不過,和其它任何電路維護一樣,如果要實現(xiàn)真正的2N冗余,一定的停機時間可能是必要的。要么是一些計劃內(nèi)停機時間,要么是意外的斷電停機風(fēng)險,你可以任選一種。
責(zé)任編輯:kelly