電源是數(shù)據(jù)中心的基礎(chǔ)要素之一,通常由服務(wù)器管理員負(fù)責(zé)管理。而且,斷電或低質(zhì)量電源是造成數(shù)據(jù)中心服務(wù)器停機(jī)的一大主要因素。這里,我指的不是公用電源故障,而是電源分布系統(tǒng)的操作和管理的通病。
在數(shù)據(jù)中心,有如下幾個(gè)關(guān)鍵的基本電源組成部分:?
公用電源和主電源板?
備用發(fā)電機(jī)和自動(dòng)轉(zhuǎn)換開關(guān)(ATS)
不間斷電源(UPS)和支路維護(hù)板(maintenancebypasspanel)?
電源分配單元(PDU)?
機(jī)架級(jí)PDU?
服務(wù)器的內(nèi)部電源
在大多數(shù)情況下,服務(wù)器管理員都不會(huì)涉及到前四項(xiàng)的設(shè)計(jì)或操作。不過,他們會(huì)直接掌管著機(jī)架級(jí)PDU和服務(wù)器電源。大多數(shù)電源故障都發(fā)生在這里。
雙電源服務(wù)器的實(shí)際情況
在關(guān)鍵任務(wù)環(huán)境下,雙電源服務(wù)器是比較普遍的做法,它可以提高數(shù)據(jù)中心的可靠性。然而,盡管服務(wù)器管理員想盡可能地充分利用雙電源提高冗余,但有時(shí)這些雙電源服務(wù)器并未得到合理地部署。有時(shí),不合理的操作實(shí)際上反而會(huì)降低電源的冗余。在 完美 的安裝執(zhí)行中(如,Tier4數(shù)據(jù)中心),應(yīng)該有兩條完全獨(dú)立的電源線路,每條線路分別由上述6個(gè)部分組成。而且,每條線路必須能夠獨(dú)立承載整個(gè)數(shù)據(jù)中心的負(fù)載。這就是我們所說的2N冗余。
2N冗余意味著電源故障絕不會(huì)中斷數(shù)據(jù)中心設(shè)備的運(yùn)行。當(dāng)然,并不是每個(gè)人都那么走運(yùn)能操作一個(gè)Tier4數(shù)據(jù)中心。盡管我們誰都想擁有完全的電源冗余,但鑒于成本因素,我們通常不得不采取一些折中的做法。由于受到成本預(yù)算的限制,所以通常盡管服務(wù)器有雙電源,但其它5項(xiàng)卻沒有兩條完全獨(dú)立的線路。
服務(wù)器管理員對(duì)冗余的理解通常有偏差
在本文前面已提到,管理員直接負(fù)責(zé)服務(wù)器和機(jī)架級(jí)PDU的安裝和管理。通常,每個(gè)機(jī)架只有一個(gè)PDU。因此,雙電源服務(wù)器的冗余度就僅限于服務(wù)器電源本身的故障。
然而,更普遍的情況是有兩個(gè)機(jī)架級(jí)PDU,服務(wù)器的兩條電源線分別插到不同的PDU上。這讓大多數(shù)管理員有了一種冗余的錯(cuò)覺,實(shí)際上其中也隱藏著電源故障的威脅。
通常,服務(wù)器安裝和操作環(huán)境的兩個(gè)機(jī)架級(jí)PDU都是可用的。當(dāng)兩個(gè)電源都正常時(shí),雙電源會(huì)分擔(dān)服務(wù)器負(fù)載,大概各占50%。當(dāng)其中一個(gè)發(fā)生故障或失去電源輸入時(shí),剩下的一個(gè)電源必須承擔(dān)100%的負(fù)載。因此,最佳的做法應(yīng)該是PDU的負(fù)載不要超過短路開關(guān)的跳閘值。
即使每個(gè)PDU的負(fù)載只占它最大額定負(fù)載的60%,也可能會(huì)出現(xiàn)問題。實(shí)際上,即使PDU有測流計(jì)顯示負(fù)載達(dá)到額定功率的60%,大多數(shù)管理員也會(huì)以為機(jī)架級(jí)PDU還可以承載更多的服務(wù)器,因?yàn)楝F(xiàn)在 才使用了60%的功率 。實(shí)際上這已經(jīng)超載了,但很多管理員沒有意識(shí)到這一點(diǎn)。
為什么呢?如果服務(wù)器的電源發(fā)生故障,那么剩下的電源和PDU就要承擔(dān)服務(wù)器的全部負(fù)載。這意味著120%的PDU功率負(fù)載會(huì)落到剩下的那個(gè)PDU身上,短路開關(guān)會(huì)跳閘,關(guān)閉機(jī)架內(nèi)所有設(shè)備。這是一個(gè)典型的串聯(lián)故障。同樣,如果添加服務(wù)器或其它設(shè)備使負(fù)載超過其中任何一個(gè)PDU的跳閘負(fù)載值,也會(huì)出現(xiàn)這樣的問題。
正確地執(zhí)行雙電源服務(wù)器
要確保雙電源服務(wù)器和雙PDU機(jī)架的安全,唯一的辦法是不要超過機(jī)架PDU額定值的40%。PDU和它的供電電路必須總是受到斷電開關(guān)的保護(hù)。根據(jù)UL和NEMA的規(guī)范要求,只有不超過PDU額定值的80%才是安全的。
例如,一個(gè)額定值為20安的PDU,負(fù)載不能超過16安。這就是說,在一個(gè)雙PDU機(jī)架里,所有設(shè)備負(fù)載不應(yīng)該超過16安。因此,每個(gè)PDU應(yīng)該只有8安的負(fù)載,以免出現(xiàn)超負(fù)荷。
現(xiàn)在,很多機(jī)架的PDU都沒有測流計(jì),有時(shí)是因?yàn)樗鼈兲鲜?,有時(shí)是因?yàn)轭A(yù)算不足。不過,即便是有測流計(jì),有些管理員也不會(huì)意識(shí)到如果它們負(fù)載超過了40%,就會(huì)有串聯(lián)電源故障的危險(xiǎn)。另外,由于服務(wù)器隨時(shí)都有可能更新和添加,所以危險(xiǎn)會(huì)不知不覺地越來越高,直到問題出現(xiàn)時(shí)已為時(shí)已晚。從這一點(diǎn)來看,很多人都誤以為它們是 完全冗余的 。
如果你有幸能避免這個(gè)錯(cuò)誤的觀點(diǎn),我建議你檢查一下每個(gè)機(jī)架級(jí)PDU的使用情況。如果沒有PDU測流計(jì),可以考慮一下升級(jí)。如果你的機(jī)架數(shù)量較多,那么可以考慮遠(yuǎn)程監(jiān)測(通過SNMP或網(wǎng)絡(luò))PDU。這可以減輕你手動(dòng)監(jiān)測成百上千PDU的沉重負(fù)擔(dān)。實(shí)際上,上述方法適用于電路中的所有部分。
總之,在執(zhí)行冗余時(shí)如果要確定當(dāng)其中一條線路發(fā)生故障時(shí)另一條線路是否能承擔(dān)全部的負(fù)載,就審查一下負(fù)載結(jié)構(gòu),主動(dòng)監(jiān)測和管理所有PDU的負(fù)載程度和電路中其它所有要素。更改PDU布置可能會(huì)需要一些停機(jī)時(shí)間。不過,和其它任何電路維護(hù)一樣,如果要實(shí)現(xiàn)真正的2N冗余,一定的停機(jī)時(shí)間可能是必要的。要么是一些計(jì)劃內(nèi)停機(jī)時(shí)間,要么是意外的斷電停機(jī)風(fēng)險(xiǎn),你可以任選一種。
責(zé)任編輯:kelly