本文是作者M(jìn)ary Branscombe在參觀完微軟公司位于華盛頓州昆西的超大規(guī)模數(shù)據(jù)中心之后所撰寫的一篇手記,從文中,我們可以看出云數(shù)據(jù)中心在過去的十年中究竟走了多遠(yuǎn)。
一處超大規(guī)模的云數(shù)據(jù)中心看起來與一般的企業(yè)級數(shù)據(jù)中心是不同的,甚至與一家大型的托管服務(wù)提供商也是不同的。他們所面臨的問題不同于您企業(yè)數(shù)據(jù)中心所面臨的問題。而您企業(yè)數(shù)據(jù)中心所采用的各種方法:包括從如何選擇一處數(shù)據(jù)中心站點,到如何管理電源,再到服務(wù)器的運行使用壽命該有多久都與您企業(yè)的數(shù)據(jù)中心是不同的。
如果您企業(yè)正在考慮采用一款混合云服務(wù),其涉及到運行Azure堆?;蛞豢畛诤系幕A(chǔ)設(shè)施,那么,如下的幾大重要的差異是您企業(yè)亟待重點考慮的:
當(dāng)硬盤驅(qū)動器出現(xiàn)故障時,幾乎總是緣于振動的問題。一處云數(shù)據(jù)中心是在如此精心設(shè)計的系統(tǒng)中運行的,因此其發(fā)生故障的主要原因是濕度。
您需要關(guān)心維護(hù)性問題,并定期計劃仔細(xì)的修補,逐一集群或乃至逐一服務(wù)器的實施維護(hù)性修補;一處云數(shù)據(jù)中心重視自我管理,自動化的自愈,其被以標(biāo)記(stamp)為單位,可能至少管理著800臺服務(wù)器。
虛擬化的工作負(fù)載得以充分利用處理器;他們在一處云數(shù)據(jù)標(biāo)記(data stamp)的800臺服務(wù)器中保留了20臺,用于運行管理軟件。
隨著服務(wù)器的老化,您企業(yè)可以在其之上運行要求不太高的工作負(fù)載;一處云數(shù)據(jù)中心所采購的服務(wù)器是具備機(jī)架和堆棧所同時一起交付的,通常位于集裝箱容器內(nèi),在三到五年后,它們將被整體更換為具有較低運營成本的新的服務(wù)器機(jī)架。
您關(guān)心電源和冷卻的成本,而對于電力資源的獲得可能會妨礙您企業(yè)擴(kuò)展工作負(fù)載;一處云數(shù)據(jù)中心所選擇的地理位置較為特別,因為該地理位置將有助于降低冷卻成本,其將會擁有一條直接來自水力發(fā)電廠的電力供應(yīng)線,并能夠支持?jǐn)?shù)據(jù)中心規(guī)模的不斷擴(kuò)張 甚至能夠作為數(shù)據(jù)中心遷移到采用新一代硬件和一種新的數(shù)據(jù)中心布局方式的機(jī)會。
您可能會擔(dān)心從兩家不同的供應(yīng)商連接到您的數(shù)據(jù)中心的問題;而一處云數(shù)據(jù)中心則投資于其自己的水下數(shù)據(jù)電纜。
然后還有規(guī)模方面的問題……
我們必須持續(xù)的擴(kuò)展我們的網(wǎng)絡(luò),一直2020年。 微軟數(shù)據(jù)中心高級主管Rick Bakken告訴我們說。
即使物理基礎(chǔ)設(shè)施的規(guī)模也是相當(dāng)巨大的:微軟最新的華盛頓昆西數(shù)據(jù)中心設(shè)施正在建設(shè)中,該數(shù)據(jù)中心擁有24000公里長的網(wǎng)絡(luò)電纜,這一長度幾乎足以環(huán)繞地球,而其位于新加坡的Azure數(shù)據(jù)中心所擁有的網(wǎng)絡(luò)電纜長度則是前者的兩倍;以及足夠的混凝土,其足以能夠鋪設(shè)從倫敦到巴黎的人行道。
Azure數(shù)據(jù)中心的零距離探訪
零距離探訪一處像昆西這樣的超大規(guī)模數(shù)據(jù)中心的內(nèi)部是讓那些公共云服務(wù)的安全性懷疑論者們閉嘴的一種最快最有效的方式。而具有諷刺意味的是,正是基于安全性的考慮,才讓我們對于這處數(shù)據(jù)中心的親歷探訪變得相當(dāng)困難。甚至不能派您企業(yè)的審核團(tuán)隊來檢查其設(shè)備。
最近,微軟公司為CIO.com網(wǎng)站的記者們提供了一次零距離探訪其位于華盛頓州昆西數(shù)據(jù)中心的機(jī)會,而作為十年來首批被批準(zhǔn)允許進(jìn)入其Azure數(shù)據(jù)中心內(nèi)部一探究竟的記者,我們在參觀全程過程中均受到相當(dāng)嚴(yán)格的限制:禁止拍照或錄像、不提供任何可能會危及設(shè)備安全的信息(故而本文中的圖像照片均由微軟公司所提供)。
微軟華盛頓昆西數(shù)據(jù)中心的外面是高原平原,每年擁有超過300天的日照時間,每年只有八英寸降雨(和一英尺的降雪),在一年大部分時間平均溫度為50華氏度,夏季中的兩三個星期溫度最高值可達(dá)80華氏度。該地區(qū)干旱的氣候非常適合當(dāng)?shù)氐乃N植,也使得數(shù)據(jù)中心的冷卻非常有效。而附近的哥倫比亞河澤產(chǎn)生了大量的電力,這就是為什么微軟在2006年選擇了昆西作為數(shù)據(jù)中心站點的原因(戴爾和雅虎,以及數(shù)據(jù)中心提供商如Vantage和Sabey也將其數(shù)據(jù)中心選址在此)。
微軟位于華盛頓昆西的數(shù)據(jù)中心鳥瞰圖
這些建筑是匿名的,沒有樹立微軟的標(biāo)志。最新的建筑設(shè)施已經(jīng)在一個凸起的護(hù)堤上安裝了一個防護(hù)柵欄,所以您根本不能開車進(jìn)入,也就無法看到其是如何布局的了(當(dāng)然如果您曾經(jīng)參觀過微軟的園區(qū),您會發(fā)現(xiàn)個別建筑的標(biāo)志看起來很熟悉;這些建筑沒有打上微軟的名稱或logo,通過圍欄籬笆您根本看不見他們)。
內(nèi)部的安全措施是相當(dāng)嚴(yán)格的:普通員工進(jìn)出要通過生物識別和雙門 而且對那些員工都會進(jìn)行背景檢查,涉及指紋和查看是否有警方備案記錄。即使是運輸和接收部門,其擁有一個巨大的,天花板高的貨架,正如您可以想象的如同在商店倉庫一樣,其安裝有不能同時打開的內(nèi)外門。更多的生物識別鎖保護(hù)個別房間(舊建筑物中采用手持式安檢儀,新的建筑設(shè)施中則采用指紋掃描器)。
在建筑物內(nèi),您會遇到各種不同的檢查站點,相關(guān)的警衛(wèi)安保人員會用掃描棒來確保您為將任何禁止的東西帶入或帶出。微軟采用了Rick Bakken所謂的 白手套移除(white glove removal) 的過程中,拆除舊設(shè)備并對其進(jìn)行回收 以確保沒有任何一款硬盤能夠離開數(shù)據(jù)中心操作建筑大樓。如果這些硬盤被用來存儲重要級別較低的業(yè)務(wù)數(shù)據(jù),那么將被使于內(nèi)部循環(huán),而如果他們儲存的是重要級別較高的業(yè)務(wù)數(shù)據(jù)(一些服務(wù)器機(jī)架將被標(biāo)記為HBI),那么這類硬盤將被送往粉碎機(jī)。粉碎后, 其碎塊顆粒大小還沒有一顆BB子彈大。
更少的工作人員和維護(hù)
您企業(yè)的數(shù)據(jù)中心絕對沒有這么長的走廊,以至于操作人員如若要去到另一處遙遠(yuǎn)的操作房間的話還需要借助踢滑板車。而即使企業(yè)級的數(shù)據(jù)中心的規(guī)模比超大規(guī)模云數(shù)據(jù)中心要小得多,但您數(shù)據(jù)中心所雇用的員工數(shù)量卻可能要多得多。Azure數(shù)據(jù)中心的核心運營團(tuán)隊成員規(guī)模要遠(yuǎn)遠(yuǎn)小于您所想象的(像微軟所說的那樣,基于數(shù)據(jù)中心的規(guī)模,一般精確到十到幾十人不等),盡管他們擁有前者三倍的安保警衛(wèi)人員的數(shù)量,但這些核心運營團(tuán)隊成員則擁有非常不同的技能。
他們不更換故障的網(wǎng)卡和硬盤驅(qū)動器,更新固件或計劃維護(hù)窗口。他們正在運行自動化,并忽略硬件故障,因為這些是自動處理的。
發(fā)生中斷、人為錯誤、軟件有bug漏洞。 Bakken說, 我們會讓其自愈,如果有什么破壞事件發(fā)生,我只需要知道其發(fā)生了,但我們有一套保護(hù)和治愈系統(tǒng)來規(guī)定和意外突發(fā)事件。至于OpEx運營成本,對于較新的數(shù)據(jù)中心而言,我們會更換冷卻系統(tǒng)中的過濾器,這是我所擁有的唯一維護(hù)。我們已經(jīng)轉(zhuǎn)向了一種彈性配置,使得我在每個箱子中放置的服務(wù)器比我們所需要的要更多,故而如果一臺服務(wù)器被破壞,我們只需將其關(guān)閉離開,等待直到下一個更新周期的到來。
從數(shù)據(jù)中心建筑到容器 再回歸
對于數(shù)據(jù)中心架構(gòu)而言,這種更新周期通常也意味著巨大的變化。當(dāng)您為數(shù)據(jù)中心采購服務(wù)器時,您可以從像戴爾或惠普這樣的OEM廠商處購買服務(wù)器。微軟以前就是這樣做的,一次性的大量購買,甚至是一次一個容器。現(xiàn)在,該公司正在設(shè)計自己的服務(wù)器,以便以更低的成本精確的滿足其實際所需,從ODM訂購,并將服務(wù)器設(shè)計貢獻(xiàn)給開放計算項目(OCP)。
微軟設(shè)計的服務(wù)器機(jī)架行
昆西數(shù)據(jù)中心的各種設(shè)施可以說是這些變化的一個縮影。微軟將這里最老的兩幢建筑稱為第二代數(shù)據(jù)中心,其看起來像一處傳統(tǒng)的數(shù)據(jù)中心,但是與普通的企業(yè)數(shù)據(jù)中心不同,并不是擠滿機(jī)架和服務(wù)器。隨著微軟在這里轉(zhuǎn)換到采用新的OCP服務(wù)器,路由器和負(fù)載均衡器消失了,以便有利于虛擬化網(wǎng)絡(luò),而該操作房間過去曾經(jīng)有18行機(jī)架,而現(xiàn)在只有8行,因為其計算機(jī)和功率密度非常高。 我們的功率預(yù)算不變,但卻安置的服務(wù)器的數(shù)量卻大大增多了;由于功率預(yù)算的限制,使得機(jī)架密度更高。 Bakken解釋說。
熱通道(高達(dá)106華氏度)被絕緣的工業(yè)制冷區(qū)域的透明塑料面板隔離。該屋頂最近被噴涂成白色,以提高電力效率 這是一個特別值得強調(diào)的細(xì)節(jié),其根源可追溯到十年前,彼時,Bakken還在史蒂夫 鮑爾默的容量能力規(guī)劃團(tuán)隊工作: 我們認(rèn)識到,我們正在建設(shè)真正大型的空調(diào);我們從事的是工業(yè)空調(diào)業(yè)務(wù)。
解決方案并不是采用AC交流電源。微軟能夠大量減少其所需的冷卻功率首先是通過轉(zhuǎn)換到采用用外部空氣冷卻的方法,然后再采用絕熱冷卻,其工作原理與 沼澤冷卻器 相同,即將水噴射到風(fēng)扇前面的空氣中,以保持操作機(jī)房空間更涼爽,因為熱量會蒸發(fā)水,而不會加熱空氣。
降低冷卻成本
如果您企業(yè)在過去幾年中采用了最新設(shè)計來構(gòu)建您的數(shù)據(jù)中心,那么您數(shù)據(jù)中心的電力使用效率(PUE)值可能為1.6或甚至1.4,就像微軟在2007年和2008年建立的第2代數(shù)據(jù)中心一樣。這意味著您只使用了一個額外的40%至60%的功率來運行服務(wù)器和網(wǎng)絡(luò)、降低您不間斷電源(UPS)的的電池電壓,而大多則用于保持服務(wù)器冷卻。
如果您是在十年前建立了您企業(yè)的數(shù)據(jù)中心,或者您使用了一種更傳統(tǒng)的設(shè)計,那么您企業(yè)將使用兩到三倍實際上用于運行您的工作負(fù)載的功率來進(jìn)行冷卻。
微軟在思考方式方面的變化導(dǎo)致了該公司在2011年建成了其第四代集裝箱式數(shù)據(jù)中心(該公司采用了ITPACs為其命名),平時大部分時間使用外部空氣冷卻,而只在最熱的日子里使用絕熱冷卻,使PUE值下降到1.2或1.12。
而即將在昆西開設(shè)的第五代數(shù)據(jù)中心設(shè)施的PUE值為1.1(其在一年中的某些時間段下降得更低)。
ITPAC容器
ITPAC設(shè)計將幾千臺服務(wù)器集成到一款容器中。微軟公司向兩家大型服務(wù)器OEM廠商提出了規(guī)格要求,希望他們能夠通過掛接一根440v的電源線和一根網(wǎng)絡(luò)電纜來提供一個可插入的容器。兩家公司提出了截然不同的設(shè)計:一個適合標(biāo)準(zhǔn)的集裝箱,其擁有有獨立的冷熱通道;另一個是具有單一的、共享的熱通道的定制pod。
ITPAC設(shè)計顯示了百葉窗屏
這兩種設(shè)計都是用起重機(jī)把它們提升到厚的混凝土基座上,然后微軟公司在上面建了一個屋頂。第二天,四英尺的雪飄進(jìn)了建筑物。這并不會對服務(wù)器的運行造成任何問題,但人員在里面很難行走,所以他們添加了百葉窗屏來擋雪,并讓外面的冷空氣得以進(jìn)入。
空氣通過多組過濾器,以便去除灰塵和污垢,而在最熱的日子里,室外空氣在被吹過容器之前,會被噴水冷卻。
后期版本的ITPAC設(shè)施完全免除了屋頂和墻壁,通過在集裝箱下面運行它們或?qū)⑺鼈兟裨诨炷料聛肀Wo(hù)電力和網(wǎng)絡(luò)電纜。
不同于企業(yè)的數(shù)據(jù)中心,后者具有發(fā)電機(jī)和飛輪來保持電力供應(yīng),該ITPAC設(shè)計不連接到備用發(fā)電機(jī)。整個數(shù)據(jù)中心設(shè)施有多處電力來源,但如果其失去電力供應(yīng),ITPAC上運行的工作負(fù)載將自動切換到其他數(shù)據(jù)中心。其故障也不是您企業(yè)的典型的故障。Bakken稱其為 全球分布式地理彈性系統(tǒng) 它不是一個主要和次要的,它是一個全球性的網(wǎng)格。
整個建筑是一個容器
微軟剛剛完成建設(shè)的第五代數(shù)據(jù)中心設(shè)施是昆西數(shù)據(jù)中心站點上所有其他數(shù)據(jù)中心設(shè)施規(guī)模大小的三倍,其回歸到了刷新建筑物,而不是堆疊的容器,但它們看起來并不像您所熟悉的數(shù)據(jù)中心。沒有高架地板;只是ITPAC在同一水泥板上。高機(jī)架內(nèi)預(yù)先填充了微軟OCP設(shè)計的服務(wù)器,并用送貨卡車安裝到位。他們連接到一個公共信號背板, 所以他們共享冷卻,網(wǎng)絡(luò)和電源。 Bakken說。這使得微軟可以靈活地應(yīng)對不同的服務(wù)器類型或不同的數(shù)據(jù)中心架構(gòu)。
微軟第5代數(shù)據(jù)中心設(shè)施
在建筑物的一側(cè),風(fēng)扇吹空氣冷卻,由一個封閉的循環(huán)水系統(tǒng)使用循環(huán)水(甚至收集在數(shù)據(jù)中心的雨水),其由外部空氣冷卻,而不是一個冷水機(jī)組。發(fā)電機(jī)補充電力供應(yīng)線,在大壩運行從數(shù)據(jù)中心現(xiàn)場收集回收的廢水的甲烷。微軟也在研究薄膜太陽能,甚至研究天然氣的燃料電池,以便可以用在機(jī)架上。
即使是依靠其來供應(yīng)一般的服務(wù)器機(jī)房,也還有很長的一段路要走,更何況是這種超大規(guī)模的云數(shù)據(jù)中心,只有兩三家云提供商可以整合在一起。當(dāng)然,其并不是微軟唯一的數(shù)據(jù)中心。
微軟在全球范圍內(nèi)運營著100多處數(shù)據(jù)中心,提供200種云服務(wù),并為超過10億的客戶和超過2000萬家企業(yè)處理云工作負(fù)載。 我所提供的處理服務(wù)包括了從Xbox到Office 365和Azure在內(nèi)的一切服務(wù)。 Bakken自豪的說。而他所面臨的客戶的要求則更高。 在微軟,唯一可以運行生產(chǎn)工作負(fù)載的地方便是我的其中一處數(shù)據(jù)中心。
本文作者M(jìn)ary Branscombe是一位自由撰稿人,在過去的二十年里,他所撰寫的文章一直致力于覆蓋技術(shù)領(lǐng)域,而且他所撰寫的文章包括了從編程語言、Windows和Office的早期版本、以及消費類電子產(chǎn)品和家庭娛樂類電子產(chǎn)品。