本文是作者Mary Branscombe在參觀完微軟公司位于華盛頓州昆西的超大規(guī)模數據中心之后所撰寫的一篇手記,從文中,我們可以看出云數據中心在過去的十年中究竟走了多遠。
一處超大規(guī)模的云數據中心看起來與一般的企業(yè)級數據中心是不同的,甚至與一家大型的托管服務提供商也是不同的。他們所面臨的問題不同于您企業(yè)數據中心所面臨的問題。而您企業(yè)數據中心所采用的各種方法:包括從如何選擇一處數據中心站點,到如何管理電源,再到服務器的運行使用壽命該有多久都與您企業(yè)的數據中心是不同的。
如果您企業(yè)正在考慮采用一款混合云服務,其涉及到運行Azure堆?;蛞豢畛诤系幕A設施,那么,如下的幾大重要的差異是您企業(yè)亟待重點考慮的:
當硬盤驅動器出現故障時,幾乎總是緣于振動的問題。一處云數據中心是在如此精心設計的系統(tǒng)中運行的,因此其發(fā)生故障的主要原因是濕度。
您需要關心維護性問題,并定期計劃仔細的修補,逐一集群或乃至逐一服務器的實施維護性修補;一處云數據中心重視自我管理,自動化的自愈,其被以標記(stamp)為單位,可能至少管理著800臺服務器。
虛擬化的工作負載得以充分利用處理器;他們在一處云數據標記(data stamp)的800臺服務器中保留了20臺,用于運行管理軟件。
隨著服務器的老化,您企業(yè)可以在其之上運行要求不太高的工作負載;一處云數據中心所采購的服務器是具備機架和堆棧所同時一起交付的,通常位于集裝箱容器內,在三到五年后,它們將被整體更換為具有較低運營成本的新的服務器機架。
您關心電源和冷卻的成本,而對于電力資源的獲得可能會妨礙您企業(yè)擴展工作負載;一處云數據中心所選擇的地理位置較為特別,因為該地理位置將有助于降低冷卻成本,其將會擁有一條直接來自水力發(fā)電廠的電力供應線,并能夠支持數據中心規(guī)模的不斷擴張 甚至能夠作為數據中心遷移到采用新一代硬件和一種新的數據中心布局方式的機會。
您可能會擔心從兩家不同的供應商連接到您的數據中心的問題;而一處云數據中心則投資于其自己的水下數據電纜。
然后還有規(guī)模方面的問題……
我們必須持續(xù)的擴展我們的網絡,一直2020年。 微軟數據中心高級主管Rick Bakken告訴我們說。
即使物理基礎設施的規(guī)模也是相當巨大的:微軟最新的華盛頓昆西數據中心設施正在建設中,該數據中心擁有24000公里長的網絡電纜,這一長度幾乎足以環(huán)繞地球,而其位于新加坡的Azure數據中心所擁有的網絡電纜長度則是前者的兩倍;以及足夠的混凝土,其足以能夠鋪設從倫敦到巴黎的人行道。
Azure數據中心的零距離探訪
零距離探訪一處像昆西這樣的超大規(guī)模數據中心的內部是讓那些公共云服務的安全性懷疑論者們閉嘴的一種最快最有效的方式。而具有諷刺意味的是,正是基于安全性的考慮,才讓我們對于這處數據中心的親歷探訪變得相當困難。甚至不能派您企業(yè)的審核團隊來檢查其設備。
最近,微軟公司為CIO.com網站的記者們提供了一次零距離探訪其位于華盛頓州昆西數據中心的機會,而作為十年來首批被批準允許進入其Azure數據中心內部一探究竟的記者,我們在參觀全程過程中均受到相當嚴格的限制:禁止拍照或錄像、不提供任何可能會危及設備安全的信息(故而本文中的圖像照片均由微軟公司所提供)。
微軟華盛頓昆西數據中心的外面是高原平原,每年擁有超過300天的日照時間,每年只有八英寸降雨(和一英尺的降雪),在一年大部分時間平均溫度為50華氏度,夏季中的兩三個星期溫度最高值可達80華氏度。該地區(qū)干旱的氣候非常適合當地的水果種植,也使得數據中心的冷卻非常有效。而附近的哥倫比亞河澤產生了大量的電力,這就是為什么微軟在2006年選擇了昆西作為數據中心站點的原因(戴爾和雅虎,以及數據中心提供商如Vantage和Sabey也將其數據中心選址在此)。
微軟位于華盛頓昆西的數據中心鳥瞰圖
這些建筑是匿名的,沒有樹立微軟的標志。最新的建筑設施已經在一個凸起的護堤上安裝了一個防護柵欄,所以您根本不能開車進入,也就無法看到其是如何布局的了(當然如果您曾經參觀過微軟的園區(qū),您會發(fā)現個別建筑的標志看起來很熟悉;這些建筑沒有打上微軟的名稱或logo,通過圍欄籬笆您根本看不見他們)。
內部的安全措施是相當嚴格的:普通員工進出要通過生物識別和雙門 而且對那些員工都會進行背景檢查,涉及指紋和查看是否有警方備案記錄。即使是運輸和接收部門,其擁有一個巨大的,天花板高的貨架,正如您可以想象的如同在商店倉庫一樣,其安裝有不能同時打開的內外門。更多的生物識別鎖保護個別房間(舊建筑物中采用手持式安檢儀,新的建筑設施中則采用指紋掃描器)。
在建筑物內,您會遇到各種不同的檢查站點,相關的警衛(wèi)安保人員會用掃描棒來確保您為將任何禁止的東西帶入或帶出。微軟采用了Rick Bakken所謂的 白手套移除(white glove removal) 的過程中,拆除舊設備并對其進行回收 以確保沒有任何一款硬盤能夠離開數據中心操作建筑大樓。如果這些硬盤被用來存儲重要級別較低的業(yè)務數據,那么將被使于內部循環(huán),而如果他們儲存的是重要級別較高的業(yè)務數據(一些服務器機架將被標記為HBI),那么這類硬盤將被送往粉碎機。粉碎后, 其碎塊顆粒大小還沒有一顆BB子彈大。
更少的工作人員和維護
您企業(yè)的數據中心絕對沒有這么長的走廊,以至于操作人員如若要去到另一處遙遠的操作房間的話還需要借助踢滑板車。而即使企業(yè)級的數據中心的規(guī)模比超大規(guī)模云數據中心要小得多,但您數據中心所雇用的員工數量卻可能要多得多。Azure數據中心的核心運營團隊成員規(guī)模要遠遠小于您所想象的(像微軟所說的那樣,基于數據中心的規(guī)模,一般精確到十到幾十人不等),盡管他們擁有前者三倍的安保警衛(wèi)人員的數量,但這些核心運營團隊成員則擁有非常不同的技能。
他們不更換故障的網卡和硬盤驅動器,更新固件或計劃維護窗口。他們正在運行自動化,并忽略硬件故障,因為這些是自動處理的。
發(fā)生中斷、人為錯誤、軟件有bug漏洞。 Bakken說, 我們會讓其自愈,如果有什么破壞事件發(fā)生,我只需要知道其發(fā)生了,但我們有一套保護和治愈系統(tǒng)來規(guī)定和意外突發(fā)事件。至于OpEx運營成本,對于較新的數據中心而言,我們會更換冷卻系統(tǒng)中的過濾器,這是我所擁有的唯一維護。我們已經轉向了一種彈性配置,使得我在每個箱子中放置的服務器比我們所需要的要更多,故而如果一臺服務器被破壞,我們只需將其關閉離開,等待直到下一個更新周期的到來。
從數據中心建筑到容器 再回歸
對于數據中心架構而言,這種更新周期通常也意味著巨大的變化。當您為數據中心采購服務器時,您可以從像戴爾或惠普這樣的OEM廠商處購買服務器。微軟以前就是這樣做的,一次性的大量購買,甚至是一次一個容器?,F在,該公司正在設計自己的服務器,以便以更低的成本精確的滿足其實際所需,從ODM訂購,并將服務器設計貢獻給開放計算項目(OCP)。
微軟設計的服務器機架行
昆西數據中心的各種設施可以說是這些變化的一個縮影。微軟將這里最老的兩幢建筑稱為第二代數據中心,其看起來像一處傳統(tǒng)的數據中心,但是與普通的企業(yè)數據中心不同,并不是擠滿機架和服務器。隨著微軟在這里轉換到采用新的OCP服務器,路由器和負載均衡器消失了,以便有利于虛擬化網絡,而該操作房間過去曾經有18行機架,而現在只有8行,因為其計算機和功率密度非常高。 我們的功率預算不變,但卻安置的服務器的數量卻大大增多了;由于功率預算的限制,使得機架密度更高。 Bakken解釋說。
熱通道(高達106華氏度)被絕緣的工業(yè)制冷區(qū)域的透明塑料面板隔離。該屋頂最近被噴涂成白色,以提高電力效率 這是一個特別值得強調的細節(jié),其根源可追溯到十年前,彼時,Bakken還在史蒂夫 鮑爾默的容量能力規(guī)劃團隊工作: 我們認識到,我們正在建設真正大型的空調;我們從事的是工業(yè)空調業(yè)務。
解決方案并不是采用AC交流電源。微軟能夠大量減少其所需的冷卻功率首先是通過轉換到采用用外部空氣冷卻的方法,然后再采用絕熱冷卻,其工作原理與 沼澤冷卻器 相同,即將水噴射到風扇前面的空氣中,以保持操作機房空間更涼爽,因為熱量會蒸發(fā)水,而不會加熱空氣。
降低冷卻成本
如果您企業(yè)在過去幾年中采用了最新設計來構建您的數據中心,那么您數據中心的電力使用效率(PUE)值可能為1.6或甚至1.4,就像微軟在2007年和2008年建立的第2代數據中心一樣。這意味著您只使用了一個額外的40%至60%的功率來運行服務器和網絡、降低您不間斷電源(UPS)的的電池電壓,而大多則用于保持服務器冷卻。
如果您是在十年前建立了您企業(yè)的數據中心,或者您使用了一種更傳統(tǒng)的設計,那么您企業(yè)將使用兩到三倍實際上用于運行您的工作負載的功率來進行冷卻。
微軟在思考方式方面的變化導致了該公司在2011年建成了其第四代集裝箱式數據中心(該公司采用了ITPACs為其命名),平時大部分時間使用外部空氣冷卻,而只在最熱的日子里使用絕熱冷卻,使PUE值下降到1.2或1.12。
而即將在昆西開設的第五代數據中心設施的PUE值為1.1(其在一年中的某些時間段下降得更低)。
ITPAC容器
ITPAC設計將幾千臺服務器集成到一款容器中。微軟公司向兩家大型服務器OEM廠商提出了規(guī)格要求,希望他們能夠通過掛接一根440v的電源線和一根網絡電纜來提供一個可插入的容器。兩家公司提出了截然不同的設計:一個適合標準的集裝箱,其擁有有獨立的冷熱通道;另一個是具有單一的、共享的熱通道的定制pod。
ITPAC設計顯示了百葉窗屏
這兩種設計都是用起重機把它們提升到厚的混凝土基座上,然后微軟公司在上面建了一個屋頂。第二天,四英尺的雪飄進了建筑物。這并不會對服務器的運行造成任何問題,但人員在里面很難行走,所以他們添加了百葉窗屏來擋雪,并讓外面的冷空氣得以進入。
空氣通過多組過濾器,以便去除灰塵和污垢,而在最熱的日子里,室外空氣在被吹過容器之前,會被噴水冷卻。
后期版本的ITPAC設施完全免除了屋頂和墻壁,通過在集裝箱下面運行它們或將它們埋在混凝土下來保護電力和網絡電纜。
不同于企業(yè)的數據中心,后者具有發(fā)電機和飛輪來保持電力供應,該ITPAC設計不連接到備用發(fā)電機。整個數據中心設施有多處電力來源,但如果其失去電力供應,ITPAC上運行的工作負載將自動切換到其他數據中心。其故障也不是您企業(yè)的典型的故障。Bakken稱其為 全球分布式地理彈性系統(tǒng) 它不是一個主要和次要的,它是一個全球性的網格。
整個建筑是一個容器
微軟剛剛完成建設的第五代數據中心設施是昆西數據中心站點上所有其他數據中心設施規(guī)模大小的三倍,其回歸到了刷新建筑物,而不是堆疊的容器,但它們看起來并不像您所熟悉的數據中心。沒有高架地板;只是ITPAC在同一水泥板上。高機架內預先填充了微軟OCP設計的服務器,并用送貨卡車安裝到位。他們連接到一個公共信號背板, 所以他們共享冷卻,網絡和電源。 Bakken說。這使得微軟可以靈活地應對不同的服務器類型或不同的數據中心架構。
微軟第5代數據中心設施
在建筑物的一側,風扇吹空氣冷卻,由一個封閉的循環(huán)水系統(tǒng)使用循環(huán)水(甚至收集在數據中心的雨水),其由外部空氣冷卻,而不是一個冷水機組。發(fā)電機補充電力供應線,在大壩運行從數據中心現場收集回收的廢水的甲烷。微軟也在研究薄膜太陽能,甚至研究天然氣的燃料電池,以便可以用在機架上。
即使是依靠其來供應一般的服務器機房,也還有很長的一段路要走,更何況是這種超大規(guī)模的云數據中心,只有兩三家云提供商可以整合在一起。當然,其并不是微軟唯一的數據中心。
微軟在全球范圍內運營著100多處數據中心,提供200種云服務,并為超過10億的客戶和超過2000萬家企業(yè)處理云工作負載。 我所提供的處理服務包括了從Xbox到Office 365和Azure在內的一切服務。 Bakken自豪的說。而他所面臨的客戶的要求則更高。 在微軟,唯一可以運行生產工作負載的地方便是我的其中一處數據中心。
本文作者Mary Branscombe是一位自由撰稿人,在過去的二十年里,他所撰寫的文章一直致力于覆蓋技術領域,而且他所撰寫的文章包括了從編程語言、Windows和Office的早期版本、以及消費類電子產品和家庭娛樂類電子產品。