數(shù)據(jù)中心管理的科學(xué)方法。
數(shù)據(jù)中心管理是不容易的:計算部署每天都在變化,數(shù)據(jù)中心氣流也是復(fù)雜的,而錯位的激勵會導(dǎo)致企業(yè)的支出不斷增長,此外,大多數(shù)企業(yè)數(shù)據(jù)中心的利用率和總擁有成本遠(yuǎn)遠(yuǎn)落后于基于云計算的節(jié)點。
數(shù)據(jù)中心管理低效的一個原因就是在企業(yè)數(shù)據(jù)中心在這三方面的注意力不集中,這三方面稱之為現(xiàn)代數(shù)據(jù)中心管理的三大支柱:跟蹤(測量和庫存控制),開發(fā)好的程序,對物理原理和工程限制的理解。
另一個原因是,數(shù)據(jù)中心高級管理人員往往不知道這些問題的范圍。例如,最近的一項研究表明,全球30%的服務(wù)器沒有提供有用的信息服務(wù),卻仍舊在使用電力。其結(jié)果是全球各地的企業(yè)數(shù)據(jù)中心浪費了數(shù)百億美元的資金。自從服務(wù)器昏迷這個問題浮出水面以來,Uptime Institute機(jī)構(gòu)就制定了服務(wù)器目標(biāo),但進(jìn)展不大。
解決這些問題的一個方法就是采用科學(xué)方法進(jìn)行數(shù)據(jù)中心管理。這意味著要創(chuàng)建一些假設(shè)和實驗,以測試它們,并相應(yīng)地改變運營策略,在一個永無止境的循環(huán)中不斷改進(jìn)。在數(shù)據(jù)中心這樣做并不是很容易,因為部署的設(shè)備是昂貴的,而進(jìn)行實驗也是有風(fēng)險的。
有沒有一種方法可以降低數(shù)據(jù)中心試驗的低風(fēng)險,并且成本更低?當(dāng)然有。通過數(shù)據(jù)中心的校準(zhǔn)模型,測試不同的軟件部署在氣流、溫度、可靠性、用電量,以及數(shù)據(jù)中心容量的影響。事實上,使用這些模型是用來評估數(shù)據(jù)中心運營商關(guān)心的事情,也就是數(shù)據(jù)中心配置潛在變化影響的唯一準(zhǔn)確的方法,因為該系統(tǒng)是如此復(fù)雜。
最近,紐約州立賓漢姆頓大學(xué)的科學(xué)家們在一個部署41個機(jī)架的數(shù)據(jù)中心創(chuàng)造了一個校準(zhǔn)模型,用來準(zhǔn)確地測試一個軟件的類型(6sigmaDC)可以預(yù)測數(shù)據(jù)中心設(shè)施的氣溫,并創(chuàng)造未來的實驗測試環(huán)境??茖W(xué)家們可以輕松地配置數(shù)據(jù)中心,而不必?fù)?dān)心中斷關(guān)鍵任務(wù)操作,因為其安裝僅用于測試。他們還可以運行不同的工作負(fù)載,看看那些可能會影響數(shù)據(jù)中心設(shè)施能源使用或可靠性。
大多數(shù)企業(yè)的數(shù)據(jù)中心沒有這樣的靈活性,但他們可以采用數(shù)據(jù)中心設(shè)施的一部分作為一個測試平臺,只要他們有足夠的規(guī)模。對大多數(shù)企業(yè)來說,這樣的直接試驗是不切實際的。幾乎所有人都可以做的事就是建立一個校準(zhǔn)模型,在他們的設(shè)施中運行實驗的軟件。
賓厄姆頓大學(xué)的研究工作表明,對于數(shù)據(jù)中心實驗,采用軟件代碼更便宜,更方便,比部署物理硬件風(fēng)險較小,并且也是比較準(zhǔn)確的(只要該模型正確校準(zhǔn))。在最初的測試設(shè)置中,他們可靠地預(yù)測溫度與每個機(jī)架的異常值,這些結(jié)果可以進(jìn)一步校準(zhǔn),并可以進(jìn)一步何改善。他們能夠識別模型結(jié)果和測量結(jié)果之間的差異的物理原因,一旦確定,可以找到一個更好的、更準(zhǔn)確的明確路徑的模型。
人們需要這種更多的測試實驗室,適用于數(shù)據(jù)中心管理,提高評估準(zhǔn)確性,并改進(jìn)最佳實踐所有的建模軟件,但高層次的教訓(xùn)很清楚:企業(yè)數(shù)據(jù)中心應(yīng)用軟件來提高他們的經(jīng)營業(yè)績,賓厄姆頓大學(xué)的研究工作指明了方向。IT技術(shù)正在改變著經(jīng)濟(jì)的其他部分,為什么不使用其來改造自身的IT?