數(shù)據中心管理的科學方法。
數(shù)據中心管理是不容易的:計算部署每天都在變化,數(shù)據中心氣流也是復雜的,而錯位的激勵會導致企業(yè)的支出不斷增長,此外,大多數(shù)企業(yè)數(shù)據中心的利用率和總擁有成本遠遠落后于基于云計算的節(jié)點。
數(shù)據中心管理低效的一個原因就是在企業(yè)數(shù)據中心在這三方面的注意力不集中,這三方面稱之為現(xiàn)代數(shù)據中心管理的三大支柱:跟蹤(測量和庫存控制),開發(fā)好的程序,對物理原理和工程限制的理解。
另一個原因是,數(shù)據中心高級管理人員往往不知道這些問題的范圍。例如,最近的一項研究表明,全球30%的服務器沒有提供有用的信息服務,卻仍舊在使用電力。其結果是全球各地的企業(yè)數(shù)據中心浪費了數(shù)百億美元的資金。自從服務器昏迷這個問題浮出水面以來,Uptime Institute機構就制定了服務器目標,但進展不大。
解決這些問題的一個方法就是采用科學方法進行數(shù)據中心管理。這意味著要創(chuàng)建一些假設和實驗,以測試它們,并相應地改變運營策略,在一個永無止境的循環(huán)中不斷改進。在數(shù)據中心這樣做并不是很容易,因為部署的設備是昂貴的,而進行實驗也是有風險的。
有沒有一種方法可以降低數(shù)據中心試驗的低風險,并且成本更低?當然有。通過數(shù)據中心的校準模型,測試不同的軟件部署在氣流、溫度、可靠性、用電量,以及數(shù)據中心容量的影響。事實上,使用這些模型是用來評估數(shù)據中心運營商關心的事情,也就是數(shù)據中心配置潛在變化影響的唯一準確的方法,因為該系統(tǒng)是如此復雜。
最近,紐約州立賓漢姆頓大學的科學家們在一個部署41個機架的數(shù)據中心創(chuàng)造了一個校準模型,用來準確地測試一個軟件的類型(6sigmaDC)可以預測數(shù)據中心設施的氣溫,并創(chuàng)造未來的實驗測試環(huán)境??茖W家們可以輕松地配置數(shù)據中心,而不必擔心中斷關鍵任務操作,因為其安裝僅用于測試。他們還可以運行不同的工作負載,看看那些可能會影響數(shù)據中心設施能源使用或可靠性。
大多數(shù)企業(yè)的數(shù)據中心沒有這樣的靈活性,但他們可以采用數(shù)據中心設施的一部分作為一個測試平臺,只要他們有足夠的規(guī)模。對大多數(shù)企業(yè)來說,這樣的直接試驗是不切實際的。幾乎所有人都可以做的事就是建立一個校準模型,在他們的設施中運行實驗的軟件。
賓厄姆頓大學的研究工作表明,對于數(shù)據中心實驗,采用軟件代碼更便宜,更方便,比部署物理硬件風險較小,并且也是比較準確的(只要該模型正確校準)。在最初的測試設置中,他們可靠地預測溫度與每個機架的異常值,這些結果可以進一步校準,并可以進一步何改善。他們能夠識別模型結果和測量結果之間的差異的物理原因,一旦確定,可以找到一個更好的、更準確的明確路徑的模型。
人們需要這種更多的測試實驗室,適用于數(shù)據中心管理,提高評估準確性,并改進最佳實踐所有的建模軟件,但高層次的教訓很清楚:企業(yè)數(shù)據中心應用軟件來提高他們的經營業(yè)績,賓厄姆頓大學的研究工作指明了方向。IT技術正在改變著經濟的其他部分,為什么不使用其來改造自身的IT?