解決數據中心容量危機的五條經驗 |
發布時間: 2012/9/9 23:35:35 |
2005年,位于太平洋西北的國家實驗室數據中心發生了一些問題。幾乎每個月都有臨時中斷的情況發生,每次都使數據中心宕機幾個小時。國家實驗室數據中心服務經理Ralph Wescott表示,企業購買越來越多的機架服務器來提高計算資源,現在機架服務器的價格已經很便宜了,在當時還是非常昂貴的。國家實驗中心是由美國能源部管理。在2005年的七月,服務器空間已經達到了它的容量限制。 “集團會買來一個服務器,然后放到我面前說'嘿,把這個裝上" Wescott 說,“ 但是我已經沒有任何空間、電能或制冷(容量)了。如果我再安裝多一個的話,整個空間就會變暗。” Wescott和PNNL在不損害預算的情況下,著手做了一個項目來修補他們的數據中心。三年來的每個季度,數據中心團隊會花一個周末關閉服務器,換掉一些老的服務器,用一些更高效的運行在天花板上的網絡線纜取代地板上錯綜復雜的網絡電纜。新配置可以更有效的在地板下制冷。 結果呢?PNNL把原來的500臺服務器運行的500個應用轉到了在150臺服務器上運行800個應用。 IDC分析公司金融執行策略技術總監Joseph Pucciarelli表示,在緊張的經濟情況下,解決這些信息技術項目要求緊控成本。 “這種情況是很常見的,”他說,“公司的投資都是預算好的。當問題出現時,他們看待問題也是以一種受迫的方式來對待。” 以下就是PNNL把數據中心從危險的邊緣拉回來的一些經驗總結。 1. 計劃。不要受第一個問題影響。Wescott表示需要解決的就是當數據中心每個小問題出現的時候,團隊都會受到影響的習慣,而不是看到體系的問題,就創建一個計劃來創建一個可持續服務。除了500臺服務器,數據中心有33000個線纜把服務器和電能、網絡和安全系統連接起來。 “我們決定數據中心的樣子和它的容量。”他說。 團隊最后總結,當前的軌跡會導致3000個應用,并且每個都在它自己的服務器上運行了10年。現在,數據中心有81%的虛擬應用——Wescott計劃達到90%。 IDC的Pucciarelli表示公司應集中在三個方面來提高容量。減少物理服務器和虛擬系統上運行的程序可以幫助減少功耗要求,就像這樣做可以使制冷系統更高效,同時也能改善電力分配一樣。他說:“在更新數據中心時,那是典型的你應該去做的事情。” Pucciarelli遇到了很多僅用兩個或三個更大容量系統取代高達50臺服務器的公司,這些公司使用虛擬化運行應用。 2.監控工具。PNNL公司的Wescott表示,數據中心經理需要一些方法來測量監控數據中心的狀態,但是所有的都太頻繁了,他們并沒有合適的工具來監控。在改變之前,太平洋西北國家實驗室沒有任何方法來測量數據中心的高效性。當房間變暗時,就會發現電力問題。或者憑經驗你也可以發現一些問題。 “如果電力供應導致電流太大了,我發現可能是斷路了。如果它是溫的,那么我知道我們有問題了”他說,“那就證明你需要工具了。” 現在,PNNL在低、中、高點的第四個柜子上都有傳感器,通過傳感器創建一個服務器空間的三維熱地圖。這些數據允許Wescott改變冷卻數據中心的方法,在需要的地方可以提高整體的溫度和制冷。 他說:“我認為那會給我節省很多錢,主要是空調的磨損什么的。”他還補充到,目前估計數據中心在冷卻方面的效率提高了40%。 3.循序漸進。Wescott表示在不影響操作的情況下從根本上重新配置數據中心是一個主要問題。管理者強調逐步采取措施減小故障的發生,但把決定留給了管理者。 “我給管理部門提供了兩個選擇” Wescott說,“一個是從頭做起,在整個校園花費七天時間;另一個是我們在每個周末斷一次線。” Wescott表示,通過采取小步驟,我們團隊準備一次一排替換數據中心。在第一個為期三天的周末,30個人的團隊在數據中心花了14個小時,換了一排機架服務器,并測試了新的配置。很快,數據中心變的更可靠,性能也更穩定。 他表示,如果管理部門不同意數據中心癱瘓,提醒他們有一個癱瘓計劃比突如其來的無計劃的故障要好。 Wescott說:“你不能在船航行在海上時,給船的底部刷油漆,但是如果你永遠都不刷,它就會下沉。” 4.為了長期效益投資。 為了減少冷卻系統的能源要求,Wescott集團評估了節水裝置,這個節水裝置是利用水和外面的溫度來冷卻機架服務器。他們估計使用環境冷卻系統從長遠看更節省資金,節水裝置的冷卻機組價格比預算也高出了10%。Wescott通過與供應商協商,把價格降到了預算內。 “他們已經付出了很高的代價了”他說。 5.總結能耗分布 在重建數據中心時,找出你不懂的,管理者也需要找出能源消耗的很少或沒有收獲的地方。數據中心的瑕疵是ghost和服務器。 Ghost服務器是已經被部署的,但仍未被使用的機器。他們仍然需要能量,它的核心工作不是幫助數據中心。一個閑置的服務器是某人放在辦公室、放在數據中心的外面的機器,位于任何數據中心人員限制外的。 Wescott表示這樣的服務器會浪費大量的能量預算。 “那些應該每晚關閉空調的建筑里面就一直讓他們的閑置服務器運行著”他說。 自從他開始修改基礎設施,數據中心只有一個單一的計劃外的停機——由于一個極熱的天和一個冷卻系統的失敗——Wescott知道他還沒有完成這項工作,推遲是不可避免的。 “我們已經計算好了”他說,“在今后的五年里,因為存儲我將會走出空間(room),并且我很可能會用完那個空間的空間。” 本文出自:億恩科技【www.laynepeng.cn】 |