避免IT運維敗筆不當事后諸葛亮 |
發布時間: 2012/5/20 17:18:38 |
隨著每一個企業信息化水平的不斷提升,業務系統對網絡的依賴日趨加深,而其中的運維管理問題,尤其是主動運維的難題日益突出,看似輕微的網絡故障很有可能威脅到整個公司的運作。對此,傳統的故障管理模式顯得力不從心,公司的IT部門如果只是從報修電話中體現價值,總是做事后諸葛亮是很危險的。這是因為IT部門的價值將會在"修"中逐漸被公司淡忘。那么,如何才能實現"變事后管理為事前管理"呢?
在IT中,救火隊員無法成為"英雄"
《Ladder49》,中文名為《云梯49》的電影是美國911事件催生的碩果,其中的內容不能不讓觀眾聯想到兩座世貿大廈倒塌時有多少紐約的救火隊員喪生其中。不論是手握水龍頭,還是之后的搜救任務,正如影片中隊長肯尼迪說的一樣:"我們的任務僅僅是被動的安全。"不論是電影中,還是我們在生活中形成的道德評判,救火隊員在我們的心中一直以英雄的位置所占據。但在IT運維的場景中,如果一名企業的網絡管理員被扣上"救火隊員"的帽子,那么這為網絡管理員或其部門可能就顯得不那么體面了。
作為國內領先的IT運維產品和服務提供商,北塔軟件在電力、政府、金融、電信等4000家用戶的IT運維系統部署中聆聽到了很多用戶的聲音。在這其中,許多之前未部署IT運維產品的"簡單網絡"常會出現勇猛的救火隊員。但隨著企業對于網絡了依賴程度越來越高,規模越來越大,一些企業的網絡部門反映救火隊員的日子并不好過:"當第一次接到報修電話的時候,用戶還是對我們非?蜌,而逐漸的,第2次,第3次之后,我們就能感覺到抱怨的情緒在電話中開始體現出來。而在公司的會議上,領導對IT部門也逐漸失去了信任感,因為業務部門總會以系統故障,或是網絡緩慢為由'起訴'我們。"經過分析,我們不難發現,造成IT部門如此尷尬的原因,還是因為主動運維的模式未能落實。當網絡運維管理已經上升到一個全面、綜合的階段,將不僅僅局限于對于網絡、設備的"修",因為單純的"修",對于效率第一的業務部門說仍然是受損的。用戶所需要的網絡是不出現問題,無故障、無延遲,因此即使在故障發生之后能做一個舌辯群儒的諸葛亮,在公司其他部門的眼中,IT部門此時所有的努力仍然屬于狡辯或是推脫責任的范疇。
變事后管理為事前管理的四個條件
核心業務和IT系統息息相關,一旦網絡出現了故障,影響和損失非常巨大。所以,傳統的管理模式只能導致"出現問題后被動響應",而這種解決問題的效率和質量相當于事后諸葛亮,雖然可以減少損失,但無法避免損失。因此,針對主動運維的落實,北塔軟件的技術部總經理魏玉雄先生認為:"IT運維應隨需應變,滿足企業現在和未來的成長。主動運維要落實,在運維中就要做到四個字,這就是'看、監、析、查'。"
看得見:無法知道IT系統中的每個關鍵應用承載設備在哪里,甚至不知道這些設備連接的應用在哪個端口上,此時的IT管理就等于盲人摸象。這會導致管理人員無法及時發現問題,更加無法迅速定位故障,各關鍵應用、業務系統、辦公系統、財務系統等的運行也無法得到保障。如果看不見,我們就無法對底層物理網絡的結構和瓶頸獲取信息,所以后面所有的步驟也就是成了空談?吹靡娛堑谝徊,比如,企業如果使用了北塔的BTNM,則可以利用多種算法,迅速搜索整個網絡內的所有節點,一旦這些多個廠商的設備被我們囊獲,那么就可以實現整個網絡的真實物理拓撲圖,實時反映出整個網絡的運行狀態。
監得到:只能看到設備是無用的,只有實現底層監控平臺,通過監控IT基礎設備發現故障并預警,才能讓運維人員脫離以往"救火隊員"的角色。用戶可以為在拓撲圖中為每條設備或連接加以注釋,為每臺設備設置中文名稱或是業務組編號。通過采集系統負載狀況和設備屬性,以及線路的實時流量,通過顏色顯示負載和流量的壓力,主動告訴用戶關注點應在哪里,動態告訴用戶可能的故障隱患。此時,IT部門就可以把這些對象控制起來,設置多級的預警閥值,將可能出現的故障在它們未爆發之前就形成主動關注。
析得清:在這個監控平臺上,下一步的操作就是按告警事件種類、告警事件源、密集告警時間段等分類生成報表。當然,這并非數據的堆砌,而是經過整理的統計和分析,有結果的分析管理。比如,我們可以通過之前記錄的故障排除步驟和與故障相關的值班員日志,構造排錯行動記錄,將"事件、故障、日志"三者構成邏輯上相互關聯的整體,以反映故障產生、變化、消除的整個過程的各個方面。
查得勤:此時,由于網絡管理員已經可以使用BTNM實時監視網內所有設備的各個端口、CPU、內存,既可以通過傳統的設置閾值的方式來判斷異常,也可以通過對歷史數據的智能分析,及時發現網絡設備的異常波動。因此,IT運維工作實際上已經進入到一個"習慣性"的操作場景中。一旦發現異常情況,我們就可以通過BTNM提供的多種手段和工具,通過事件和數據的關聯性及一致性,幫助用戶分析可能出現的故障。到達此階段之后,普通的監控人員完全可以根據自動的流程,使用系統自帶或配合第三方程序的聯動設置,實現故障前的處理操作。
經過廣泛的調查,我們發現在一些企業中,IT運維人員大多是多重身份,他可能既是管理者又是具體執行者,不可能24小時緊盯監控頁面,實時對所有運行監控參數進行分析。所以,他們需要的IT管理軟件如果能提供智能分析,幫信息管理人員及時預警故障隱患,才算是真正起到作用。因此,要實現主動運維的目標,實際上就是IT運維產品以足夠的廣度去采集充足的信息,而這些信息的加工、分析、控制也是缺一不可的。而北塔軟件正式以這樣一種廣度和深度,突破了基礎設施運維監控的瓶頸,真正滿足了企業用戶對主動運維的訴求。 本文出自:億恩科技【www.laynepeng.cn】 |