日期:2016-04-19 點擊: 關鍵詞:兩招解決IT運維日志管理難題
長久以來,日志管理都是IT運維工程師不可回避的工作,它不但可以跟蹤IT基礎設施活動,更是回答故障是否發(fā)生、如何發(fā)生、何時發(fā)生、在何處發(fā)生的最佳答案。但不斷增加的網(wǎng)絡設備與網(wǎng)絡行為產(chǎn)生了令人難以控制的海量日志,告警信息更是成百上千,而僅憑人工進行管理,幾乎成了一件不可能完成的任務。
日志監(jiān)控也有“狼來了”
考慮到日志管理本身所具有的功效,收集日志數(shù)據(jù)及進行分析,通常被認為是IT運維最具常態(tài)的工作之一,更是防禍于未然的有效手段。但這種常態(tài)任務一旦超出工作負荷,不但在“量”上面無法完成,還很有可能在“質”上影響IT運維管理的有效性。
趙蒙,某市信息網(wǎng)絡中心的運維工程師,雖說頭頂著IT光環(huán),但他卻備受日志監(jiān)控的煎熬,過著“苦行僧”一般的生活。網(wǎng)絡中心不但要負責電子政務數(shù)十 個業(yè)務系統(tǒng)的運維保障,還兼管其他委辦局業(yè)務系統(tǒng)監(jiān)控的工作,不論白班或是夜班值守的同事,所有人都有一項工作必不可少,這就是“檢查日志、評估和處理告 警事件”。為了提高工作效率,在大家群策群力之下,許多針對操作系統(tǒng)或者是數(shù)據(jù)庫日志系統(tǒng)的自動處理腳本被一一開發(fā)出來。但這并沒有讓運維監(jiān)控壓力得到緩 解,網(wǎng)絡設備、服務器、網(wǎng)絡流量,甚至數(shù)據(jù)庫的警告信息,成千條日志信息堆積在一起更本沒法判斷問題的根源在哪里?在這種情形下,趙蒙漸漸疲態(tài)化,放棄了 努力,每次在巡檢表格上胡亂填上幾筆,草草了事。
針對IT運維管理人員這種常態(tài)化的工作方式,北塔軟件認為:“管理人員如果每天只能按部就班的面對每一臺服務器、網(wǎng)絡設備,逐個去檢查它們的狀況, 或者從幾千條日志中找到有價值的內容,確實需要耐心、細心和責任心。但由于工作量巨大,很多時候人們開始習慣“狼來了”的心態(tài)。此時,如果沒有對某條告警 日志背后的隱患徹底查驗,看似正常的業(yè)務系統(tǒng)則可能由此轟然倒塌。但是,借助北塔軟件智能化的運維平臺,則可以實現(xiàn)自動處理海量日志、主動挖掘故障線索, 不喊“狼來了”,即使“狼”真的來了也不懼怕。
“兩招”化解日志管理難題
日志用來記錄用戶操作、系統(tǒng)運行狀態(tài),是一個運維系統(tǒng)中重要的核心部分,它直接關系到系統(tǒng)出現(xiàn)問題時定位的速度。對日志的觀察和分析,能提前發(fā)現(xiàn)系 統(tǒng)可能的風險,避免線上事故的發(fā)生。為了幫助趙蒙早日摘掉“日志控”的帽子,北塔軟件運維管理專家傳授他“兩招”最實用的方法,這就是日志管理中的“廣 度、深度”。
第一招:用“廣度”拒絕漏網(wǎng)之魚
日志范圍夠不夠廣,是拒絕漏網(wǎng)之魚,走出成功的第一步。為此,趙蒙可以借助北塔BTIM IT綜合管理平臺,將網(wǎng)絡、安全、機房、桌面、服務器、數(shù)據(jù)庫、中間件、應用、業(yè)務等各個方面監(jiān)控起來,對所有設備的性能、各類數(shù)據(jù)流進行自動采集。隨 后,他可以使用批量告警設置功能,進而屏蔽差異項,在縮短告警規(guī)則設置時間的同時,從上百條告警規(guī)則中解脫出來,只維護十分之一的告警規(guī)則,大幅降低了告 警規(guī)則維護的復雜度。
第二招:用“深度”追擊故障根源
日志管理不能是孤立的,否則它在主動運維方式中就沒有任何意義。為此,北塔BTIM包含了強大的信息關聯(lián)展示、分析能力,管理人員可以在業(yè)務管理上 綜合不同領域的業(yè)務相關“關鍵參數(shù)”,判斷具體故障性質、位置,直接調用各個管理組件定位故障點。一旦發(fā)現(xiàn)危險事件,TFS管理系統(tǒng)將可以依據(jù)業(yè)務實際流 量路徑,按照分析需要,逐層擴大數(shù)據(jù)采集的深度和廣度,層層深入,直達故障根源。
事件監(jiān)控、日志分析,這些IT運維管理中的“自動化”,談起來容易,真正實現(xiàn)卻并不簡單。實際上,整個IT基礎架構,有很多不同的組成部分構成,有 很多不同的信息,而自動化也是IT運維管理逐步發(fā)展演進的過程。從趙蒙帶領大家編寫自動處理腳步,到對整個IT管理作業(yè)流的自動控制,這些技術上的改變都 是在追求著:實現(xiàn)智能化的運維,解放人力!
云爍服務,專業(yè)機房建設解決方案提供商!
來源:互聯(lián)網(wǎng)