日期:2016-01-04 點(diǎn)擊: 關(guān)鍵詞:IT運(yùn)維工程師如何規(guī)避可能發(fā)生的故障?
虛擬化、容器、NoSQL、Hadoop、Spark......層出不窮,令人眼花繚亂,云計(jì)算、大數(shù)據(jù)、移動(dòng)通信等互聯(lián)網(wǎng)新技術(shù)不斷演進(jìn),系統(tǒng)IT運(yùn)維服務(wù)的技術(shù)含量越來越大,對(duì)系統(tǒng)IT運(yùn)維服務(wù)人員的綜合素質(zhì)及能力要求也越來越高,系統(tǒng)IT運(yùn)維也不再是部署系統(tǒng)、寫管理腳本那么簡(jiǎn)單了。
而且,隨著業(yè)務(wù)應(yīng)用越來越復(fù)雜,設(shè)備數(shù)量越來越多,管理難度越來越高,IT運(yùn)維服務(wù)人員必須高屋建瓴,全面謀劃,有能力提供一個(gè)全局性、高效健壯、標(biāo)準(zhǔn)規(guī)范、自動(dòng)化的解決方案并加以實(shí)現(xiàn)。51CTO記者就系統(tǒng)運(yùn)維的職業(yè)技能要求、工作中會(huì)遇到哪些難點(diǎn)和解決方案,以及IT運(yùn)維人員的職業(yè)發(fā)展等問題,請(qǐng)教了韓曉光老師。如下內(nèi)容是采訪實(shí)錄,希望大家能夠有所收益。
韓曉光,專業(yè)IT運(yùn)維、兼職開發(fā)、干過商務(wù),從事系統(tǒng)運(yùn)維工作近10年。現(xiàn)就職于新華網(wǎng)(http://www.xinhuanet.com/),帶領(lǐng)IT運(yùn)維開發(fā)團(tuán)隊(duì),承擔(dān)社交互動(dòng)媒體幾十套業(yè)務(wù)系統(tǒng)、技術(shù)平臺(tái)運(yùn)維。
曾就職于中航信旗下航空結(jié)算公司,承擔(dān)國(guó)內(nèi)外幾十家民航業(yè)務(wù)系統(tǒng)運(yùn)維。
具有“信息系統(tǒng)項(xiàng)目管理師”、“IBM CATE”、“ITIL Foundation”、“RHCE”專業(yè)資格認(rèn)證。
一、您是怎樣入行的呢?剛?cè)胄袝r(shí),遇到了哪些令人苦惱的問題?
記得90年代末,中國(guó)互聯(lián)網(wǎng)迎來了春天,搭上了世界IT行業(yè)的末班車。那個(gè)時(shí)候,電視、冰箱、洗衣機(jī)還是奢侈三大件。我們小伙伴們還在搖桿式游戲廳度過,至于電腦是什么鬼,我們都很少接觸到。后來,有一次混進(jìn)電腦室,面對(duì)窗明幾凈,齊刷刷的電腦,我小有震撼,但體驗(yàn)并不好,就是學(xué)敲五筆。記得電腦里還有超級(jí)瑪麗,但我很疑惑:這么神秘的電腦房怎么還不如街頭游戲廳好玩呢:)。
再往后,我懷著一種憧憬選擇了計(jì)算機(jī)專業(yè)。那個(gè)時(shí)候,IT互聯(lián)網(wǎng)剛剛經(jīng)歷了2000年前后的陣痛。起初有了OICQ,新浪,Yahoo,郵箱,再后來有了Google,有了百度,再后來有了博客、校內(nèi)、開心。再后來,我畢業(yè)了,陣痛和迷茫了,我要干什么呢?
我曾經(jīng)整過ERP ,做過Symbian,干過監(jiān)理,弄過項(xiàng)目,也講過課,可是都沒找到感覺。后來我進(jìn)入航空結(jié)算中心,開始接觸到IT運(yùn)維工作,當(dāng)初次進(jìn)入企業(yè)級(jí)機(jī)房時(shí),我被各種大型機(jī),小型機(jī),X86,以及機(jī)房(的轟鳴聲)又一次震撼了。
原來IT幕后是這樣的啊!我心里想,這貌似挺好玩的。從此,便走上了運(yùn)維的“不歸路”,直至現(xiàn)在還“無法自拔”。可能人生就是這樣,在各種機(jī)緣巧合下,冥冥之中,你驀然回首,發(fā)現(xiàn)自己竟然在這個(gè)人生道路上已走了那么遠(yuǎn)…….
在享受職業(yè)工作帶來享受的同時(shí),也會(huì)經(jīng)歷各種陣痛。
記得我的同事師傅喊我去機(jī)房進(jìn)行設(shè)備上架布線。他帶個(gè)手套,我很疑惑,他笑了笑,再然后,我的手被機(jī)架導(dǎo)軌劃破流血了,他說他也是這么經(jīng)歷過的。術(shù)業(yè)有專攻,原來上架布線還有這么多學(xué)問,一個(gè)好的機(jī)房建設(shè),其風(fēng)火水電,人、事、物流程其中也都大有學(xué)問。
剛接觸運(yùn)維工作時(shí),會(huì)突然冒出很多新鮮東西,有軟件也有硬件的,有文檔性也有技術(shù)性工作……這其中,有喜歡也有不喜歡的,有熟悉也有不熟悉的,但最終都是要面對(duì)的。
對(duì)于從新手到經(jīng)驗(yàn)者的轉(zhuǎn)變過程,往往會(huì)有一個(gè)煎熬的過程,熬得住就算入行了,熬不住則就仍然在徘徊、浮游中度過。
IT運(yùn)維服務(wù)工作需要很多技能知識(shí),有點(diǎn)像雜耍藝人的感覺,因此要有耐心,要虛心,多交流,一定要多實(shí)踐,不要認(rèn)為書本上學(xué)到的就靠譜。
對(duì)于IT運(yùn)維服務(wù)工作,不論新手還是老手,都可能經(jīng)常遇到一系列痛處。比如以下幾個(gè)場(chǎng)景。
干IT運(yùn)維服務(wù)工作需要有責(zé)任心,勇于擔(dān)當(dāng),巧干實(shí)干,但不能無腦地干,否則后果可能很嚴(yán)重,或許一個(gè)命令下去,全系統(tǒng)over,這樣案例在IT圈里還是很多的,后果是不堪設(shè)想的。
二、在您近十年的工作經(jīng)驗(yàn)里,有哪些讓您印象深刻的故障發(fā)生?您是如何解決的?
作為運(yùn)維工作者,故障往往是必經(jīng)之路。從到處救火的消防員到洞若觀火的觀察員職業(yè)發(fā)展道路上不斷磨練。這也是鳳凰涅槃,浴火重生,走向運(yùn)維大神的必修課。
在我這些年的運(yùn)維工作中,可謂故障叢生,五花八門,有合同流程問題,也有SLA服務(wù)問題,當(dāng)然更多的是具體運(yùn)維故障。作為職業(yè)IT消防員,我們?cè)诿鎸?duì)故障問題時(shí),請(qǐng)盡量保持冷靜頭腦,有條不絮處理問題,不可輕舉妄動(dòng),避免導(dǎo)致次生故障。但同時(shí)也不能瞻前顧后太多,什么都不去嘗試,導(dǎo)致故障持續(xù)時(shí)間大大延長(zhǎng)。處理運(yùn)維故障,膽大心細(xì)是關(guān)鍵。
下面說幾個(gè)我具體經(jīng)歷的故障。
故障一:小型機(jī)AIX系統(tǒng)報(bào)ADAPT[注]ER ERROR
這種故障是比較危險(xiǎn)的也比較難處理,原因在于導(dǎo)致該故障的原因較多,故障后果很嚴(yán)重。很多故障原因都可能導(dǎo)致該錯(cuò)誤信息,比如網(wǎng)卡故障、HBA故障、存儲(chǔ)故障、光纖線故障、交換機(jī)故障等等都可能導(dǎo)致該報(bào)錯(cuò)信息,難以快速定位故障點(diǎn)在哪里。該故障導(dǎo)致的后果很嚴(yán)重,不是斷網(wǎng)就是斷數(shù)據(jù)…..后果可想而知……
對(duì)于故障處理要有流程規(guī)范,不能沒有章法。對(duì)上述故障,通常我的解決思路:
1.首先考慮該故障影響等級(jí)、范圍、都關(guān)聯(lián)什么業(yè)務(wù),人員。是否需要上報(bào)或者請(qǐng)求支持。
2.查系統(tǒng)日志,尋找故障時(shí)間前后什么人登陸了,做了什么動(dòng)作,發(fā)生了什么事情。
3.這里經(jīng)查是HBA故障,那就繼續(xù)查看其關(guān)聯(lián)的SAN交換機(jī)端口是否狀態(tài)正常。
4.這里經(jīng)查SAN交換機(jī)端口不亮。那就繼續(xù)查看是光纖線是否正常(有無光亮)。
5.最后定位在SFP光纖模塊故障。更換后,設(shè)備、線路、系統(tǒng)恢復(fù)正常。
6.處理業(yè)務(wù)邏輯問題。然后請(qǐng)業(yè)務(wù)人員驗(yàn)證。
故障二:CentOS系統(tǒng)中GlusterFS副本無法同步
對(duì)于有些故障,其對(duì)技術(shù)的準(zhǔn)確理解是解決技術(shù)難題的重要技能。既有的經(jīng)驗(yàn)和網(wǎng)絡(luò)上同行類似經(jīng)驗(yàn)都是很好的解決思路。
對(duì)于上述問題,既然無法同步,那么權(quán)限是否有問題呢?很快我們發(fā)現(xiàn)其mount的NFS無法讀寫,但df顯示還有很多剩余空間。隨后,我們又發(fā)現(xiàn)原來是inode用盡了。既然問題找到,那么就隨之解決inode數(shù)量問題。最后,同步glustefs,解決了問題。
故障三:小型機(jī)CPU故障
有時(shí)候設(shè)備硬件會(huì)異常故障,對(duì)此意外,往往出現(xiàn)在不恰當(dāng)?shù)臅r(shí)間、地點(diǎn)。我曾經(jīng)遇到過小型機(jī)CPU故障,直接導(dǎo)致宕機(jī),后果當(dāng)然很嚴(yán)重。我們不得不備份恢復(fù)業(yè)務(wù),遷移系統(tǒng)。
廠商配合我們解決問題,后來定位到CPU故障。其中有一個(gè)奇葩的現(xiàn)象和理由:同型號(hào)的產(chǎn)品對(duì)比國(guó)外,放到國(guó)內(nèi)運(yùn)行幾年就很容易出問題,故障的設(shè)備往往都灰塵堆積,特別的臟。
對(duì)上述故障,我們的反思總結(jié):什么樣的故障都可能發(fā)生,不是別人都沒有發(fā)生過你就不能發(fā)生,因此做好應(yīng)急備份,做好系統(tǒng)架構(gòu)才是關(guān)鍵。后來我們的災(zāi)備體系,HA集群都逐漸加強(qiáng)與完善。
三、在日常工作中,IT運(yùn)維工程師如何規(guī)避可能發(fā)生的故障?
故障總會(huì)發(fā)生,沒有一個(gè)IT企業(yè)的運(yùn)維會(huì)高枕無憂。但我們可以做到防微杜漸,大事化小,小事化了。在日常工作中,做好事前預(yù)測(cè)防范,事中解決應(yīng)急,事后分析總結(jié)。
要想提高運(yùn)維水平,盡量規(guī)避風(fēng)險(xiǎn)故障,從根本上需要建立一個(gè)好的運(yùn)維體系。運(yùn)維體系是運(yùn)維的基礎(chǔ)和核心。通過運(yùn)維體系的構(gòu)建及完善,使我們的運(yùn)維做到穩(wěn)定可靠(+微信關(guān)注網(wǎng)絡(luò)世界),準(zhǔn)確完備,規(guī)范科學(xué)。
從某種角度來看,系統(tǒng)運(yùn)維體系可以用一個(gè)四面體來描述,包括四大方面:人、事、物、流程標(biāo)準(zhǔn)。
從人、事、物、流程這四個(gè)方面便可以很好地將運(yùn)維體系進(jìn)行解構(gòu),它們彼此互相作用,共同構(gòu)建了一個(gè)完整實(shí)用的運(yùn)維體系。
如果上述任何一個(gè)維度失衡,那么整個(gè)運(yùn)維體系就是短板,水桶效應(yīng)。例如隨著業(yè)務(wù)的發(fā)展,IT運(yùn)維環(huán)境也要隨之發(fā)展。需要做的事情多了,可以花錢招兵買馬,購(gòu)買新的軟硬件設(shè)備。但流程標(biāo)準(zhǔn)是否能配套跟得上IT發(fā)展呢?如果流程標(biāo)準(zhǔn)跟不上,那么可能做起事情就會(huì)一團(tuán)糟糕,遍地是坑,舉步維艱。人力技能層次搭配不合理,職責(zé)混亂不清,資產(chǎn)設(shè)備管理混亂,不符合業(yè)務(wù)需要,此時(shí)可能就算招再多的人,購(gòu)買再多的設(shè)備,只會(huì)使運(yùn)維工作更加糟糕。
生產(chǎn)物件需要有模型,建設(shè)樓房需要有框架,干運(yùn)維工作同樣需要構(gòu)建體系。一個(gè)良好的框架體系是運(yùn)維安全的最大保障。
綜上所述,這里列舉一些具體的措施,以期盡量規(guī)避和減輕故障影響。
1.排查安全隱患并進(jìn)行整改。
2.故障分析的PDCA流程,查缺補(bǔ)漏。
3.按規(guī)章流程辦事。
4.建立應(yīng)急預(yù)案體系。
5.定期不定期(桌面、實(shí)際)演練。
四、請(qǐng)您談下對(duì)IT運(yùn)維發(fā)展趨勢(shì)的看法。
未來的發(fā)展總會(huì)有很多大家意料之外的事情,否則就不是未來的發(fā)展了。正如我們二十年前很難想到當(dāng)今的移動(dòng)互聯(lián)網(wǎng)時(shí)代。
但我覺得基于當(dāng)前去暢想一下未來是很有意義的,因?yàn)榻裉斓慕Y(jié)果就是昨天的努力探索結(jié)果,而明天的結(jié)果也將是今天努力探索的結(jié)果。
1.云計(jì)算迅猛發(fā)展,混合云[注]廣泛應(yīng)用。正如我有私家車,但我也會(huì)使用公共交通工具;我有自己的房子住所,但我也會(huì)去住酒店賓館。出于不同的業(yè)務(wù)發(fā)展需要,私有云[注]、公有云[注]、混合云的發(fā)展都將各有其應(yīng)用場(chǎng)景。
2.由于互聯(lián)網(wǎng)+,物聯(lián)網(wǎng),大數(shù)據(jù)、云計(jì)算等各種理念技術(shù)的發(fā)展,這些都將對(duì)運(yùn)維工作帶來巨大的機(jī)遇與挑戰(zhàn)。很多企業(yè)都處在傳統(tǒng)IDC運(yùn)維方式與云運(yùn)維方式探索中??v向行業(yè)大數(shù)據(jù)的海量運(yùn)維服務(wù)正在廣泛興起。
3.傳統(tǒng)IT運(yùn)維與互聯(lián)網(wǎng)IT運(yùn)維仍將長(zhǎng)期并存?;贗OE架構(gòu)的業(yè)務(wù)系統(tǒng)正在處于轉(zhuǎn)型中,但基于開源互聯(lián)網(wǎng)技術(shù)的成功經(jīng)驗(yàn)也并非都能復(fù)制。
4.運(yùn)維開發(fā)是一種趨勢(shì),是一種最佳實(shí)踐。對(duì)于廣大運(yùn)維工作者是技術(shù)轉(zhuǎn)型的一種好的思路。
5.運(yùn)維部門由成本中心向利潤(rùn)中心的轉(zhuǎn)變,運(yùn)維工作由基建、救火角色向戰(zhàn)略服務(wù)的轉(zhuǎn)變。
五、您認(rèn)為運(yùn)維工程師,日常需要經(jīng)常充電嗎?請(qǐng)您推薦些比較優(yōu)秀的學(xué)習(xí)途徑?
時(shí)代在不斷發(fā)展,IT產(chǎn)業(yè)日新月異,今天的經(jīng)驗(yàn)知識(shí)未必還適用于明天,因此我們需要持續(xù)充電學(xué)習(xí)。
以前可以做個(gè)百年老店,現(xiàn)在能撐住二三十年的就是模范,可見時(shí)代變換之快。如今各種線上線下學(xué)習(xí)、培訓(xùn)、交流日趨頻繁,你有沒有感覺到今年的各種交流會(huì)特別多呢?
每個(gè)人都有各自的學(xué)習(xí)方式。說說我的一些體會(huì),僅作參考。
1.首先是自學(xué)成才,一切問題的解決首先要靠自己。
2.有目的、有輕重緩急地去研究學(xué)習(xí)新技術(shù)。
3.樂于互相分享知識(shí)經(jīng)驗(yàn),互相幫助協(xié)作。
4.學(xué)習(xí)、研究外界同行/大師的經(jīng)驗(yàn)。
六、您新出了一本運(yùn)維實(shí)戰(zhàn)指南書籍《系統(tǒng)運(yùn)維全面解析:技術(shù)、管理與實(shí)踐》,從三個(gè)方面進(jìn)行了介紹,其中您提到不僅僅是運(yùn)維知識(shí)的敘述總結(jié),同時(shí)更是對(duì)運(yùn)維體系,運(yùn)維之道探索的過程。那么,您認(rèn)為的運(yùn)維之道什么呢?
首先,說說本書《系統(tǒng)運(yùn)維全面解析:技術(shù)、管理與實(shí)踐》,曾參與本書創(chuàng)作及運(yùn)維開發(fā)的同事有:呂四海、彭燃、史影、童寧、高浩天、任勇斌、王天維。本書目前獲得了很多讀者的好評(píng),算是達(dá)到了本書的初衷:希望帶給大家的是思路和視野。給大家?guī)硪皇饬?,縱然不能照明所有模糊不清的地方,至少讓大家看到一個(gè)路子,找到一個(gè)方向,減少大家摸索成長(zhǎng)中的迷惑與歧路。
所謂大道自然,IT運(yùn)維服務(wù)工作理應(yīng)立足實(shí)際,放眼未來。每個(gè)行業(yè)、每個(gè)企業(yè),每個(gè)人獨(dú)特之處,彼此的成功有可復(fù)制之處,也有不可復(fù)制之處。真正的大神是磨練出來的,紙上得來終覺淺,只有不斷認(rèn)知與實(shí)踐,做到知行合一,方為至善,至IT運(yùn)維之大道。
大方無隅,大象無形,IT運(yùn)維的大境界應(yīng)該是大家都想不起來IT運(yùn)維。唯有走出自己的IT運(yùn)維大道,方能撥開云霧,放眼四海,剖解問題猶如隨風(fēng)入夜、潤(rùn)物無聲,IT運(yùn)維決策于千里之外。
行文不易,最后感謝馬艷鋒(中國(guó)航空結(jié)算公司資深工程師,存儲(chǔ)團(tuán)隊(duì)負(fù)責(zé)人)對(duì)本訪談提出的寶貴的建議與支持。
來源:互聯(lián)網(wǎng)