2015年8月6日晚上,騰訊QQ出現(xiàn)無法登錄的問題,影響到16款旗下產(chǎn)品出問題,直到晚上22:30才恢復(fù)正常。經(jīng)過騰訊的技術(shù)人員排查,確認(rèn)是QQ服務(wù)機(jī)房故障導(dǎo)致。在2014年11月7日騰訊的微信曾出現(xiàn)過大面積故障,還有在2014年10月20日,微信也出現(xiàn)過故障,2013年之前故障次數(shù)就更多了。
騰訊作為中國三大互聯(lián)網(wǎng)公司之一,是互聯(lián)網(wǎng)企業(yè)中的標(biāo)桿企業(yè),每年從名牌高校招聘大量的高技術(shù)人才,技術(shù)實(shí)力毋庸置疑,可為何還總是會出現(xiàn)這樣那樣的問題。騰訊尚且如此,那其他的互聯(lián)網(wǎng)企業(yè)就更不用提了。就拿2015年來說,才剛剛過去半年,大大小小的各種故障不下10例。對于一個互聯(lián)網(wǎng)企業(yè),提供優(yōu)質(zhì)的網(wǎng)絡(luò)體驗(yàn)是其生存的根本,所以這次騰訊QQ出現(xiàn)無法登錄后,有不少的QQ用戶申請百倍的賠償,當(dāng)然在當(dāng)前的網(wǎng)絡(luò)環(huán)境下,這種得到賠償?shù)母怕屎苄?,絕大多數(shù)的情況下只能是客戶自己買單。既然網(wǎng)絡(luò)故障帶來的負(fù)作用這么大,可為何依然還是故障不斷呢。我想沒有任何一個互聯(lián)網(wǎng)企業(yè)愿意出現(xiàn)這種故障,出了故障那說明其運(yùn)行的數(shù)據(jù)中心一定是沒有做好,存在一定問題,下來我們就來仔細(xì)分析數(shù)據(jù)中心運(yùn)行故障高發(fā)的成因,供廣大的數(shù)據(jù)中心從業(yè)人員學(xué)習(xí)、參考。
數(shù)據(jù)中心作為提供各種數(shù)據(jù)處理的場所,是非常重要的。尤其對于互聯(lián)網(wǎng)公司,所有的網(wǎng)絡(luò)業(yè)務(wù)都是通過訪問其數(shù)據(jù)中心提供的,數(shù)據(jù)中心的穩(wěn)定運(yùn)行是前提。亞馬遜的數(shù)據(jù)中心如果中斷1小時,都可以帶來上千萬美元的損失,還有淘寶,試想中斷一會兒就會損失數(shù)百萬的訂單,而現(xiàn)在互聯(lián)網(wǎng)競爭也很激烈,如果你的網(wǎng)站上買不了,對不起,客戶可不會等,就會到別的網(wǎng)站去買,甚至以后都不會再回來買,所以業(yè)務(wù)的中斷不僅是收入的損失,還會流失不少潛在的客戶,這對企業(yè)未來的發(fā)展是非常不利的,所以提供連續(xù)的優(yōu)質(zhì)的網(wǎng)絡(luò)服務(wù)對于一個互聯(lián)網(wǎng)企業(yè)至關(guān)重要。
互聯(lián)網(wǎng)企業(yè)當(dāng)然清楚這個,所以每年在數(shù)據(jù)中心上的投入也是非常大的,除了人才的投入,就是數(shù)據(jù)中心的建設(shè)投入占企業(yè)的大頭,但是到頭來還是會出現(xiàn)這樣那樣的故障,為什么呢?
首先,數(shù)據(jù)中心的業(yè)務(wù)增長太快,全球數(shù)據(jù)量每兩年就會翻一倍,就拿騰訊來說,每年都保持著超過40%的銷售額增長率,客戶數(shù)增長很快,而這些客戶都要訪問數(shù)據(jù)中心,就給數(shù)據(jù)中心帶來沉重的負(fù)擔(dān),數(shù)據(jù)中心就需要不斷進(jìn)行擴(kuò)容或者新建,很多數(shù)據(jù)中心機(jī)房建設(shè)都是倉促上馬,這樣隱藏著不少的安全隱患,即使是像騰訊這樣的大企業(yè)也再所難免,高速擴(kuò)張的結(jié)果就是系統(tǒng)架構(gòu)總是要變,總有不合理的地方,但是根本沒有時間和機(jī)會去整改,隨著業(yè)務(wù)量的增長,危機(jī)四伏。
其次,數(shù)據(jù)中心是一個對新技術(shù)渴求強(qiáng)烈的地方,哪個數(shù)據(jù)中心都希望可以引入一些先進(jìn)的技術(shù)和設(shè)備,從而更好地為業(yè)務(wù)服務(wù),同時在與其他數(shù)據(jù)中心競爭時不落后。要知道同樣都花1000萬來優(yōu)化數(shù)據(jù)中心,誰用的技術(shù)牛,誰設(shè)計的架構(gòu)先進(jìn),往往就可以抓住客戶,還能為數(shù)據(jù)中心節(jié)省投資,不過引入新技術(shù),往往給數(shù)據(jù)中心帶來了運(yùn)行風(fēng)險。新的技術(shù),雖然可以解決一些老系統(tǒng)固有問題,為業(yè)務(wù)提供有效支撐,但是畢竟是新技術(shù),還有很多不夠完善的地方,運(yùn)行起來就容易出問題。我們很少聽到銀行系統(tǒng)中斷,銀行系統(tǒng)里大量的數(shù)據(jù)中心使用的還是最基本的技術(shù),有些現(xiàn)在看起來甚至過于陳舊,但是運(yùn)行穩(wěn)定,所以銀行整體的數(shù)據(jù)中心運(yùn)行穩(wěn)定性就比較好。
再次,數(shù)據(jù)中心備份系統(tǒng)設(shè)計存在問題,為了保證業(yè)務(wù)的長期穩(wěn)定運(yùn)行,數(shù)據(jù)中心都會設(shè)計各種備份技術(shù),從軟件、服務(wù)器、網(wǎng)絡(luò)、防火墻、物理鏈路等等都有備份,當(dāng)出現(xiàn)故障時,業(yè)務(wù)自動或者手工切換到備份系統(tǒng)上來,讓業(yè)務(wù)上無感知。但是備份系統(tǒng)是要耗費(fèi)大量資金來建設(shè)的,有時引入過多備份系統(tǒng),也會將數(shù)據(jù)中心設(shè)計得過于復(fù)雜,實(shí)際維護(hù)起來非常麻煩,一旦出現(xiàn)問題反而不知道問題出在哪里,可恢復(fù)的時間要更長,這樣的備份系統(tǒng)就得不償失了。有了備份系統(tǒng),還要平時進(jìn)行業(yè)務(wù)演練,確認(rèn)備份系統(tǒng)是好的,以免以后真的出問題,備份系統(tǒng)起不了作用。
最后,數(shù)據(jù)中心里70%的故障都是人為故障,很多時候是維護(hù)人員的誤操作導(dǎo)致的問題,這樣即使有再完美的備份系統(tǒng),再好的技術(shù),也還是會出故障。所以要加強(qiáng)對數(shù)據(jù)中心運(yùn)維人員的管理,這樣才能降低數(shù)據(jù)中心出現(xiàn)故障的風(fēng)險。
由此可見,數(shù)據(jù)中心要保證常年業(yè)務(wù)不出任何中斷,做到了的話,那是非常了不起的事情。實(shí)際上,絕大部分的數(shù)據(jù)中心都無法做到,只能是盡可能地降低這種故障風(fēng)險,技術(shù)再強(qiáng)的數(shù)據(jù)中心也無法確保其運(yùn)行不出任何問題。連飛機(jī)這樣安全性這么高的設(shè)備,每年還都會發(fā)生墜機(jī)事故,更何況是數(shù)據(jù)中心呢?所以我們要對數(shù)據(jù)中心出現(xiàn)的故障保持一顆容忍的心態(tài),當(dāng)然這決不是對故障的放縱,忍無可忍時,就無須再忍。頻繁地出現(xiàn)各種業(yè)務(wù)中斷故障,數(shù)據(jù)中心將最終為自己買單,最終損失大的就是數(shù)據(jù)中心自己。騰訊QQ這次出現(xiàn)故障,決不會是數(shù)據(jù)中心故障的最后一次,以后還會有。但是每出現(xiàn)一次故障,就應(yīng)該吸取教訓(xùn),至少相同的故障不應(yīng)該重復(fù)出現(xiàn),這對于任何的互聯(lián)網(wǎng)企業(yè),任何的數(shù)據(jù)中心都一樣,總結(jié)經(jīng)驗(yàn)教訓(xùn),在技術(shù)能力范圍內(nèi),降低數(shù)據(jù)中心運(yùn)行故障的風(fēng)險。