無論企業(yè)對于突發(fā)事件的準(zhǔn)備有多么全面,也不可能會有一套災(zāi)難恢復(fù)計劃是能夠完美的應(yīng)付各種不測的。正如分析機構(gòu)Gartner所指出的那樣:“想要完全避免所有一切的災(zāi)難風(fēng)險的威脅是不可能的。”
但是,如果企業(yè)有一套明確的行動計劃的話,那么某些停機中斷事故其實是可以避免的,或者至少可以說,可以盡量減輕其所帶來的影響。在Computer Weekly網(wǎng)站最新一次的CW500俱樂部活動上,與會的IT領(lǐng)導(dǎo)人們共同交流了關(guān)于他們及其同行在處理和應(yīng)對災(zāi)害事件時的真實經(jīng)歷。
“我們?yōu)榭蛻籼峁┝耸澄锊忘c的鏈接,但如果人們不能下訂單的話,對我們來說無疑是一大災(zāi)難。”在線外賣服務(wù)供應(yīng)商Just Eat公司的技術(shù)經(jīng)理Amarpal Attwal表示說。
“我所經(jīng)歷的第一次災(zāi)難事件是:由于丹麥的一處數(shù)據(jù)中心的服務(wù)器出現(xiàn)超載,導(dǎo)致我們所有網(wǎng)站的出現(xiàn)癱瘓。”他說。這個問題是源于容量規(guī)劃所造成的。Attwal承認,該公司在其數(shù)據(jù)中心業(yè)務(wù)運營方面,還沒有足夠的靈活敏捷性。
對于Just Eat公司而言,另一種形式的災(zāi)難是:企業(yè)工作人員無法連接到內(nèi)部工具。他所經(jīng)歷的第二次災(zāi)難事件是發(fā)生在該公司英國總部的一次電力故障,此次故障的影響更大。“英國總部是所有其他國家辦事處的樞紐。”他補充說。彼時,該公司沒有準(zhǔn)備應(yīng)對災(zāi)害的計劃。
Attwal說,該公司不得不仔細排查其基礎(chǔ)設(shè)施,并在企業(yè)業(yè)務(wù)層面創(chuàng)建了一套關(guān)于如何針對災(zāi)難場景及其成本影響進行應(yīng)對的框架概述。他說:“我們需要從一個災(zāi)難恢復(fù)的視角來了解什么對我們來說是最為重要的,最終,我們建立起了一套涉及企業(yè)整個系統(tǒng)的架構(gòu)。”
其所帶來的結(jié)果是,雖然該公司仍然在丹麥運營其數(shù)據(jù)中心,但Just Eat公司現(xiàn)在實施了cloud native。Atwall說:“我們已經(jīng)把一切工作負載均遷移到了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS),不僅僅是我們的電子商務(wù)平臺,同時也包括我們的企業(yè)基礎(chǔ)設(shè)施。”
正是由于在亞馬遜網(wǎng)絡(luò)服務(wù)上部署了公司的網(wǎng)站和業(yè)務(wù)系統(tǒng),Just Eat現(xiàn)在已經(jīng)從企業(yè)的辦公室中移除了物理服務(wù)器。其結(jié)果是各個的辦事處都連接到同一個核心。“我們也是SaaS (軟件即服務(wù))的忠實粉絲——我們要保護我們的數(shù)據(jù),并盡量減少故障運行失敗。”Attwal補充道。
Just Eat采用了一個預(yù)期失敗的政策,并以該方式架構(gòu)其云系統(tǒng)。IT團隊使用了一款開源的工具稱為Chaos Monkey,該工具最初是由Netflix開發(fā)的,目的旨在能夠在AWS系統(tǒng)組件中故意造成故障以測試反應(yīng),并學(xué)習(xí)如何防止他們擾亂整個操作。
在處理數(shù)據(jù)中心災(zāi)難的最佳實踐方面,Attwal說:“實踐就是一切。我們在我們的備災(zāi)方案中引入了這一概念,例如,所有人都無法登錄的話。我們該怎么辦?于是,我們選擇了處理場景模擬的理論,然后付諸實際的運行。”這樣的模擬情況應(yīng)定期運行,而不是一年一次。
考慮人的因素
Attwal說,企業(yè)往往忽視了災(zāi)難恢復(fù)(DR)規(guī)劃:“我們對于發(fā)生某些相關(guān)場景的應(yīng)對規(guī)劃還沒有引起高度重視,例如,如果有20名員工同時離開公司,應(yīng)如何處理。”為了解決這些模擬場景,Just Eat公司舉辦了一些圓桌討論會,以便讓員工們廣泛的探討和分享他們的專業(yè)知識。
為了避免所有的專業(yè)知識訣竅只被一個人了解,Just Eat組成了一個專門的項目團隊。Attwal說:“我們更注重目標(biāo),并組織了一個專門的團隊,這可以幫助降低風(fēng)險。”
在投資管理公司Brewin Dolphin的業(yè)務(wù)連續(xù)性的負責(zé)人柯克·蘭利也認為,人的元素在災(zāi)害管理中往往被忽視了。
“跨部門的協(xié)作是一項相當(dāng)艱巨的任務(wù)。我曾經(jīng)在許多企業(yè)工作過,負責(zé)業(yè)務(wù)連續(xù)性的人員與企業(yè)的IT人員往往在相互間形成了孤島。”他說。
蘭利認為,業(yè)務(wù)連續(xù)性專家需要了解關(guān)于IT的合理人數(shù)配額:“在任何類型的企業(yè),你都會發(fā)現(xiàn)有人會掐你的團隊。如果你在關(guān)鍵團隊失去了一名理財規(guī)劃師;或者在金融服務(wù)團隊失去了一名投資經(jīng)理,這固然是一個商業(yè)問題,但這同時也是一個IT問題,因為你必須使用IT向所有的客戶分配一個新的投資經(jīng)理。”
就算總部發(fā)生災(zāi)難,靈活的工作團隊也可以使企業(yè)的業(yè)務(wù)繼續(xù)保持正常運行進行。但正如Just Eat的Attwal所指出的那樣:“沒有什么比面對面的互動是更好的溝通交流模式了。”不要讓同一間辦公室的人也會妨礙規(guī)劃,特別是在災(zāi)難中的早期階段,關(guān)鍵負責(zé)人員需要一步一步的協(xié)調(diào)各個流程,這需要調(diào)用該公司的災(zāi)難恢復(fù)策略。
隨著企業(yè)越來越多地使用專用的數(shù)據(jù)中心和云服務(wù),因此,在正確的時間和正確的職位上安置關(guān)鍵人員就顯得是至關(guān)重要的。戴爾軟件系統(tǒng)顧問的高級經(jīng)理阿德里安·莫爾說:“讓20個人在一個數(shù)據(jù)中心,圍著大約四臺機架并嘗試一起做一切工作是很難的。你企業(yè)的災(zāi)難恢復(fù)中心實際上是一處辦公室,那里才應(yīng)該是您企業(yè)專業(yè)天才人員和輔助硬件所在。”
莫爾認為,數(shù)據(jù)中心災(zāi)難恢復(fù)計劃往往沒有顧及關(guān)鍵IT人員的因素:“很多人都忘了為業(yè)務(wù)部門提供服務(wù),并確保業(yè)務(wù)部門積極和富有成效的工作的IT部門的同事。”
他說,雖然企業(yè)經(jīng)常會主動的進行彈性數(shù)據(jù)中心運行,但IT部門往往忘了究竟是誰需要訪問數(shù)據(jù)中心:“想想看,有多少被訪問設(shè)備和應(yīng)用程序需要執(zhí)行災(zāi)難恢復(fù)計劃。”
精心策劃
當(dāng)系統(tǒng)開啟并運行時,沒有人會表示擔(dān)心,人們只會在系統(tǒng)出現(xiàn)故障時才注意到。然后,企業(yè)的業(yè)務(wù)部門就會不斷的詢問:“我們?nèi)绾尾拍鼙M快恢復(fù)并再次運行?”這是一個關(guān)鍵性的問題,全國建設(shè)協(xié)會災(zāi)難恢復(fù)部門負責(zé)人詹姆斯·洛奇說。
他說:“在任何特定的某些時刻,許多企業(yè)都很難確定一款關(guān)鍵系統(tǒng)將需要多長時間來恢復(fù)。”他說。當(dāng)系統(tǒng)出現(xiàn)故障時,其再次啟動和運行的時間并不能總是可以準(zhǔn)確估計的。
一家典型的銀行將需要運行三種類型的系統(tǒng),洛奇說。保持與客戶互動的系統(tǒng);業(yè)務(wù)系統(tǒng)等進行銷售處理;數(shù)據(jù)中心及其系統(tǒng)。顯然,有些系統(tǒng)在不同的時間內(nèi)對業(yè)務(wù)會有更大的可視性。
“如果當(dāng)所有其他的系統(tǒng)均正常運行時,銷售系統(tǒng)發(fā)生故障,那么,較之發(fā)生一次更廣泛的數(shù)據(jù)中心故障,其會具備較高的優(yōu)先級。”洛奇說。業(yè)務(wù)連續(xù)性專家需要考慮的另一個因素是,關(guān)鍵系統(tǒng)將隨著時間的不同而改變。例如,電子郵件系統(tǒng)中白天的工作時間往往比在夜間下班時間更重要。
在他所使用的這個災(zāi)難恢復(fù)模型中(見下圖表),洛奇為任何給定的業(yè)務(wù)系統(tǒng)恢復(fù)正常運作規(guī)定了時限,指定其如果發(fā)生故障需要多長時間恢復(fù)。
從災(zāi)難恢復(fù)的角度來看,數(shù)據(jù)中心的核心組件,如網(wǎng)絡(luò)或Active Directory軟件是一樣重要的,因為它們會影響業(yè)務(wù)正常運行的能力。不幸的是,其往往是難以準(zhǔn)確估計整個數(shù)據(jù)中心需要多長時間才能重新聯(lián)機。
傳統(tǒng)上,當(dāng)一處數(shù)據(jù)中心發(fā)生中斷后,讓一切業(yè)務(wù)重新恢復(fù)正常運營估計大約需要24到48小時。洛奇說,但通過將數(shù)據(jù)中心分割成各個組成成分,有可能對于企業(yè)的恢復(fù)時間做出更準(zhǔn)確的評估。“這是對數(shù)據(jù)中心建立更精細的恢復(fù)的一種方法。”他說。
自上而下的策略
根據(jù)Gartner的分析師介紹,企業(yè)災(zāi)難恢復(fù)策略問題的產(chǎn)生是因為災(zāi)難恢復(fù)規(guī)劃并不是從企業(yè)整體戰(zhàn)略角度出發(fā),并排序適當(dāng)?shù)膬?yōu)先事項和目標(biāo)自上而下建立的。舉例來說,Just Eat公司就只是建立了一個框架,用于處理未來的事件。
這種策略需要明確規(guī)定:關(guān)鍵責(zé)任人必須在何處待崗——特別是如果數(shù)據(jù)中心系統(tǒng)需要重新啟動時。顯然,這些人員需要訪問業(yè)務(wù)連續(xù)性站點并必須在重啟系統(tǒng)時具備系統(tǒng)的訪問權(quán)限。這涉及到業(yè)務(wù)連續(xù)性管理者對于所需專業(yè)IT人員的充分理解。
雖然系統(tǒng)儀表板將就相關(guān)問題提醒IT團隊,但企業(yè)內(nèi)部的其他部門可能也需要被迅速提醒,尤其是在當(dāng)前客戶一旦在網(wǎng)站或移動App遇到問題是,他們會第一時間將問題發(fā)布到社交媒體。“通常情況下,客戶可能會意識到發(fā)生了一次中斷事故,并會在八分鐘內(nèi)開始將這些消息發(fā)表到社交媒體。”洛奇說。
因此他建議企業(yè)要主動和積極的管理Twitter等社會媒體。根據(jù)企業(yè)類型的不同,社交媒體監(jiān)測和團隊管理媒體是必不可少的手段,洛奇說。
沒有人能充分保護主要系統(tǒng)不會發(fā)生任何故障。但是,正如洛奇所指出的那樣:“由此所帶來的企業(yè)聲譽的損害可能會遠遠大于企業(yè)的實際經(jīng)濟損失。”因此,現(xiàn)代企業(yè)災(zāi)難恢復(fù)策略需要包括的不僅僅是讓IT系統(tǒng)迅速重新聯(lián)機。