Azure遭雷擊后業(yè)務停擺
本月初,Azure因遭遇雷擊,造成長時間的業(yè)務停頓。隨后又因為服務器宕機,而再次暫停2小時服務。是否因為Azure“流年不利”?其實業(yè)內(nèi)人士都了解,這只是意外,而我們無法預測意外什么時候會發(fā)生,就跟無法預測會因為什么而發(fā)生意外一樣。
對于事故勇于承擔并予以解決無疑是令人欣慰的。
Azure的工程部主管說“首先,我想對受影響地區(qū)的托管客戶為長時間的VSTS故障及其對全球客戶帶來的影響深表歉意。這起事件對我們來說前所未有。在我們七年的歷史中,這次故障是VSTS客戶遇到持續(xù)時間最長的。我通過Twitter、電子郵件和電話與客戶溝通,客戶的團隊至少有一天無法正常辦公。我們讓客戶失望了。這是一次痛苦的經(jīng)歷,為此我道歉。”(譯文來源于“云頭條”)
隨后,Azure對自身的服務設(shè)置、備份方案、硬件設(shè)施、人員維護等進行了一系列的調(diào)整。雖然這些調(diào)整也許在未來并不能避免所有意外的發(fā)生,但至少能夠減輕事故帶來的不良影響,減少造成的損失。
我們從中能學到什么?
人類有喜歡成功、畏懼失敗的天性,還因此而絞盡腦汁地設(shè)計了許多“完美模型”想避免失敗。事實上,因為迷信“完美模型”而吃的大虧很多,比如:“泰坦尼克號”曾被認為是“不可沉沒”的;馬奇諾防線也被稱作是“不可逾越”的;在發(fā)生核泄漏之前,每個核電站都聲稱自己的安全系統(tǒng)是“萬無一失”的……
意外的發(fā)生,最大的好處就是讓我們更加進步。因為游輪爆炸污染海面而對石油運輸?shù)陌踩O(shè)施重加考慮,因為核反應堆發(fā)生意外而改善核反應過程和安全設(shè)施,因為發(fā)現(xiàn)上萬種不適合做燈絲的材料后而找到鎢絲……
于是,我開始思考,從Azure的事故中我們能學到什么?
我首先想到的是:“有備無患”的態(tài)度。在容災備份這個行業(yè),每年都會發(fā)生若干或大或小的IT事故,比如:某公司員工誤刪數(shù)據(jù)了、某醫(yī)院服務器宕機業(yè)務停頓了、某學校被勒索病毒攻擊了、某單位丟失數(shù)據(jù)了,等等。在遭遇意外之后,結(jié)果如何就跟“有備無患”的態(tài)度大大相關(guān)了。
這里舉個不久前的例子,今年7月中旬,重慶市南岸區(qū)人民醫(yī)院因意外斷電2次,導致醫(yī)院His系統(tǒng)數(shù)據(jù)庫發(fā)生邏輯故障,無法正常啟動。
數(shù)據(jù)庫邏輯錯誤故障截圖
作為二甲醫(yī)院,重慶市南岸區(qū)人民醫(yī)院早就為His系統(tǒng)部署了容災備份軟件,來以防萬一。因此,在故障發(fā)生后,在容災備份軟件廠家北京和力記易科技有限公司西部大區(qū)技術(shù)工程師的協(xié)助下,利用備特佳軟件的“任意時間點回退”功能,一次性成功恢復數(shù)據(jù),解決了數(shù)據(jù)邏輯故障問題,經(jīng)校驗,數(shù)據(jù)完全一致,His系統(tǒng)恢復正常使用。
有了“有備無患”的態(tài)度,之后,自然是想要“魚”與“熊掌”能夠兼得。
大多遭遇IT故障的客戶,在面對故障會持續(xù)多久沒有明確結(jié)論的時候,都面臨著一道“魚”與“熊掌”的選擇題,是要馬上恢復業(yè)務,還是要保證數(shù)據(jù)不丟?其中一些客戶,他們不想丟失任何數(shù)據(jù),只要能恢復數(shù)據(jù),不管這個過程有多長。而另外一些客戶,需要讓龐大的團隊迅速開始工作,哪怕丟失部分數(shù)據(jù)也認了。
這個選擇在構(gòu)建容災備份方案的時候也會遇到。一方面是數(shù)據(jù)的100%備份與恢復,一方面是業(yè)務的連續(xù)性,“魚”與“熊掌”如何兼得?
作為國產(chǎn)容災備份軟件廠商,北京和力記易科技有限公司早就已經(jīng)開始思考并解決了這一問題。和力記易自主研發(fā)的備特佳容災備份系統(tǒng),以CDP持續(xù)數(shù)據(jù)保護技術(shù)為核心,實時監(jiān)測數(shù)據(jù)變化并備份,數(shù)據(jù)變化傳到備份機以后,一份與以前的數(shù)據(jù)實時覆蓋,形成一份最新的及時可用數(shù)據(jù),另外一份以自有格式存儲。備份機上這份及時可用的數(shù)據(jù)與生產(chǎn)機上的業(yè)務數(shù)據(jù)完全一致,如果生產(chǎn)機意外宕機,備份機完全可以代替生產(chǎn)機繼續(xù)對外服務。而以自有格式存儲的數(shù)據(jù),可以在遭遇IT故障后,用于數(shù)據(jù)的任意回退,就像前面舉例說明的那樣。既能保證數(shù)據(jù)安全,又能保障業(yè)務連續(xù),“魚”與“熊掌”也可得兼。
編者語:
遭遇故障并不可怕,從中學習,好的保留,不好的就改變,我們會一直走在進步的路上。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!