柳影虹

語雀公布10月23日故障原因 同時為所有個人用戶贈送半年會員 – 藍點網

时间:2010-12-5 17:23:32  作者:遊戲   来源:體育  查看:  评论:0
内容摘要:前天語雀發生重大故障導致長達7個小時無法正常訪問,對於一款擁有千萬級用戶的產品,發生如此長的故障時間,著實讓人有些震驚。昨天晚上語雀在其公眾號解釋了故障原因,沒想到竟然是新的運維工具bug導致華東地區

前天語雀發生重大故障導致長達 7 個小時無法正常訪問,對於一款擁有千萬級用戶的產品,發生如此長的故障時間,著實讓人有些震驚。

昨天晚上語雀在其公眾號解釋了故障原因,沒想到竟然是新的運維工具 bug 導致華東地區的生產服務器被誤下線;又因為存儲係統使用的機器類別較老無法直接操作上線,沒辦法語雀隻能從備份係統裏恢複存儲數據,這需要大量時間,恢複備份數據後又需要進行校驗,直到晚上 9 點鍾才恢複正常。

這次故障也讓大家知道了語雀使用的容災架構是同 Region 多副本容災而不是異地容災方案,語雀稱後續將升級為兩地三中心的高可用能力,設計足夠的數據和係統冗餘實現快速恢複並進行定期的容災應急演練。

語雀公布10月23日故障原因 同時為所有個人用戶贈送半年會員

補償問題:

對於語雀個人版用戶全部贈送半年會員,操作流程:進入工作台賬戶設置、點擊會員信息、在會員信息裏點擊立即領取即可獲得贈送服務。

針對語雀空間用戶由於情況比較複雜,語雀會單獨製定賠償方案,請空間管理員留意語雀站內信。

當然語雀的這次問題也再次為個人和企業用戶敲響警鍾,那就是要保證數據離線可用,不知道這次過後有多少用戶會離開語雀。

下麵是語雀公布的故障說明:

10 月 23 日下午,服務語雀的數據存儲運維團隊在進行升級操作時,由於新的運維升級工具 bug,導致華東地區生產環境存儲服務器被誤下線。受其影響,語雀數據服務發生嚴重故障,造成大麵積的服務中斷。為了盡快恢複服務,我們和數據存儲運維團隊全力進行數據恢複工作,但受限於恢複方案、數據量級等因素,整體用時較長。具體過程如下:

14:07 數據存儲運維團隊收到監控係統報警,定位到原因是存儲在升級中因新的運維工具 bug 導致節點機器下線;14:15 聯係硬件團隊嚐試將下線機器重新上線;15:00 確認因存儲係統使用的機器類別較老,無法直接操作上線,立即調整恢複方案為從備份係統中恢複存儲數據。15:10 開始新建存儲係統,從備份中開始恢複數據,由於語雀數據量龐大,此過程曆時較長,19 點完成數據恢複;同時為保障數據完整性,在完成恢複後,用時 2 個小時進行數據校驗;21 點存儲係統通過完整性校驗,開始和語雀團隊聯調,最終在 22 點恢複語雀全部服務。用戶所有數據均未丟失。

改進措施:

通過這次故障我們深刻認識到,語雀作為一款服務千萬級客戶的文檔產品,應該做到更完善的技術風險保障和高可用架構設計,尤其是麵向技術變更操作的 “可監控,可灰度,可回滾” 的係統化建設和流程審計,從同 Region 多副本容災升級為兩地三中心的高可用能力,設計足夠的數據和係統冗餘實現快速恢複,並進行定期的容災應急演練。隻有這樣,才能提升嚴重基礎設施故障時的恢複速度,並從根本上避免這類故障再次出現。為此我們製定了如下改進措施:

1、升級硬件版本和機型,實現離線後的快速上線。該措施在本次故障修複中已完成;

2、運維團隊加強運維工具的質量保障與測試,杜絕此類運維 bug 再次發生;

3、縮小運維動作灰度範圍,增加灰度時間,提前發現 bug;

4、從架構和高可用層麵改進服務,為語雀增加存儲係統的異地災備。

copyright © 2016 powered by 豐年玉荒年穀網   sitemap