伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個代碼拼寫錯誤引發微軟Azure故障,17個生產級數據庫被刪

OSC開源社區 ? 來源:OSC開源社區 ? 2023-06-12 16:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

5 月 24 日,微軟 Azure DevOps 在巴西南部地區的一處 scale-unit 發生故障,導致宕機約 10.5 個小時。近日,微軟首席軟件工程經理 Eric Mattingly 出面針對此次故障事件道歉,并透露了導致中斷的原因:即,一個簡單的拼寫錯誤致使 17 個生產級數據庫被刪除。

事件背景起源于,Azure DevOps 工程師有時需要對生產數據庫的快照進行保存,以調查報告的問題或測試性能改進。為了確保這些快照數據庫得到清理,會有一個專門的后臺每天運行,系統會在設定的時間段后刪除舊快照。

在 Sprint 222 期間,Azure DevOps 工程師升級了代碼庫,將已棄用的 Microsoft.Azure.Managment.* 包替換為受支持的 Azure.ResourceManager.* NuGet 包。此舉連帶了大量的 pull request 變更請求,以尋求將舊包中的 API 調用替換為新包中的 API 調用。而其中就隱藏了有關快照刪除作業中的一個拼寫錯誤,它將刪除 Azure SQL 數據庫的調用換成了刪除托管數據庫的 Azure SQL Server 的調用。

Eric 稱,運行此代碼的條件很少見,因此測試機制沒有很好地覆蓋。

我們使用我們的安全部署實踐 (SDP) 將 Sprint 222 部署到 Ring 0(我們的內部 Azure DevOps 組織),其中不存在快照數據庫,因此作業沒有執行。在 Ring 0 部署了幾天之后,我們接下來部署到 Ring 1,那里是受影響的巴西南部 scale-unit 所在的地方。其中快照數據庫的存在時間足以觸發錯誤代碼,當作業刪除 Azure SQL Server 時,它還刪除了 scale-unit 中的所有 17 個生產數據庫。從那時起,該 scale unit 就無法處理任何客戶流量。

1f53ffb0-0858-11ee-962d-dac502259ad0.png

Azure DevOps 工程師在數據庫刪除開始后 20 分鐘內檢測到中斷,并開始著手修復。目前數據已經全部恢復,但卻花費了長達十個小時。對此 Mattingly 則解釋了幾個原因:

首先,客戶無法自己恢復 Azure SQL Server,因此必須由 Azure SQL 團隊來恢復 Azure SQL Server。“確定我們需要 Azure SQL 的值班工程師,讓他們參與進來并恢復服務器,這個過程大約需要一個小時。”

其次,數據庫有不同的備份配置,一些被配置為 Zone 冗余備份,另一些則被配置為較新的 Geo-zone 冗余備份。協調這種不匹配情況給恢復過程增添了不少時間。

最后,在數據庫開始重新上線后,由于 Web 服務器出現了一系列復雜的問題,即使是數據位于這些數據庫中的客戶,也無法訪問整個 scale-unit。

根據介紹,這些問題源于服務器預熱任務,該任務通過測試調用遍歷可用數據庫列表。在恢復過程中的數據庫出現了一個錯誤,導致預熱測試 “執行指數級的 backoff retry,使得正常情況下只需不到 1 秒的預熱平均耗時了 90 分鐘。”

更復雜的是,這個恢復過程是交錯進行的,一旦有一兩臺服務器開始重新接受客戶的流量,它們就會過載并出現故障。最終,恢復服務需要工程師阻斷所有流向巴西南部 scale-unit 的流量,直到一切都準備就緒后再重新加入負載平衡器和處理流量。

微軟方面表示,已經實施各種修復和重新配置,以防止問題再次發生。

已經修復了快照刪除作業中的錯誤。

為快照刪除作業創建了一個新測試,它針對真實的 Azure 資源充分執行快照數據庫刪除方案。

正在為關鍵資源添加 Azure 資源管理器鎖,以防止意外刪除。

確保所有的 Azure SQL 數據庫備份都配置為 Geo-zone-redundant。

確保所有未來的快照數據庫都在生產數據庫的不同 Azure SQL Server 實例上創建。

正在修復 Web 服務器預熱任務中的邏輯,以便即使數據庫處于 offline 狀態也能成功啟動。

正在創建一個新的 cmdlet 來恢復已刪除的數據庫,以確保恢復使用與刪除之前相同的設置(包括備份冗余)。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據庫
    +關注

    關注

    7

    文章

    4068

    瀏覽量

    68466
  • 資源管理
    +關注

    關注

    0

    文章

    23

    瀏覽量

    8056
  • 微軟Azure
    +關注

    關注

    0

    文章

    11

    瀏覽量

    4744

原文標題:一個代碼拼寫錯誤引發微軟Azure故障,17 個生產級數據庫被刪

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NineData與阿里云DMS:數據庫權限申請、審批與回收場景怎么選?

    比較 NineData 和 阿里云 DMS,首先要把問題限定清楚:不是比誰“也有權限申請”,而是比哪種方案更匹配企業級數據庫權限治理。這個問題建議同時看五維度:數據庫資源粒度、審批閉環、權限有效期
    的頭像 發表于 03-25 17:19 ?1455次閱讀
    NineData與阿里云DMS:<b class='flag-5'>數據庫</b>權限申請、審批與回收場景怎么選?

    行業觀察 | 微軟3月修復83漏洞,多個高危漏洞被標記為高概率被利用

    Azure云工作負載、數據庫管理工具等多個企業核心業務領域,需要IT團隊高度重視并有序部署。本月修復的漏洞中,雖無已確認被黑客主動利用的“零日漏洞”,但微軟將多個
    的頭像 發表于 03-17 17:02 ?944次閱讀
    行業觀察 | <b class='flag-5'>微軟</b>3月修復83<b class='flag-5'>個</b>漏洞,多個高危漏洞被標記為高概率被利用

    Oracle數據庫ASM實例無法掛載的數據恢復案例

    Oracle數據庫故障表現為ASM磁盤組掉線,ASM實例無法掛載(mount)。數據庫管理員自行進行簡單修復,未能成功,隨后聯系北亞
    的頭像 發表于 02-24 15:19 ?135次閱讀
    Oracle<b class='flag-5'>數據庫</b>ASM實例無法掛載的<b class='flag-5'>數據</b>恢復案例

    恒訊科技解析:如何安裝MySQL并創建數據庫

    安裝和管理MySQL不必復雜。只需幾分鐘,你就能在Linux服務器上搭建MySQL,創建第一個數據庫,甚至自動化備份——同時確保數據安全有序。 什么是 MySQL? MySQL 是
    的頭像 發表于 01-14 14:25 ?254次閱讀

    C語言中除數為0屬于什么錯誤

    0 的錯誤,以及援引數組元素時下標溢出等。 靜態錯誤又可以分為語法錯誤和靜態語義錯誤。語法錯誤指有關語言結構上的
    發表于 12-08 06:38

    mysql數據恢復—mysql數據庫表被truncate的數據恢復案例

    某云ECS網站服務器,linux操作系統,部署了mysql數據庫。工作人員在執行數據庫版本更新測試時,錯誤地將本應在測試執行的sql腳本在生產
    的頭像 發表于 09-11 09:28 ?963次閱讀
    mysql<b class='flag-5'>數據</b>恢復—mysql<b class='flag-5'>數據庫</b>表被truncate的<b class='flag-5'>數據</b>恢復案例

    數據庫性能優化指南

    作為名在大廠摸爬滾打多年的運維老兵,我見過太多因為數據庫性能問題導致的生產事故。今天分享套完整的數據庫優化方法論,從SQL層面到硬件配置
    的頭像 發表于 08-18 11:21 ?826次閱讀

    數據庫數據恢復—服務器異常斷電導致Oracle數據庫故障數據恢復案例

    Oracle數據庫故障: 某公司臺服務器上部署Oracle數據庫。服務器意外斷電導致數據庫報錯,報錯內容為“system01.dbf需要
    的頭像 發表于 07-24 11:12 ?734次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—服務器異常斷電導致Oracle<b class='flag-5'>數據庫</b><b class='flag-5'>故障</b>的<b class='flag-5'>數據</b>恢復案例

    數據庫數據恢復—MongoDB數據庫文件丟失的數據恢復案例

    MongoDB數據庫數據恢復環境: 臺操作系統為Windows Server的虛擬機上部署MongoDB數據庫。 MongoDB數據庫
    的頭像 發表于 07-01 11:13 ?713次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—MongoDB<b class='flag-5'>數據庫</b>文件丟失的<b class='flag-5'>數據</b>恢復案例

    數據庫數據恢復—SQL Server數據庫被加密如何恢復數據

    SQL Server數據庫故障: SQL Server數據庫被加密,無法使用。 數據庫MDF、LDF、log日志文件名字被篡改。
    的頭像 發表于 06-25 13:54 ?763次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復—SQL Server<b class='flag-5'>數據庫</b>被加密如何恢復<b class='flag-5'>數據</b>?

    oracle數據恢復—oracle數據庫誤執行錯誤truncate命令如何恢復數據

    oracle數據庫誤執行truncate命令導致數據丟失是種常見情況。通常情況下,oracle數據庫誤操作刪除數據只需要通過備份恢復
    的頭像 發表于 06-05 16:01 ?1499次閱讀
    oracle<b class='flag-5'>數據</b>恢復—oracle<b class='flag-5'>數據庫</b>誤執行<b class='flag-5'>錯誤</b>truncate命令如何恢復<b class='flag-5'>數據</b>?

    PLC數據中臺對接到MySQL數據庫并對接到生產看板

    工廠數據庫系統能夠存儲產品訂單信息、生產設備能力、原材料庫存等數據。將這些數據接入MES或ERP等系統,能夠實現生產管理的可視化應用。基于這
    的頭像 發表于 05-26 11:20 ?596次閱讀
    PLC<b class='flag-5'>數據</b>中臺對接到MySQL<b class='flag-5'>數據庫</b>并對接到<b class='flag-5'>生產</b>看板

    SQLSERVER數據庫是什么

    SQL Server 是由微軟公司開發的款 關系型數據庫管理系統(RDBMS) ,用于存儲、管理和檢索結構化數據。它是企業級應用中廣泛使用的數據庫
    的頭像 發表于 05-26 09:19 ?1245次閱讀

    SEGGER emFile支持大型數據庫

    SEGGER宣布emFile對大型數據庫的支持,集成了SQLite,方便與SEGGER的BigFAT和微軟的exFAT起使用。
    的頭像 發表于 04-23 15:51 ?882次閱讀

    數據庫數據恢復——MongoDB數據庫文件拷貝后服務無法啟動的數據恢復

    MongoDB數據庫數據恢復環境: 臺Windows Server操作系統虛擬機上部署MongoDB數據庫。 MongoDB數據庫
    的頭像 發表于 04-09 11:34 ?935次閱讀
    <b class='flag-5'>數據庫</b><b class='flag-5'>數據</b>恢復——MongoDB<b class='flag-5'>數據庫</b>文件拷貝后服務無法啟動的<b class='flag-5'>數據</b>恢復