服務器存儲數(shù)據(jù)恢復環(huán)境:
某品牌MSA2000FC存儲中有一組由7塊盤組建的RAID5陣列,另外還有1塊硬盤作為熱備盤使用。
基于RAID5陣列劃分的幾個LUN分配給小機使用,存儲空間通過LVM管理,重要數(shù)據(jù)為Oracle數(shù)據(jù)庫及OA服務端。
服務器存儲故障:
RAID5陣列中2塊硬盤離線,唯一的熱備盤成功激活,RAID5陣列還是變得不可用,上層LUN無法使用。
服務器存儲數(shù)據(jù)恢復過程:
1、將故障存儲中所有磁盤標記后取出,由硬件工程師對所有磁盤做物理故障檢測,檢測后沒有發(fā)現(xiàn)有磁盤存在物理故障,都可以正常讀取。以只讀方式將所有磁盤進行扇區(qū)級全盤鏡像,鏡像過程中沒有發(fā)現(xiàn)有磁盤存在壞道。

北亞企安數(shù)據(jù)恢復—vxfs文件系統(tǒng)數(shù)據(jù)恢復
2、由于所有磁盤經過檢測都不存在物理故障或者壞道,基本上可以判斷磁盤掉線的是磁盤讀寫不穩(wěn)定造成的。故障存儲的控制器通常會將某些性能不穩(wěn)定的磁盤識別為壞盤,并踢出RAID。而一旦RAID中掉線的盤數(shù)達到該RAID級別允許掉盤的極限,這個RAID將變得不可用,上層基于RAID的LUN也無法正常使用。
基于鏡像文件分析所有磁盤底層數(shù)據(jù),獲取到重組raid所需信息(RAID級別,條帶規(guī)則,條帶大小,校驗方向,META區(qū)域等)并找到熱備盤和2塊掉線硬盤的掉線順序,然后根據(jù)這些信息重組RAID。
3、raid重組完成后分析LUN在RAID中的分配情況,以及LUN分配的數(shù)據(jù)塊MAP,將每一個LUN的數(shù)據(jù)塊分布MAP提取出來。北亞企安數(shù)據(jù)恢復工程師編寫程序解析所有LUN的數(shù)據(jù)MAP,然后根據(jù)數(shù)據(jù)MAP導出所有LUN的數(shù)據(jù)。

北亞企安數(shù)據(jù)恢復—vxfs文件系統(tǒng)數(shù)據(jù)恢復
4、分析所有LUN,發(fā)現(xiàn)所有LUN中均包含LVM邏輯卷信息。嘗試解析每個LUN中的LVM信息,一共發(fā)現(xiàn)三套LVM:第一個LVM中劃分了一個LV,存放OA服務器端的數(shù)據(jù);第二個LVM中也劃分了一個LV,里面存放臨時備份數(shù)據(jù);剩下幾個LUN組成一個LVM,也劃分了一個LV,里面存放Oracle數(shù)據(jù)庫文件。北亞企安數(shù)據(jù)恢復工程師編寫解釋LVM的程序,將每套LVM中的LV卷都解釋出來,但是解釋過程中出現(xiàn)錯誤。
5、分析程序報錯的原因,由開發(fā)工程師debug程序出錯的位置。文件系統(tǒng)工程師檢測恢復出來的LUN,檢測LVM邏輯卷的信息是否損壞。經過檢測,發(fā)現(xiàn)LVM信息確實因為存儲癱瘓而損壞。嘗試人工修復損壞的區(qū)域,并同步修改程序,然后重新解析LVM邏輯卷。
6、搭建環(huán)境,將解釋出來的邏輯卷映射到小機,并嘗試掛載文件系統(tǒng),結果文件系統(tǒng)掛載出錯。嘗試使用“fsck –F vxfs” 命令修復vxfs文件系統(tǒng),修復后還是無法掛載。數(shù)據(jù)恢復工程師懷疑vxfs文件系統(tǒng)的元數(shù)據(jù)被破壞,需要修復。
7、分析解析出來的LV,根據(jù)VXFS文件系統(tǒng)的底層結構校驗此文件系統(tǒng)的完整性。經過分析發(fā)現(xiàn)底層VXFS文件系統(tǒng)果然有問題,部分文件系統(tǒng)元文件損壞。人工修復這些損壞的元文件,保證VXFS文件系統(tǒng)能夠正常解析。將修復好的邏輯卷掛載到小機上,并嘗試掛載文件系統(tǒng)。這回沒有報錯,成功掛載。
8、在小機上掛載上文件系統(tǒng)后,將所有用戶數(shù)據(jù)備份至指定空間。

北亞企安數(shù)據(jù)恢復—vxfs文件系統(tǒng)數(shù)據(jù)恢復
9、使用Oracle數(shù)據(jù)庫文件檢測工具“dbv”檢測每個數(shù)據(jù)庫文件的完整性,沒有發(fā)現(xiàn)錯誤。使用北亞企安自主開發(fā)的Oracle數(shù)據(jù)庫檢測工具檢測,發(fā)現(xiàn)部分數(shù)據(jù)庫文件和日志文件校驗不一致。修復此類文件并再校驗,直到所有文件校驗均通過。
10、將恢復出來的Oracle數(shù)據(jù)庫附加到原始生產環(huán)境的小機中,嘗試啟動Oracle數(shù)據(jù)庫,Oracle數(shù)據(jù)庫啟動成功。

北亞企安數(shù)據(jù)恢復—vxfs文件系統(tǒng)數(shù)據(jù)恢復
11、在用戶方的配合下,啟動Oracle數(shù)據(jù)庫和OA服務端。在本地電腦上安裝OA客戶端,通過OA客戶端驗證最新的數(shù)據(jù)記錄以及歷史數(shù)據(jù)記錄,并且安排不同部門工作人員進行遠程驗證。經過仔細驗證,用戶方確認數(shù)據(jù)完整可用,認可數(shù)據(jù)恢復結果。
審核編輯 黃宇
-
服務器
+關注
關注
14文章
10223瀏覽量
91375 -
數(shù)據(jù)恢復
+關注
關注
10文章
708瀏覽量
18942 -
RAID5
+關注
關注
0文章
137瀏覽量
13300
發(fā)布評論請先 登錄
【服務器數(shù)據(jù)恢復】服務器raid5陣列raid模塊損壞的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—5盤RAID5中的4盤重建RAID5,RAID5數(shù)據(jù)恢復秘籍!
服務器數(shù)據(jù)恢復—硬盤離線致raid5陣列崩潰,數(shù)據(jù)恢復大揭秘
服務器數(shù)據(jù)恢復—EqualLogic存儲上raid5磁盤陣列數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—硬盤指示燈亮黃燈,RAID5崩潰數(shù)據(jù)這樣恢復
服務器數(shù)據(jù)恢復—服務器斷電導致raid模塊損壞的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—壞道“突襲”Raid5陣列,數(shù)據(jù)恢復大揭秘
服務器數(shù)據(jù)恢復—硬盤離線導致raid上層的卷無法掛載的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—raid5陣列多塊硬盤離線導致raid崩潰的數(shù)據(jù)恢復
raid5數(shù)據(jù)恢復—Raid陣列重建后如何恢復原陣列的數(shù)據(jù)?
raid5數(shù)據(jù)恢復—raid5陣列熱備盤未完全激活導致崩潰的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—raid5陣列多塊硬盤離線導致EMC存儲不可用的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—雙循環(huán)raid5磁盤陣列數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—raid5陣列中硬盤壞道導致陣列崩潰的數(shù)據(jù)恢復案例
服務器數(shù)據(jù)恢復—raid5陣列崩潰導致上層lun無法正常使用的數(shù)據(jù)恢復案例
評論