大道至简,知易行难
广阔天地,大有作为

数据无价,当心丢命,谨慎对待硬盘SMART信息

摘要:硬盘物理损猛于虎,一旦SMART信息出现异常就标志着硬盘盘片或磁头的老化或其他物理问题已经出现,需尽早更换或做好数据备份;如果财力允许,就不要等到重映射扇区数快速增长,此时往往已经为时晚矣。千万不要心存侥幸,自以为SMART信息仅仅是个参考、自认为自己是“砖业人士”,不管不顾继续强行使用或使用各种软件恢复工具进行操作,而是应该尽早交给专业的数据恢复人员使用专门的软硬件进行处理。术业有专攻,这件事非数据恢复的专业人士真的搞不定,切莫因小失大,致使追悔莫及,甚至危及生命(后详)。

S.M.A.R.T.的全称是Self-Monitoring Analysis and Reporting Technology,主要不断从硬盘上的各个传感器收集信息,并把信息保存在硬盘的NVRAM(非易失性随机访问存储器,Non-Volatile Random Access Memory)中,用于跟踪硬盘硬件所出现的各类问题和参数。上周四,笔者日常工作中使用的笔记本硬盘出现了灾难性的物理损坏,差点酿成大祸。索性在花费了数千元和数天的时间后大部分数据都得以恢复,但几天中的所见所闻所感所思还是颇有冲击力:数据恢复公司可谓是与医院/法院同样的人间地狱。虽说能用钱解决的问题都不是问题,而且能用钱解决的问题笔者一个都解决不了,但是有的时候连钱都解决不了那可真是玩大了。
早在2000年左右,家里的一台古董海信品牌机上4G的希捷硬盘在使用约三年左右后出现过磁头损坏,上电即敲盘。在那个年代,4G算是大容量的硬盘,拿到电脑城后,维修人员说是磁头损坏,需要话数很多钱开盘换磁头,后来由于并没有什么重要数据就没有维修;而后跟笔者的父亲一起将其拆解掉了。下图是笔者翻出的数年前的照片:

fil4406
笔者这次损坏的硬盘是单位2013年高配ThinkPad T430s上的原装硬盘,为日立合并后HGST的产品,型号为HTS725050A7E630,7mm薄盘,单碟双面结构,两磁头,500G容量,7200转,32M缓存,增强型,分四个区,前两个主分区后两个为扩展分区,时至今日依然是民用笔记本硬盘中相对的高端型号。在日立的各类宣传材料中,增强型硬盘一般是7×24用于刀片服务器及监控盘,以耐操著称。
在日常工作中,笔者的主硬盘是光驱位的一块浦科特的SSD,这块机械硬盘主要做数据存储和放一些使用频度一般的软件,在平时对这块硬盘也相对爱护,凡是工作中搬动时基本都是休眠状态进行的,也开启了ThinkPad特有的Active Protection。然而,毕竟是电子产品,亦或者笔者确实是重度用户,在仅仅14000+小时的使用后耐操的增强型也出现了问题。
早在一个月以前,笔者在某次进行大文件拷贝时就发现了硬盘灯常亮后报读写失败的情况,就已经知道硬盘肯定出现了坏块。然而,由于主硬盘是SSD,因而在平时的操作中出现卡顿的情况不多;再加上由于笔者各种事情很多,所以尽管已经知道硬盘出了问题但一直没有在意,而是坚持强行使用了近一个月,最终酿成大祸。上周四晚上,笔者在安装CentOS虚拟机时创建了一个巨大的虚拟磁盘文件,又读写到了坏块,不出意外地硬盘灯常亮后报错;笔者没有意识到问题的严重性,而是换了一个分区继续安装虚拟机,没想到这个分区也读写到了坏块,硬盘灯常亮后报错。由于这个分区上安装了很多程序,所以此时感受到了明显的卡顿,于是笔者随便下了个工具查看SMART信息:

img_4786

此时已经可以看到已重映射扇区数和待重映射扇区数报警了。按照笔者小时候多年来读《电脑爱好者》学来的知识,对于机械硬盘而言一般偶尔出现重映射扇区并无大碍,尤其是一些使用时间相对较久的硬盘会偶有出现,有些硬盘甚至出厂时就带有物理坏块/坏道只是被工厂模式标记了。这时,由于卡顿的问题笔者意识到不换硬盘不行了,所以果断在京东上购买了一块相同型号的硬盘,并还幻想可以相对顺利地能够顺利拷贝出原有资料。然而,到周五上午上班时,情况愈发严重,硬盘灯已经常亮不灭了,长时间卡顿使得整个机器已经无法正常使用,在关机进行安全更新时甚至直接卡死而不得不强行关机。
笔者此时才意识到问题严重了,由于京东把硬盘寄到了家里所以立马请假回家开始折腾拷贝的问题。由于之前的强行关机,在开机后被要求强行进行磁盘检查,期间硬盘各种咔咔咔异响(所谓的敲盘)、各种报错并卡死数小时:

img_4804

后来才得知,正是此种磁盘检查给硬盘带来了第一次无法恢复地灾难性物理损伤;也使得笔者最后一个分区的分区表和备份分区表被损坏了,使得使用操作系统拷贝的希望变成了幻想。之前,笔者的一位领导提醒笔者使用Ghost做镜像,于是笔者设置了Ghost跳过坏块的参数后尝试使用Ghost的To Disk进行硬盘克隆,Ghost可以通过判断NTFS分区表的状态发现NTFS分区的不一致:

img_4807

但Ghost在若干次报错后仍然卡死在了坏块上,所以说网上流传的使用Ghost镜像抢救物理坏块硬盘的说法也是根本不能成立的,因为Ghost也无法跳过坏块,原理后详:

img_4808

此时笔者已经有点慌了,赶忙花了近500元购买了DiskGenius专业版,并开始在PE系统下尝试恢复数据,在折腾了数小时候后艰难地忍受着硬盘的不断异响将前三个分区中的最为重要的数据拷贝了出来,然后开始使用Raw格式扫描抢救第四个分区表已经丢失的分区中的数据。在经过了通宵长达十余个小时的扫描后,最后一个分区80余G的逻辑块竟然只完成了22%,而且SMART信息已经彻底惨不忍睹,被明确标识为故障,整个硬盘的所有备份扇区全部耗尽

img_4816

此时与前一日相比,C4重映射扇区数已经从255个飙升到了17895个、C5待重映射扇区数已经从2000余个飙升到了6000余个、01读取错误率超过阈值、05备份扇区数全部耗尽(意味着硬盘出厂时为应对坏块而存在的替换扇区全部消耗完),硬盘灯常亮不灭,基本可以宣告硬盘报废了……
笔者这时终于意识到,问题已经彻底超出了笔者折腾的能力;而且最后一个分区中还有笔者三年多来所有的工程、代码和各类文档,毁于一旦不是闹着玩的,必须寻找专业人士帮助了。在各种百度后,笔者选中了一家XX数据恢复公司,揣好了几个移动硬盘和各种装备、做好了撕逼/打架/报警的准备后奔赴了鱼龙混杂的中关村。然而,到了中关村,才知道果然已经不是以前的中关村了,到处一片荒凉,撕逼的场景没有出现。中关村已经不是以前的中关村了,但你大爷还是你大爷!
在XX数据恢复公司用PC-3000工具稍加测试后即被告知是两个磁头坏了一个(HTS725050A7E630是单碟双面结构,每面一个磁头,共两个磁头),必须开盘:

img_4828

如下图所示,不是笔者的硬盘,有四个磁头,在最右边可以看到PC-3000可以通过直接操作硬盘固件实现屏蔽磁头,也可以直接通过固件级命令进行软件复位和硬件复位,这些都是无法通过非专业软硬件能够实现的:
img_4825对于笔者的硬盘而言,一个磁头损坏大概就意味着一个柱面的信息丢了一半(当然物理存储上是怎么进行的各个厂家都不一样我们就不得而知了,比如笔者500G的硬盘貌似只有一小半约150G的容量是放在损坏磁头所在一面上的)。
众所周知,对于机械硬盘而言,开盘对环境要求极高而且机会只有一次,一旦开盘后惰性气体散失,硬盘会很快在数天内彻底报废;而且在开盘过程中出现的任何失误都将是灾难性的。在一番纠结和讨价还价后,笔者选择了赌一把,开盘。在开盘连续换了两次磁头后,终于可以艰难地读出数据了。然而,由于盘片已经出现了问题因而读出数据的速度极慢,最快也超不过1Mb/s,在遇到坏块进行软件复位时速度更是经常会降低到10Kb/s以下。这样一方面需要长时间的等待,另一方面强行读取数据会使磁头很快报废,一旦一个磁头读废,就需要再次开盘换磁头。当然,这也说明了磁盘这个东西还是很耐操的,冗余方式做得也牛B,尽管盘片已经苟延残喘濒临彻底报废,但是竟然还能通过不停地换磁头的方式勉强读出数据……事实上,笔者硬盘中300GB的数据共更换了八个磁头,耗时四天三夜才读取完。这八个磁头均来自二手坏块盘,都是只能使用一次,废了就废了,这也就是对数据恢复公司而言的所谓维修成本之一。
根据与数据恢复公司工程师的交流和感受,笔者有如下的总结:
1、不管是操作系统还是Ghost,都不能控制磁头的具体读写动作,在遇到坏块时,在正常工作模式下,磁盘的固件/嵌入式操作系统只会反复尝试读取指定逻辑删除的数据,进而可能把磁头损坏甚至所谓的划伤盘片;
2、磁头在贴近盘片飞行的过程中,与盘片之间的距离并不是想象中所恒定的。当读写失败后,磁盘的固件可能会操作磁头使得其与盘片靠得更近或提高写入的功率(与光盘驱动器的原理类似),并反反复复地尝试从不同的物理位置、不断地、一次一次地尝试读取并校验和恢复数据,此种尝试在不加干预的情况下可能会尝试数次、数万次甚至数十万次不等并伴随不断地硬件复位或软件复位操作,因而最终极易导致磁头损坏或盘片损坏;对于磁头损坏而言还尚有一线生机,而对于盘片损坏而言则是无力回天了;
3、盘片的磁介质发生物理损伤后(可能是由于震动,也有可能是单纯的老化或者在制造过程中就存在没有被发现的潜在缺陷),在显微镜下能够明显地看到“坑洼”,当磁头在飞跃相应的坑洼时,就会发生弹跳进而导致敲盘并引起更多地灾难性后果(如同高速飞驰的汽车在平坦的高速公路上遇到坑洼一样);
4、虽然机械硬盘十分精密,但由于磁存储的特点其又是一种很糙的存在,跟录音机的原理没有什么不同,因而坏块等等往往是无法避免的。在硬盘的设计过程中,也设计了诸多的备份和冗余方法来避免少量介质损坏时数据丢失的问题,不管是盘片还是磁头均有相当地容忍度;比如A面存一部分数据、B面存一部分数据+纠错码/校验码或者交叉存储等等,这也为数据恢复奠定了可能;比如笔者的硬盘,尽管读废了八个磁头,但也还是艰难地读出来了三个分区的绝大部分数据;
5、在数据恢复公司,当盘片发生问题后,往往需要使用专用工具(如PC-3000),使用工厂模式或特殊的固件级指令降低硬盘的数据传输并尝试建立完整的LBA镜像(即逻辑扇区镜像),然后再利用专用工具从镜像中恢复数据;
6、当盘片出现问题后,即便更换了好的磁头(实际上都是拆盘配件),使用专用工具进行的镜像过程中由于过于暴力很快就会把磁头用废,需要根据具体的情况多次开盘、换磁头、继续镜像。事实上,就笔者的这块硬盘而言,在300G镜像的过程中就更换了多达8个磁头、耗费整整数天才完成;对于现在目前动辄上T的大容量硬盘而言,此种情况更为严重,往往需要耗费数天甚至更多的时间才能完成,价格自然是很贵很贵;
7、SSD出问题,比机械硬盘更严重数倍。一般机械硬盘无非是摔了、磁头老化、盘片老化、盘片某些位置物理介质损坏,只要肯出钱、肯花时间,在一定程度上还能够用暴力的方法恢复部分数据;但是由于SSD的存储特性,往往一个存储芯片损坏会导致大量的数据残缺,即使恢复了数据也是废的;

之前笔者曾经对于SMART信息的准确性有所怀疑,因为见到了太多硬盘都有重映射扇区所以觉得见怪不怪,而且轻信了一直以来的“除非快速增长否则一般没有问题”的说法。在这次硬盘出现问题后,笔者就对比了手上的几块硬盘。
对于台式机硬盘而言,由于工作环境相对震动较少,在相同工作时间的情况下往往情况较笔记本硬盘乐观,例如笔者的某个台式机硬盘在重度使用了2万多个小时后情况似乎尚能接受(但确实也出现过硬盘灯常亮后读写失败的情况,在SMART信息中有所体现,出现了几十个重映射扇区):

wdc

对比笔者2006年生产的IBM ThinkPad R60上原装的日立60G硬盘(彼时ThinkPad还是IBM、日立也没有改名成HGST):

60g

再对比笔者的浦科特SSD(会明显发现SSD的SMART信息与机械硬盘区别很大):

ssd

再对比笔者的一块250G迈拓移动硬盘(实际用的是希捷的盘):

250g

再对比笔者的一块1T东芝移动硬盘:

to

再对比笔者新买的新硬盘:

hgst

最后是笔者更换了八次磁头后已经彻底报废的硬盘,一般人永远没有机会见到这种凶残的SMART数据

(此处假装有图,请自行脑补吧,当我把硬盘从中关村带回来以后,发现已经彻底报废了,通电吱吱吱尖叫,连SMART信息都读不出来了,现实就是这么残酷……)

      实际上SMART信息还是能够反映很多问题的。正如本文摘要中所说,一旦SMART信息出现异常就标志着硬盘盘片或磁头的老化或其他物理问题已经出现,需尽早更换或做好数据备份;如果财力允许,就不要等到重映射扇区数快速增长,此时往往已经为时晚矣。千万不要心存侥幸,自以为SMART信息仅仅是个参考、自认为自己是“砖业人士”,不管不顾继续强行使用或使用各种软件恢复工具进行操作,而是应该尽早交给专业的数据恢复人员使用专门的软硬件进行处理。术业有专攻,这件事非数据恢复的专业人士真的搞不定,切莫因小失大
活这么大,第一次在中关村的硬件维修行业见到了客户送的锦旗(而且有好多面),即便是RAID在物理损坏面前也都是渣渣,数不清的公司直接抱着磁盘阵列匣子过来修。看来实际生产中各种各样意想不到的诡异问题确实太多了:

img_4824

最后,在数据恢复中心待的这几天,见到了进门就痛哭流涕下跪求工程师的情况:京城某大型洗浴中心的网管不小心删掉了保存有会员信息和账户余额的数据库,而且进行了覆盖操作,洗浴中心的大老板是黑白两道通吃的大人物,最后一句话:数据恢复不了,你也不用活了。

转载时请保留出处,违法转载追究到底:进城务工人员小梅 » 数据无价,当心丢命,谨慎对待硬盘SMART信息

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址