硬盘S.M.A.R.T含义

硬盘S.M.A.R.T含义


2023年11月29日发(作者:三星ex2f评测)

硬盘S.M.A.R.T技术含义

S.M.A.R.T的全称为“Self-Monitoring Analysis and Reporting Technology,即自我监测、分析及报告技术。支持S.M.A.R.T技术的硬盘

可以通过硬盘上的监测指令和主机上的监测软件对磁头、盘片、马达、电路的运行情况、历史记录及预设的安全值进行分析、比较。当

出现安全值范围以外的情况时,就会自动向用户发出警告。

S.M.A.R.T在何处?如何工作?

S.M.A.R.T信息保留在硬盘的系统保留区(service area)内,这个区域一般位于硬盘0物理面的最前面几十个物理磁道,由厂商写入

相关内部管理程序。除了S.M.A.R.T信息表外还包括低级格式化程序、加密解密程序、自监控程序、自动修复程序等。监测软件通过一

个名为“SMART RETURN STATUS”的命令(命令代码为:B0h)S.M.A.R.T信息进行读取,且不允许最终用户对信息进行修改。

S.M.A.R.T信息表由什么组成?

S.M.A.R.T标准中采用二进制代码作为S.M.A.R.T的基本指令,并规定写入标准的寄存器中,形成特定的S.M.A.R.T信息表,以供

正常检测和运行。S.M.A.R.T指令分主指令(Command)和次指令(Subcommands)。主指令主要提供设备是否支持S.M.A.R.T或忽略某一

次指令特征的信息。而次指令则提供支持S.M.A.R.T设备的检测信息。这些指令主要由设备厂商写入,一些专业硬盘维修软件可以通过

这些代码进行设备的检测。

ID检测代码

ID检测代码不是唯一的,厂商可以根据需要,使用不同的ID代码或根据检测参数的多少增减ID代码的数量。例如,西数公司的产

ID检测代码为“04”,检测的参数是Start/Stop Count(加电次数),而富士通公司同样代码的检测参数却为“Number of times the spindle

motor is activated”(电机激活时间)

属性描述

(Attribute Description)

属性描述(Attribute Description)即检测项目名称。可由厂商自定义增减,由于ATA标准不断更新,有时候同一品牌的不同型号产品

也会有所不同。但必须确保S.M.A.R.T规定的几个主要检测项目(虽然不同厂商对检测项目都有特定的命名规则,但这些监测项目的实质

其实是一样的)

Read Error Rate 错误读取率

Start/Stop Count 启动/停止次数(又称加电次数)

Relocated Sector Count 重新分配扇区数

Spin up Retry Count 旋转重试次数(即硬盘启动重试次数)

Drive Calibration Retry Count 磁盘校准重试次数

ULTRA DMA CRC Error Rate (ULTRA DMA奇偶校验错误率)

Multi-zone Error Rate 多区域错误率

Vendor-specific 厂商特性

需要注意的是,不同厂商、不同类型产品的属性描述不尽相同。对用户而言,无须深入了解它们的具体含义,只需了解属性监测值

的含义即可。

阈值

(Threshold)

又称门限值。是由硬盘厂商指定的可靠的属性值,通过特定公式计算而得。如果有一个属性值低于相应的阈值,就意味着硬盘将变

得不可靠,保存在硬盘里的数据也很容易丢失。可靠属性值的组成和大小对不同硬盘来说是有差异的。这里需要注意的是,ATA标准中

只规定了一些S.M.A.R.T参数,它没有规定具体的数值,“Threshold”的数值是厂商根据自己产品特性而确定的。因此,用厂商自己提供

的检测软件往往会跟Windows下的检测软件(例如AIDA32)的检测结果有较大出入。这里,我们推荐以厂商软件的检测结果为标准,因

Windows环境下,系统要求硬盘的启动程序比DOS下多得多,这可能导致硬盘S.M.A.R.T值比DOS环境下检测的波动更大。以参

Raw ErrorRate(错误读取率)为例:该参数的计算公式为10×log10(主机和硬盘之间所传输数据的扇区数512×8/重读的扇区数。其中

“512×8”是把扇区数转化为所传输的数据位(bits),这个值只在所传输的数据位处于10^1010^12范围时才作计算,而当Windows系统

启动后,主机和硬盘之间所传输的数据扇区大于或等于10^12时,此值将重新复位。这就是为什么有些值在不同的操作环境、不同检测

程序下时波动较大的原因。

属性值

(Attribute value)

属性值是指硬盘出厂时预设的最大正常值,一般范围为1253通常,最大的属性值等于100(适用于IBM、昆腾、富士通)253(

用于三星)。当然,也有例外的时候,比如由西部数据公司生产的部分型号硬盘,就用了两个不同的属性值,最初生产时属性值设为200

但后来生产的硬盘属性值又改为100

最大出错值

(Worst)

最大出错值是硬盘运行中曾出现过的最大的非正常值。它是对硬盘累计运行的计算值,根据运行周期,该数值会不断地刷新,并且

会非常接近阈值。S.M.A.R.T分析和判定硬盘的状态是否正常,就是根据这个数值和阈值的比较结果而定。新硬盘开始时有最大的属性值,

但随着日常使用或出现错误,该值会不断减小。因此,较大的属性值意味着硬盘质量较好而且可靠性较高,而较小的属性值则意味着故

障发生的可能性增大。

实际值

(Date)

是硬盘各检测项目运行中的实际数值,很多项目是累计值。例如:图3中的Start/Stop Count(启停次数),累计的实际值是436,即

该硬盘从开始到现在累计加电启停436次。

属性状态

(Status)

这是S.M.A.R.T针对前面的各项属性值进行比较分析后,提供的硬盘各属性目前的状态,也是我们直观判断硬盘健康状态的重要信

息。根据S.M.A.R.T的规定,这种状态一般有正常、警告和报告故障或错误等3种状态。S.M.A.R.T判定出这3个状态与S.M.A.R.T

Pre-failure/advisory BIT(预知错误/发现位)参数的赋值密切相关。

Pre-failure/advisory BIT=0,并且可靠属性值远大于阈值的情况下,为正常提示“OK”标志。当Pre-failure/advisory BITt=0,并且

可靠属性值大于阈值但接近阈值临界值时,为警告提示标志;当Pre-failure/advisory BITt=1,并且可靠属性值小于阈值时,为报告故

障或错误提示标志。

在图2中,我们发现出现“OK”标志的正常状态下有值正常”(Value is Normal)总是略过”(Always Passing)两个状态说明。它们的区

别是:值正常表明此项S.M.A.R.T值是正常的,硬盘没有故障;永远略过则表明此项只是某参数的记录,没有合格与不合格的标准,

“Power on time count”,这个参数只是记录了硬盘已经加电工作的时间,这个参数应当永远合格,它不用来衡量硬盘的性能,因此显示

“OK:Value is Normal”

下面我们以ID“04”Start/Stop Count(加电次数)检测参数为例,完整地来理解这7列参数的意义:从图2中我们看到此参数规定

的属性正常值(Attribute value)“100”,这个正常值是通过计算公式:“100-硬盘正常使用寿命期间的加电次数/1024”而给出的。而最大出

错值是硬盘运行的累计计算值。例如如果是新硬盘,则加电次数为0,因此为100-0/1024100,最大出错值=属性正常值。随着加电次

数的增加,该最大出错值不断变化。厂商规定的阈值为20,即当硬盘的开关电次数达到81920次时(100-81920/1024=20),最大出错值

=阈值,系统就会提示用户备份数据。因此,加电次数在81920次范围之内,并且最大出错值始终大于阈值20的状态下,均为正常。

图中的加电次数(Date实际值)107次,因此最大出错值近似为100,状态显示为“OK:Value is Normal(值正常)”。需要特别注意的是:

每一个参数所给出的值都是经过一些特定的计算公式而给出的。作为用户,只要观察“Worst”“Threshold”值的关系,并注意状态提示属

性状态信息即可大致了解硬盘的健康状况。

SCSI系统中的S.M.R.A.T技术

由于目前硬盘领域存在ATASCSI两种标准,所以不可否认,S.M.A.R.T技术是同时支持这两个系列的产品的,只是在一些参数

设定上存在一些差异,在关键参数上SCSIATA硬盘更为复杂。但在实际运作中,由于用户和使用环境不同,S.M.A.R.TATA/IDE

系统的干预比SCSI系统要多一些,而对SCSI故障的判定更为专业和准确些。SCSI硬盘的S.M.A.R.T技术与ATA硬盘的S.M.A.R.T

术相比更为复杂,以下仅列举SCSI硬盘所特有参数中的一部分。

Primary Temp:硬盘盘体的工作温度

Secondary TempPCB板周围的工作温度

Min and Max Temp:在一段时间内硬盘盘体的最高和最低工作温度

Velocity Observer Count:在一段时间内伺服寻道时偏离指定磁道的次数

12V12V供电电压值

5V5V供电电压值

MR ResMR磁头的电阻值

Sectors Read:在一段时间内从硬盘中读取的扇区数

Sectors Written:在一段时间内数据写入硬盘中的扇区数

ATA/IDE环境下,由主机上的软件对S.M.A.R.T“报告状态命令生成的、来自硬盘的报警信号进行解读。主机对硬盘进行查询,以

检查这一命令的状态,如果显示马上要发生故障,就将告警信号送至最终用户或系统管理员。系统管理员就安排关机时间,以备份数据

和更换硬盘。主系统除对来自硬盘的报告状态命令进行评估外,还可对属性和告警报告进行评估。在SCSI环境下,S.M.A.R.T则只报

状况完好出现故障。由硬盘进行故障判断,再由主机通知用户采取措施。在SCSI标准中有一个检测位,当硬盘确定可靠性出现

问题时,检测位就打上标记并通知最终用户或系统管理员,采取相应措施。

S.M.A.R.T的预测效果

通常我们面对的硬盘故障可以分为两大类:不可预测和可预测。

不可预测故障,通常指不可预料的电子和机械故障,这类故障发生在瞬间,如硬盘加电状态意外碰撞导致硬盘磁头撞击盘片,或瞬

间电流过大引起的芯片或电路故障。通常是在S.M.A.R.T反映出性能下降之前,硬盘就已经不能工作。而这些只可通过质量、设计、工

艺、制造等方面的改进以及使用过程中规范操作来降低不可预测故障的发生率(例如硬盘防震技术的开发和进展,有效降低了硬盘震动物

理故障的概率)

可预测故障具有在硬盘完全不能工作前,其相应的参数会随时间发生变化的特点。根据这一特点,可以通过S.M.A.R.T此类实时信

息检测技术监测其属性来进行故障预测、分析和提供建议,从而加以防范。此类故障中包括软件故障和硬件故障。例如许多机械故障都

被看作是典型的可预测故障,S.M.A.R.T技术对于此类故障就有了用武之地,在发生故障之前,可以发出提醒用户备份数据的通知,保护

用户的数据。

据研究数据表明,利用S.M.A.R.T技术可预测的硬盘故障中,60%为机械性质的,40%左右则是对软性故障的有效预测。随着

S.M.A.R.T技术及相关技术的渐渐成熟,可预测出的故障种类将越来越多,对故障的防范措施也会变得越来越有效。当然,对不想开启

S.M.A.R.T技术的读者而言,也可以在BIOS设置的“Advanced BIOS Set Up”选项中将其关闭

特殊问题的解答

1.组建RAID之后,S.M.A.R.T是否仍然生效?

用户组建RAID之后,S.M.A.R.T功能仍然有效,但是这需要RAID卡控制芯片支持S.M.A.R.T功能。实际上,RAID卡的S.M.A.R.T

报警功能与硬盘在常规状态下的报错信息并无太大差别。报警时,相应模块所对应的硬盘指示灯(通常为红色)会长亮以起到警示作用。

2.为什么监测不到USB接口外置硬盘的S.M.A.R.T状态?

对于一个USB接口外置硬盘而言,系统将它判定为一个USB设备,监测不到S.M.A.R.T信息是因为USB标准中没有此项规定。此

时虽然硬盘自身仍然在记录S.M.A.R.T状态,但由于它是USB外设,系统就不会监测它的S.M.A.R.T状态。

3.S.M.A.R.T功能对系统性能是否有影响?

硬盘记录S.M.A.R.T信息有两种方式,第一种是在线(On-line)”收集,所谓在线收集就是硬盘在工作时,根据硬盘的实际工作状态收

集到的信息,硬盘实时或在指定时间段内更新自身的S.M.A.R.T数据。举例来说,如果一个ATA硬盘在写入数据到一个扇区时,遇到一

个不可修正的错误,硬盘会及时把这个信息更新到SMART数据中;对于SCSI硬盘,如果它设定的S.M.A.R.T更新周期是4分钟,则

它会把在4分钟内收集到的相关S.M.A.R.T信息更新到S.M.A.R.T数据区,然后再开始下一个周期的跟踪。在线收集状态对系统性能没

有影响。

第二种是离线(off-line)”收集,离线收集是硬盘收到主机发来的一些特定指令时而进行自检测试,此时硬盘会处于“idel”状态或错误修

正状态,在这类情况下,硬盘自身将作大量动作以测试健康状态,导致硬盘对主机发出的正常要求产生延迟。所以离线收集状态会造成

系统性能的下降。

4.S.M.A.R.T技术对相关信息的记录是否有周期性?

对于SCSI硬盘而言,记录S.M.A.R.T信息有周期性,一般情况下周期处于4分钟~120分钟之间。这个值在硬盘出厂时就已设定,

并且只能通过专业软件进行修改;而对于ATA硬盘,S.M.A.R.T信息的记录则没有周期性。


发布者:admin,转转请注明出处:http://www.yc00.com/num/1701224941a1062143.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信