ubuntu サーバーのlogwatchの通知メールで知りました。
ハードディスクの故障自体は珍しく無いのですが、今回の故障は故障の予兆から致命的な故障に至るまでが短く、その対処が大変でした。
この故障したサーバーは24時間稼働しているサーバーではなく、24時間稼働のサーバーのバックアップ用サーバーでメンテナンスの時だけ稼働している状態で、ハードディスクのS.M.A.R.T(自己診断)情報によれば5000時間程度で故障したことになります。
下記 log 9 ( Power_On_Hours 0x0012 100 100 000 Old_age Always - 4982
つまり4982時間)
これまで突然死経験の無かったHGST(現在はWDに買収)製でしたから少し驚いたというのが正直なところです。
幸いにもRAID構成のため失ったデータはありませんでしたが、補償を受けるための手続き上故障品を返送する際の処理や手続きに苦慮しました。
今では珍しくもないですが、容量が2Tbyte..
ハードディスクに記録されているデータの破棄に手間取りました。
正常品でもフォーマットに数時間かかっていたので予想はしていましたが まさかの8000分!!!つまり133時間(5.5日間..) ハンマーで一撃処理と真剣に悩みました。
なぜならこのハードディスクは3年補償付きの製品で本来ならば3年×365日×24時間=26,000時間の寿命が補償されている製品で、その補償を受けるためには、外観に傷や損傷、開封シールが剥がれていない事や購入証明が無ければならないということで、ハンマーで一撃した場合は補償を受けられないと告げられました。
先ずは、サーバーの復旧を優先し、新規にHDDを発注し故障品は予備部品にすることにしました。 SATA-USBの変換を行い24時間サーバーにマウントしデータ上書き処理を走らせ 待つこと1週間..先ほどようやく終了したようです..
これから 梱包して送り返します。
やれやれ
smartctl -a /dev/sdb
smartctl 5.41
2011-06-09 r3365 [x86_64-linux-3.2.0-61-generic] (local
build)
Copyright (C) 2002-11
by Bruce Allen,
http://smartmontools.sourceforge.net
=== START OF
INFORMATION SECTION ===
Model Family:
Hitachi Deskstar
7K3000
Device Model:
Hitachi
HDS723020BLA642
Serial Number:
MN1220F31xxxxxxx
LU WWN Device Id: 5
000cca 369d63b64
Firmware Version:
MN6OA5C0
User Capacity:
2,000,398,934,016 bytes [2.00 TB]
Sector Size: 512
bytes logical/physical
Device is: In
smartctl database [for details use: -P show]
ATA Version is:
8
ATA Standard is:
ATA-8-ACS revision 4
Local Time is: Tue
Oct 14 10:05:45 2014 JST
SMART support is:
Available - device has SMART capability.
SMART support is:
Enabled
=== START OF READ SMART
DATA SECTION ===
SMART overall-health
self-assessment test result: FAILED!
Drive failure expected
in less than 24 hours. SAVE ALL DATA.
See vendor-specific
Attribute list for failed Attributes.
General SMART
Values:
Offline data collection
status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution
status: ( 0) The previous self-test routine
completed
without error or no self-test has ever
been run.
Total time to complete
Offline
data
collection: (19808) seconds.
Offline data
collection
capabilities:
(0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART
capabilities: (0x0003) Saves SMART data before
entering
power-saving mode.
Supports SMART auto save timer.
Error logging
capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling
time: ( 1) minutes.
Extended self-test
routine
recommended polling
time: ( 255) minutes.
SCT
capabilities: (0x003d) SCT Status
supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data
Structure revision number: 16
Vendor Specific SMART
Attributes with Thresholds:
ID#
ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED
WHEN_FAILED RAW_VALUE
1
Raw_Read_Error_Rate 0x000b 055 055 016 Pre-fail Always
- 384841376
2
Throughput_Performance 0x0005 079 079 054 Pre-fail Offline
- 1251
3
Spin_Up_Time 0x0007 134 134 024 Pre-fail Always
- 410 (Average 443)
4
Start_Stop_Count 0x0012 100 100 000 Old_age Always
- 843
5
Reallocated_Sector_Ct 0x0033 001 001 005 Pre-fail Always
FAILING_NOW 405
7
Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always
- 0
8
Seek_Time_Performance 0x0005 130 130 020 Pre-fail Offline
- 28
9
Power_On_Hours 0x0012 100 100 000 Old_age Always
- 4982
10
Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always
- 0
12
Power_Cycle_Count 0x0032 100 100 000 Old_age Always
- 842
192
Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always
- 1051
193
Load_Cycle_Count 0x0012 100 100 000 Old_age Always
- 1051
194
Temperature_Celsius 0x0002 253 253 000 Old_age Always
- 20 (0 46 255 252)
196
Reallocated_Event_Count 0x0032 086 086 000 Old_age Always
- 428
197
Current_Pending_Sector 0x0022 001 001 000 Old_age Always
- 10548
198
Offline_Uncorrectable 0x0008 098 098 000 Old_age Offline
- 205
199
UDMA
0 件のコメント:
コメントを投稿