2014年10月30日木曜日

情報を消去するのは大変

先日サーバーのハードディスクが故障しました。
ubuntu サーバーのlogwatchの通知メールで知りました。

ハードディスクの故障自体は珍しく無いのですが、今回の故障は故障の予兆から致命的な故障に至るまでが短く、その対処が大変でした。

この故障したサーバーは24時間稼働しているサーバーではなく、24時間稼働のサーバーのバックアップ用サーバーでメンテナンスの時だけ稼働している状態で、ハードディスクのS.M.A.R.T(自己診断)情報によれば5000時間程度で故障したことになります。
下記 log 9 ( Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       4982
つまり4982時間)

これまで突然死経験の無かったHGST(現在はWDに買収)製でしたから少し驚いたというのが正直なところです。
幸いにもRAID構成のため失ったデータはありませんでしたが、補償を受けるための手続き上故障品を返送する際の処理や手続きに苦慮しました。

今では珍しくもないですが、容量が2Tbyte..
ハードディスクに記録されているデータの破棄に手間取りました。
正常品でもフォーマットに数時間かかっていたので予想はしていましたが まさかの8000分!!!つまり133時間(5.5日間..) ハンマーで一撃処理と真剣に悩みました。

なぜならこのハードディスクは3年補償付きの製品で本来ならば3年×365日×24時間=26,000時間の寿命が補償されている製品で、その補償を受けるためには、外観に傷や損傷、開封シールが剥がれていない事や購入証明が無ければならないということで、ハンマーで一撃した場合は補償を受けられないと告げられました。

先ずは、サーバーの復旧を優先し、新規にHDDを発注し故障品は予備部品にすることにしました。 SATA-USBの変換を行い24時間サーバーにマウントしデータ上書き処理を走らせ 待つこと1週間..先ほどようやく終了したようです..

これから 梱包して送り返します。
やれやれ



smartctl -a /dev/sdb
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-61-generic] (local build)

Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net


=== START OF INFORMATION SECTION ===

Model Family:     Hitachi Deskstar 7K3000

Device Model:     Hitachi HDS723020BLA642

Serial Number:    MN1220F31xxxxxxx

LU WWN Device Id: 5 000cca 369d63b64

Firmware Version: MN6OA5C0

User Capacity:    2,000,398,934,016 bytes [2.00 TB]

Sector Size:      512 bytes logical/physical

Device is:        In smartctl database [for details use: -P show]

ATA Version is:   8

ATA Standard is:  ATA-8-ACS revision 4

Local Time is:    Tue Oct 14 10:05:45 2014 JST

SMART support is: Available - device has SMART capability.

SMART support is: Enabled


=== START OF READ SMART DATA SECTION ===

SMART overall-health self-assessment test result: FAILED!

Drive failure expected in less than 24 hours. SAVE ALL DATA.

See vendor-specific Attribute list for failed Attributes.


General SMART Values:

Offline data collection status:  (0x84) Offline data collection activity

                                        was suspended by an interrupting command from host.

                                        Auto Offline Data Collection: Enabled.

Self-test execution status:      (   0) The previous self-test routine completed

                                        without error or no self-test has ever

                                        been run.

Total time to complete Offline

data collection:                (19808) seconds.

Offline data collection

capabilities:                    (0x5b) SMART execute Offline immediate.

                                        Auto Offline data collection on/off support.

                                        Suspend Offline collection upon new

                                        command.

                                        Offline surface scan supported.

                                        Self-test supported.

                                        No Conveyance Self-test supported.

                                        Selective Self-test supported.

SMART capabilities:            (0x0003) Saves SMART data before entering

                                        power-saving mode.

                                        Supports SMART auto save timer.

Error logging capability:        (0x01) Error logging supported.

                                        General Purpose Logging supported.

Short self-test routine

recommended polling time:        (   1) minutes.

Extended self-test routine

recommended polling time:        ( 255) minutes.

SCT capabilities:              (0x003d) SCT Status supported.

                                        SCT Error Recovery Control supported.

                                        SCT Feature Control supported.

                                        SCT Data Table supported.


SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000b   055   055   016    Pre-fail  Always       -       384841376

  2 Throughput_Performance  0x0005   079   079   054    Pre-fail  Offline      -       1251

  3 Spin_Up_Time            0x0007   134   134   024    Pre-fail  Always       -       410 (Average 443)

  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       843

  5 Reallocated_Sector_Ct   0x0033   001   001   005    Pre-fail  Always   FAILING_NOW 405

  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0

  8 Seek_Time_Performance   0x0005   130   130   020    Pre-fail  Offline      -       28

  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       4982

 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       842

192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       1051

193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       1051

194 Temperature_Celsius     0x0002   253   253   000    Old_age   Always       -       20 (0 46 255 252)

196 Reallocated_Event_Count 0x0032   086   086   000    Old_age   Always       -       428

197 Current_Pending_Sector  0x0022   001   001   000    Old_age   Always       -       10548

198 Offline_Uncorrectable   0x0008   098   098   000    Old_age   Offline      -       205

199 UDMA


ラグチューキーパー Ragchew keeper rev4.3 復刻予定版 その⑤

 自動配線と ベタGND の配置が終わりました。 配線ルールは0.7mmです。 0.8mmでは自動配線が完了せずにジャンパーが数本残ってしまいました。 あとは削ってみてどうかといったところです。