これは2006年に以前のブログへ投稿したエントリーを、全面的に書き直したものです。
2006年以降、クラウド対応であったり一次ストレージにSSDを利用するなど、ハードディスクの業務現場での活用状況は大きく変化しました。read/writeを担うハードディスクの手前にSSDをキャッシュとして活用する実装、HCIによるRAIN構成など、ハードディスク障害の深刻さも以前に比べて軽減されたように感じます。
一方、大容量ハードディスクを採用したNASがコンシューマ領域に現れ、そのような機器が自宅で運用されるようになりました。むしろ当時のエントリーはコンシューマ向けにはまだ有用かもしれないと思い、書き直してみました。
参照している論文、その元になっているデータは10年以上前のものですが、判断材料のベースラインにはなるだろう、と思います。
それまで何も問題のなかったサーバーでも、電源を投入したとたんにディスク障害が発生することがあります。電源投入とともに、停止状態のディスクが瞬時に高速回転状態へ移行するため、負荷によって障害も発生することもあるでしょう。
とはいえ結論から言うと、電源投入時にディスクが破損する確率は目立って大きなものではありません。
次の論文は、disk scrubbingと呼ばれる定期的なディスク・アクセスを実施することによってディスクの信頼性を維持、向上させることを述べたものです。
Disk Scrubbing in Large Archival Storage Systems
ここで注目するのはdisk scrubbingではなく、論文中の5. Power Cycling and Reliabilityです。ディスクの電源投入期間と信頼性の関係について触れています。記述によれば、
・1日1回、電源投入し、ディスクを8時間稼働させて、電源切断する前提。
・このディスク稼働中の故障率は約0.53%。
・電源投入、断による故障率は、ディスク稼働中の故障率と同等、つまり0.53%。
言い換えると一度の電源投入に、ディスク稼働中の故障率と同等のリスクが存在していることになります。主観は人それぞれとはいえ、そのリスクは「電源投入時に限って、よく壊れるね」と言えるほどでもなさそうです。
業務現場では大量の本数のHDDを運用しています。仮に1000本のディスクを運用しているとして、年1度の停電対応を実施するとします。稼働時間などの前提は無視して先の確立を適用すれば、5本くらいは電源投入時に破損するかも、といった程度です。
停電対応のたびにディスクが1-2本壊れるのは、あり得る場面ということです。
そして、この見積もりが参照している数値、統計的分析が次の論文に記述されています。
※読み込みに時間がかかるので注意
ixbtlabs.com
ここではディスク稼働中の故障率について詳しく触れられています。2400時間/年の電源投入時間を前提に、累積故障率は1年目から10年目まで、1.2%から4.19%に推移すると見積もられています。
- 1年目:1.20%
- 3年目:2.18%
- 5年目:2.88%
- 9年目:3.96%
100人が同じディスクを購入し、同時に運用を開始したとすると、1年目で一人のディスクが故障し、10年目では4人のディスクが故障するわけです。
NASは24時間連続稼働で運用されているとして、そのような場合、故障率はさらに高まることになります。