SSDサーバーがSSD3台 同時故障でダウン ~大田区は、NECと損害賠償について和解~

 2024年4月17日 大田区から「令和5年10月に発生した情報システムの障害について」のニュースリリースがありました。

 その内容は、「2023年10月10日に発生した、記録媒体(SSDストレージ)のうち、ほぼ同時のSSD3本の故障に起因するシステム障害に対し、情報システム基盤の運用・保守を委託している日本電気株式会社と和解を締結した。その損害賠償は、総額4,868,437円である」

 SSDの3台同時故障が発生した原因は、「特定バージョンの製品にのみ発生する障害で、その製品の修正情報(ファームウェアバージョンアップ等)について事業者製造部門から事業者運用保守部門へ案内があったにもかかわらず、区に対しての情報提供がなく、アップデート等の対応ができてなかった」としています。

 このサーバについては、「構築当時よりSSDの故障について2本までは耐えうる構成をとっておりました」とのことから、RAID6の構成であったと推測されます。
 この構成で良しとするならば3台同時故障は起きないという前提であったようです。
 今回は、この前提が覆ったことになります。

■SSDとHDDでは、故障の仕方が違う。

 このことは、ご存知ですか? HDDは、エラーが間欠的に発生し故障の予兆があった後、実際の故障に至ることが多いですが、SSDは突然死が多いとのことです。また、ファームウェア制御の影響も強く受けます。ですので、ファームウェアのバグによる故障が金輪際起きないとは言えないのです。ですので、SSDを使う場合は、単純に多重化するだけでは、サーバーダウンは防げないと考えておかないといけないようです。

 SSDは速くて大容量なだけに、その障害をどこまで考えておくがより重要になってきます。

■データー消失にならないように

 今回のシステム障害では、保存データを失ったという報告がありませんでした。きっと処理系サーバーでの障害だったのでしょう。これがデータ保存系のサーバで発生していたらデータ消失につながったかも知れません。

 データ保存系のサーバーでは、さらに慎重にデータ消失対策をしましょう。これはクラウドに移せば、逃れられるものではないことも肝に銘じておく必要があります。

 いかがですか、皆さんも自部門のレベルアップのために、文書情報マネージャー認定セミナーを受講して、基本から応用までを学びませんか。募集要項はこちら。