この記事について
システム障害は突然やってくる。そして多くの現場では、障害対応のノウハウはベテランの頭の中にしかない。新人は「ぶっつけ本番」で現場に放り込まれ、うまくいけば経験値になるが、失敗すれば被害を拡大する側になる。
本書はそんな障害対応の暗黙知を体系化し、個人と組織の障害対応力を底上げすることを目的とした一冊です。改訂新版では教育・訓練・手順書作成・エンドユーザ向け情報発信の章が新設され、さらに生成AIの活用についても触れられています。
どんな本か?
NRI(野村総合研究所)で金融系システムの開発・運用に携わり、数多くの障害対応を経験してきた著者が、障害対応のプロセス・基本動作・ドキュメント・ツール・組織体制を体系的にまとめた解説書です。
障害の検知から原因調査、業務影響調査、復旧対応、事後対応まで、障害対応の全プロセスをカバーしています。類書がほとんどない分野であり、SREやインフラエンジニアの間では必読書として定着しつつあります。
本書の構成
本書は大きく「基本編」と「ワークブック編」の2部構成です。
基本編(第1〜8章)
インシデントコマンダーという概念
本書の大きな貢献の一つは、障害対応の現場で指揮を執る人の役割を「インシデントコマンダー」として明確に定義したことです。
障害発生時、ホワイトボードの前で大声を出して場を仕切っている人はいるが、その人が「何をすべきか」は明文化されていなかった。本書はインシデントコマンダーの責務と基本動作を具体的に整理し、作業担当・ユーザ担当・CIOそれぞれの役割も明確にしています。
自分メモ: 自チームでは障害時の指揮系統が曖昧で、「誰がインシデントコマンダーか」を明示せずに対応を始めてしまうことがある。結果、複数人が別々の判断で動いてしまい混乱が広がるパターンを何度か経験した。本書を読んで「最初にやるべきはインシデントコマンダーを宣言すること」だと確信した。
障害対応の各プロセス
検知・事象の確認 → 業務影響調査 → 原因調査 → 復旧対応 → 事後対応という流れが、各ステップで「何を」「誰が」「どの順番で」やるべきかまで具体的に解説されています。
特に重要だと感じたのは、原因特定より復旧を優先するという原則です。障害発生時、エンジニアはつい原因を突き止めたくなりますが、ユーザにとっては原因が分かることより一刻も早くサービスが復旧することのほうが重要です。
必要なドキュメントとツール
障害対応フロー図、オンコールシフト表、障害レベル管理表、障害状況ボード、作業タイムチャートなど、事前に準備しておくべきドキュメント類が網羅されています。また、War Room(障害対応の司令室)の設計やシステム監視ダッシュボードについても解説されています。
ワークブック編(第9〜12章)― 改訂新版で新設
教育と育成
障害対応スキルの教育は難しい。二度と同じ障害は起きないので反復訓練ができず、緊急時にはベテランが出動するため若手に経験が回らない。この構造的な問題に対して、スキルチェックシートを使った段階的な育成フローが提示されています。
障害対応訓練
訓練シナリオの立て方、実施要領、振り返りの方法まで具体的に解説されています。実際に訓練を実施している組織の事例も参考になります。
事故を防ぐ手順書の作り方
ヒューマンエラーの分類と、エラーを防ぐための手順書の書き方。復旧作業中の二次障害を防ぐための実践的なノウハウです。
エンドユーザ向けの情報発信
障害発生時にユーザに何を・いつ・どう伝えるか。技術的な対応だけでなく、コミュニケーション面まで踏み込んでいるのが本書の良いところです。
AI時代の障害対応を考える
AIが監視を自動化しても「判断」は人間の仕事
改訂新版では生成AIのシステム運用への応用についても触れられています。AIによるログ分析、異常検知、影響範囲の推定など、障害の検知・初動分析をAIが支援する場面は増えていくでしょう。
しかし、「このまま様子を見るか、すぐに切り戻すか」「顧客に通知するか、もう少し調査してからにするか」といった判断はAIには任せられません。特に金融系など影響の大きいシステムでは、判断の誤りが直接的な損害につながります。AIが情報を集め、人間が判断する。その連携の設計こそが、これからの障害対応のカギになると感じました。
AIエージェント自体が障害の原因になる時代
AIエージェントが業務プロセスに組み込まれるようになると、AIエージェントの異常動作やハルシネーション(幻覚出力)がシステム障害の原因になるケースが出てきます。
従来のシステム障害は「サーバが落ちた」「DBの接続が切れた」など、比較的原因が特定しやすいものが中心でした。しかしAIエージェント起因の障害は、「出力が間違っていたが、一見正しそうに見えた」「特定の入力パターンでのみ異常動作する」など、検知も原因特定も格段に難しくなります。
本書のインシデントコマンダーの考え方や、障害レベルの管理表の仕組みは、こうしたAI起因の障害にも応用できるフレームワークです。AIエージェントの出力を監視し、異常を検知し、フォールバック(代替手段)に切り替える ―― この一連のプロセスも「障害対応」として設計しておくべき時代になっています。
自分メモ: 自チームでもAIエージェントを業務に組み込み始めているが、「AIが間違えたらどうするか」の障害対応フローはまだ整備できていない。本書のフレームワークをベースに、AI起因の障害対応手順を設計したい。特に「AIの出力が間違っているが、それに気づけない」ケースへの対策が急務。
こんな人におすすめ
- システム運用・保守に携わるエンジニア
- SRE、インフラエンジニア
- 障害対応時に指揮を執る立場のマネージャー
- チームの障害対応力を組織的に向上させたいリーダー
- AIを業務に導入しており、AIの障害対応も考えなければならない人
- 「新人のとき、この本があれば」と思うすべてのエンジニア
まとめ
『システム障害対応の教科書』は、これまで暗黙知として属人化していた障害対応のノウハウを、初めて体系的にまとめた貴重な一冊です。
障害対応は「起きてから考える」では遅い。事前に体制・プロセス・ドキュメントを整え、訓練を繰り返し、組織としての対応力を高めておくことが、いざというときのユーザ影響を最小限にする。本書はそのための包括的なガイドです。
AIがシステムの一部になりつつある今、障害の原因も対応の手段も変わりつつあります。しかし、インシデントコマンダーを中心とした指揮系統の設計、復旧優先の原則、チームの育成と訓練といった本書の骨格は、技術がどう変わっても通用する普遍的なフレームワークです。
👉 『【改訂新版】システム障害対応の教科書』をAmazonで見る
※この記事にはAmazonアソシエイトのリンクが含まれています。