やーまんぶろぐ

気が向いた時にだけ書くブログ

【書評・備忘録】『【改訂新版】システム障害対応の教科書』― 障害対応の「暗黙知」を体系化した、現場の必携書

この記事について

システム障害は突然やってくる。そして多くの現場では、障害対応のノウハウはベテランの頭の中にしかない。新人は「ぶっつけ本番」で現場に放り込まれ、うまくいけば経験値になるが、失敗すれば被害を拡大する側になる。

本書はそんな障害対応の暗黙知を体系化し、個人と組織の障害対応力を底上げすることを目的とした一冊です。改訂新版では教育・訓練・手順書作成・エンドユーザ向け情報発信の章が新設され、さらに生成AIの活用についても触れられています。

書籍情報

項目 内容
書名 【改訂新版】システム障害対応の教科書
著者 木村誠明
出版社 技術評論社
発売日 2024年4月(改訂新版)

👉 Amazonで見る

どんな本か?

NRI(野村総合研究所)で金融系システムの開発・運用に携わり、数多くの障害対応を経験してきた著者が、障害対応のプロセス・基本動作・ドキュメント・ツール・組織体制を体系的にまとめた解説書です。

障害の検知から原因調査、業務影響調査、復旧対応、事後対応まで、障害対応の全プロセスをカバーしています。類書がほとんどない分野であり、SREやインフラエンジニアの間では必読書として定着しつつあります。

本書の構成

本書は大きく「基本編」と「ワークブック編」の2部構成です。

基本編(第1〜8章)

インシデントコマンダーという概念

本書の大きな貢献の一つは、障害対応の現場で指揮を執る人の役割を「インシデントコマンダー」として明確に定義したことです。

障害発生時、ホワイトボードの前で大声を出して場を仕切っている人はいるが、その人が「何をすべきか」は明文化されていなかった。本書はインシデントコマンダーの責務と基本動作を具体的に整理し、作業担当・ユーザ担当・CIOそれぞれの役割も明確にしています。

自分メモ: 自チームでは障害時の指揮系統が曖昧で、「誰がインシデントコマンダーか」を明示せずに対応を始めてしまうことがある。結果、複数人が別々の判断で動いてしまい混乱が広がるパターンを何度か経験した。本書を読んで「最初にやるべきはインシデントコマンダーを宣言すること」だと確信した。

障害対応の各プロセス

検知・事象の確認 → 業務影響調査 → 原因調査 → 復旧対応 → 事後対応という流れが、各ステップで「何を」「誰が」「どの順番で」やるべきかまで具体的に解説されています。

特に重要だと感じたのは、原因特定より復旧を優先するという原則です。障害発生時、エンジニアはつい原因を突き止めたくなりますが、ユーザにとっては原因が分かることより一刻も早くサービスが復旧することのほうが重要です。

必要なドキュメントとツール

障害対応フロー図、オンコールシフト表、障害レベル管理表、障害状況ボード、作業タイムチャートなど、事前に準備しておくべきドキュメント類が網羅されています。また、War Room(障害対応の司令室)の設計やシステム監視ダッシュボードについても解説されています。

ワークブック編(第9〜12章)― 改訂新版で新設

教育と育成

障害対応スキルの教育は難しい。二度と同じ障害は起きないので反復訓練ができず、緊急時にはベテランが出動するため若手に経験が回らない。この構造的な問題に対して、スキルチェックシートを使った段階的な育成フローが提示されています。

障害対応訓練

訓練シナリオの立て方、実施要領、振り返りの方法まで具体的に解説されています。実際に訓練を実施している組織の事例も参考になります。

事故を防ぐ手順書の作り方

ヒューマンエラーの分類と、エラーを防ぐための手順書の書き方。復旧作業中の二次障害を防ぐための実践的なノウハウです。

エンドユーザ向けの情報発信

障害発生時にユーザに何を・いつ・どう伝えるか。技術的な対応だけでなく、コミュニケーション面まで踏み込んでいるのが本書の良いところです。

AI時代の障害対応を考える

AIが監視を自動化しても「判断」は人間の仕事

改訂新版では生成AIのシステム運用への応用についても触れられています。AIによるログ分析、異常検知、影響範囲の推定など、障害の検知・初動分析をAIが支援する場面は増えていくでしょう。

しかし、「このまま様子を見るか、すぐに切り戻すか」「顧客に通知するか、もう少し調査してからにするか」といった判断はAIには任せられません。特に金融系など影響の大きいシステムでは、判断の誤りが直接的な損害につながります。AIが情報を集め、人間が判断する。その連携の設計こそが、これからの障害対応のカギになると感じました。

AIエージェント自体が障害の原因になる時代

AIエージェントが業務プロセスに組み込まれるようになると、AIエージェントの異常動作やハルシネーション(幻覚出力)がシステム障害の原因になるケースが出てきます。

従来のシステム障害は「サーバが落ちた」「DBの接続が切れた」など、比較的原因が特定しやすいものが中心でした。しかしAIエージェント起因の障害は、「出力が間違っていたが、一見正しそうに見えた」「特定の入力パターンでのみ異常動作する」など、検知も原因特定も格段に難しくなります。

本書のインシデントコマンダーの考え方や、障害レベルの管理表の仕組みは、こうしたAI起因の障害にも応用できるフレームワークです。AIエージェントの出力を監視し、異常を検知し、フォールバック(代替手段)に切り替える ―― この一連のプロセスも「障害対応」として設計しておくべき時代になっています。

自分メモ: 自チームでもAIエージェントを業務に組み込み始めているが、「AIが間違えたらどうするか」の障害対応フローはまだ整備できていない。本書のフレームワークをベースに、AI起因の障害対応手順を設計したい。特に「AIの出力が間違っているが、それに気づけない」ケースへの対策が急務。

こんな人におすすめ

  • システム運用・保守に携わるエンジニア
  • SRE、インフラエンジニア
  • 障害対応時に指揮を執る立場のマネージャー
  • チームの障害対応力を組織的に向上させたいリーダー
  • AIを業務に導入しており、AIの障害対応も考えなければならない人
  • 「新人のとき、この本があれば」と思うすべてのエンジニア

まとめ

『システム障害対応の教科書』は、これまで暗黙知として属人化していた障害対応のノウハウを、初めて体系的にまとめた貴重な一冊です。

障害対応は「起きてから考える」では遅い。事前に体制・プロセス・ドキュメントを整え、訓練を繰り返し、組織としての対応力を高めておくことが、いざというときのユーザ影響を最小限にする。本書はそのための包括的なガイドです。

AIがシステムの一部になりつつある今、障害の原因も対応の手段も変わりつつあります。しかし、インシデントコマンダーを中心とした指揮系統の設計、復旧優先の原則、チームの育成と訓練といった本書の骨格は、技術がどう変わっても通用する普遍的なフレームワークです。

👉 『【改訂新版】システム障害対応の教科書』をAmazonで見る

※この記事にはAmazonアソシエイトのリンクが含まれています。