@sinamon129さんの「システム障害との向き合い方」をもう一度読んだ

@sinamon129さんの「システム障害との向き合い方」をもう一度読んでみました。

このご発表を聞いた当時はシステム障害を経験したことがありませんでしたが、先日まさにシステム障害を経験することがあったからです。

そのスライドが以下です!!

 

speakerdeck.com

 

 

 

自分の状況と照らし合わせてみる

自分の前提は以下のような感じです

・受託

ウェブアプリケーション

・プロジェクトに関わる人はインフラエンジニア1名、アプリ側エンジニア3名、PO1名

  

このスライドの中でシステム障害の種類として、以下の5つを挙げてくださっておりました。

①開発時の実装ミス(バグ)

②手動操作のミス

③ アクセスの急増

④使用しているサービスの不具合

⑤これらの複合

今回自分が経験したのは③のアクセスの急増が原因の障害でした。

 

そして現在自分の関わっているプロジェクトは、

発生 → 発覚 → 調査 → 一時対応 → 収束 → 振り返りと恒久対応

という順番の「収束」の段階で、これから恒久対応していくという段階です。

 

  

心に残った部分と感想その他

ご講演を聞いてもシステム障害を経験したことのなかった自分には理解しきれない所が多かったのですが、今読み返してみると「なるほど!!これは大事だ!!これは気をつけていきたい!!」と思えるようになった部分がありました。

 

スライドにも書かれておりましたが、戦力にならなくても率先して参加し、発生した障害を学びに変えていきたいと思います!!

そして連絡すべきことは担当の人にしっかり連絡し、一人でできない部分はきちんと周りの人にきく、ということも気をつけていこうと思います。

 

さらに、障害を起こさないために普段コードを書いたりレビューする段階で、

「条件分岐を意識し、細かい書き方より条件があっているかを確実にする」

「変更が意図しない部分に影響を与える実装になっていないか確認する」

「変更はロールバックできる状態にする」

というのも実行していきたいです!!