Gehirn RS2 Plus Web サイト接続障害
Incident Report for Gehirn Web Services
Postmortem

Gehirn Web Services が 2022 年 5 月 31 日に実施した データベースメンテナンス において、 Gehirn RS2 Plus でホスティングしているお客さまの Web サイトにアクセスできなくなる障害が発生いたしました。

障害内容

Gehirn RS2 Plus が提供するお客様の Web ホスティング機能において、メンテナンス期間中、事前のご案内になく、また当社でも計画していなかった Web サイトに接続できない期間が発生しておりました。

Web サイトに接続できなくなっていた期間は 2022 年 5 月 31 日 20 時 14 分から同 17 分の 3 分間です。

ご不便・ご迷惑をおかけいたしましたことをお詫び申し上げます。

障害原因

Gehirn RS2 Plus Web ホスティング機能では、メンテナンスや障害などによりデータベースにアクセスできなくなった場合でも継続して Web リクエストに応答できるよう、お客さまの Web サイトの設定データの一部を Web サーバーのメモリ上にキャッシュしております。

今回のメンテナンスにおいても、このキャッシュによりデータベースに接続できなくなった直後は設計どおりキャッシュにより Web リクエストに応答できておりました。

しかし、キャッシュを管理するソフトウェアが、データベースに接続できない状態で古くなったキャッシュの更新処理が自動実行するとプロセスがクラッシュする不具合が存在しておりました。プロセスはクラッシュした後に自動再起動されるものの、メモリ上のすべてのキャッシュが揮発し、再度データベースに接続できるようになるまで Web リクエストへの応答ができなくなります。

この不具合により、プロセスがクラッシュした 20 時 14 分から、データベースに接続できるようになった同 17 分までの 3 分間において、すべての Web サイトに接続できなくなる障害が発生いたしました。

再発防止

本件障害の直接の原因となったソフトウェアの不具合はすでに特定し、修正が完了しております。古くなったキャッシュの更新処理の際にデータベースに接続できなかった場合も、継続して Web リクエストの応答ができることを自動テスト及び手動試験により確認しております。

また、もしほかの原因によりプロセスがクラッシュした場合に備え、当該プロセスと Web サーバープロセスが通信ができなくなった場合は、再度接続できるまで Web サーバープロセス内部のキャッシュを利用して Web リクエストに応答する多重の緩和策を実装いたしました。

なお、本件障害は 3 分間で自動回復したこともあり当時の当社のアラート基準を下回ったため、その発生をリアルタイムに認識することができておりませんでした。 Gehirn Web Services における全体的なアラート基準の見直し(厳格化)において、新しい基準に抵触する事象が過去になかったかを確認するバックテストにより本件障害を初めて認識いたしました。

今後、万が一同様の問題が発生した場合は新しいアラート基準により自動的に当社エンジニアに通知され、問題の解決にあたる体制となっております。

この度は障害によりご不便・ご迷惑をおかけいたしましたことをお詫び申し上げます。

ご不明な点・お気づきの点がございましたら Gehirn Web Services サポートセンターお問合せフォーム よりご連絡ください。

Posted Jun 09, 2022 - 23:15 JST

Resolved
Gehirn Web Services が 2022 年 5 月 31 日に実施したデータベースメンテナンスにおいて、 Gehirn RS2 Plus でホスティングしているお客さまの Web サイトにアクセスできなくなる障害が発生いたしました。
Posted May 31, 2022 - 20:14 JST