2021年10月5日、インスタグラムやフェイスブック、ワッツアップなど、フェイスブックのあらゆるサービスがダウンし、世間を騒がせた。読者のなかには、サービスを利用できなくて、困った人も多いのではないだろうか。なぜ、サービスに障害が起こったのか。
今回は、フェイスブックのエンジニアリングやインフラの担当バイスプレジデントであるSantosh Janardhan氏が分かりやすく解説した内容について紹介しよう。
データセンターをつなぐ、重要なネットワークがダウン
同氏の発表によると、今回の障害は基幹回線の容量を管理する「バックボーン」に起因しているとのこと。ユーザーがフェイスブックのアプリでやりとりするデータは、すべてこのバックボーンネットワークを介してフェイスブックのデータセンターで処理される。しかしそんなバックボーンに障害が起きたことで、ユーザーがアクセスできない事態が発生したようだ。
この障害の直接的な原因は、バックボーンネットワークのメンテナンス中に発生したものだという。メンテナンス作業をしていたフェイスブックの技術者が、グローバルなバックボーンネットワークの容量の可用性をチェックするためのコマンドを発信。この時、バックボーンネットワークのあらゆる接続が停止してしまい、フェイスブックにおける全世界のデータセンター網が切断されてしまったとのこと。フェイスブックではこうした事態を防ぐために、ネットワーク全体に影響が出るようなコマンドを監視するツールを使っているのだが、このツールがバグで機能しなかったため、コマンドをストップさせることはできなかったようだ。
今回の障害では、前述したデータセンターにアクセスできないという問題の他に、データセンターとユーザーをつなぐ小規模な施設への影響も確認されている。この施設では、DNSクエリへの応答を行う役割を担っている。DNSとは、ユーザーがブラウザに入力するアドレスを特定のサーバーのIPアドレスに変換するため、インターネットのアドレス帳と呼ばれているもの。フェイスブックでは、この変換したIPアドレス情報をボーダー・ゲートウェイ・プロトコル(BGP)という通信規格を介して他の地域のインターネットに受け渡している。そのため、DNSサーバーがデータセンターと通信できなくなった。
DNSサーバーがデータセンターと通信できなくなると、ネットワークの安全性のためにBGPを使ったネットワーク管理情報のやりとりが無効になる。そのため、DNSサーバーが動作していたとしても通信できないため、「サーバーは稼働しているのに通信ができないという状況に陥ったという。
世界中の人がどこにいても使えるデジタル技術は、私たちの生活をとても便利にしてくれる。しかしひとたびトラブルが起こると、世の中に大きな影響を与えることが改めてわかった。先日も「モバイルSuica」でチャージができない不具合も発生していた。これも便利になったからこそ、一度失ってしまったときにダメージが大きい一例と言えそうだ。
今後開発されるデジタル技術には「トラブル発生にも強い」という側面が求められるだろう。
参照元:なぜFacebookが6時間もダウンしたのかをFacebook幹部が専門家でなくても分かるように説明【GIGAZINE】
※サムネイル画像(Image:Primakov / Shutterstock.com)