エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください
Twitterで共有ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します
はじめに GKE クラスタを運用中に、WebSocket の接続が定期的に同時に 4000 近く送信タイムアウトが発生... はじめに GKE クラスタを運用中に、WebSocket の接続が定期的に同時に 4000 近く送信タイムアウトが発生して切断される、という障害に遭遇しました。クライアントからみると WebSocket の再接続をすれば済むと思うかもしれませんが、この切断は TCP 経路中のネットワーク遮断によるものなので、これを通信の両端が検知するまでにはどうやっても時間がかかるため、その間の WebSocket 経由のメッセージのやり取りに支障が発生することは避けられません。また、WebSocket 接続の終了処理リクエストとその後の再接続に伴う確立処理リクエストのスパイクは予期せぬバックエンドの負荷につながります。 障害の原因は特定して コンテナ ネイティブの負荷分散に切り替えることで解消されました。このエントリーでは、障害の発生条件・原因・対応策を簡単にまとめます。GKE に限定して書きますがそれ