ネットワーク遅延の犯人
朝来てPCを立ち上げ、いつも通りに仕事を開始する。
業務を進めれば進めるほど積もる小さなイライラ。
マウスをカチカチクリックして、5秒後に表示される画面。
そうです。オフィスワーカーの心をうっすらと覆い、積もっていくストレスを作る『ネットワークの遅延』です。
インフラの仕事をしていると、この手のトラブルがよくあります。本当によくあります。
トラブルに至るまでの過程も、症状の出方も多様なせいで解決に至るまで時には数か月かかることもあるトラブルです。
ヒアリングしていても断片的な情報しか集まらず、しかもインターネットの体感速度は家と会社のPCくらいしか比較対象がないので人によって「遅い」の定義が様々です。
さて、前置きが長くなりましたが今回は実際にあったネットワーク遅延のトラブルと解決にいたるまでのお話をさせて頂きます。
そのお客様でネットワークの遅延が言われ始めたのは2014年に入ってから、ただしそれまでもちょくちょくと遅い気がしていたそうです。
≪状況≫
- 23区内のオフィス街にあるオフィスビルの1フロア
- 社内は約50名
- インターネット回線はフレッツ光ネクスト
- ファイルサーバなどは社内にあるが、一部アプリはクラウド利用
さてさて、とりあえず情報システム担当の方に症状をヒアリングです。
- 朝と夕方が遅い、特に夕方が遅い
- インターネット全体が遅い
- クラウドのアプリが遅すぎる
- (社内設置の)ファイルサーバへのアクセスも遅い
- 特定のデスク島が遅い
と言った症例が伺えました。解決への切り分けに入りますが、2と3はほとんど同じ意味なので割愛。
4の症例と5の対象者が違っていたのが引っかかりますが、2~4の症例から疑わしいのは社内の基幹になっているスイッチです。
5から伺えるのは島ハブです。
早速これらのスイッチを試験的に交換してみました。
少なくとも5は解決すると思われたのですが、、、まったく効果がありませんでした。
情報が足りません。とりあえずヒアリアング再開です。情報担当者以外の方にも協力してもらいます。
すると、とにかく朝夕のインターネットの遅さを訴える人が多く、ファイルサーバへのアクセスを訴えていたのは実は1名だけと判明しました。
さらに各島からランダムにPCを選んでインターネット速度調査を行います。フレッツの計測サイトから判明した数値は、脅威の800Kbps!
あぁ、これは遅い。3G回線より遅い。
ちなみに全島同じくらいだったので、特定の島が遅いのは「その島にいた人の気分の問題」でした。トラブル時にお客様からの情報間違いはよくあるので気にしていられません。
インターネット回線が遅いからにはフレッツに問題があるのでは?
以前別のお客様であったのですが、同じビルにフレッツを使って夕方にストリーミング配信をおこなっている会社があり、その開始時間になるとビル全体のフレッツが遅くなるというもらい事故系のトラブルがありました。
今回も同じビルの会社を調べてみましたが、情報配信は行っていないようです。ただ社内とデータセンターの間で大容量ファイルをやり取りしていたりすると分かり様がありません。
緊急回避で回線の変更まで手を付けながら、なんとなくゲートウェイの機器の交換も試してみました。
すると・・・・劇的に改善してしまったではないですか!
このお客様のゲートウェイはファイアウォール+ルータの構成で、ファイアウォールは入れ替えたばかりのそこそこの高スペック製品だったのでゲートウェイ周りはノーマークでした。高性能ファイアウォールに対してルータはYAMAHAのRTX1500。
日本でネットワークの仕事をやっているとよく見るYAMAHA。VPNの性能と高速さが売りでインターネットVPN全盛期には全国の中小企業に導入されたヒット商品です。
中小企業とRTXは、マクドナルドにコカコーラくらいありふれた光景なので、容疑者にならなかった彼ですが、交換してみたら改善してしまったので一気に最重要容疑者です。
では彼の経歴を洗いましょう。
【YAMAHA RTX1500】
誕生:2004年10月(2011年販売終了)
定価:198,000円
スループット:200Mbps
VPNスループット:200Mbps
NATセッション数:4096
ファイアウォールセッション:2000
誕生から10年経った今となっては高性能とは言えませんが、特に大きな問題は無いような・・・・・・・セッション数2,000!?
犯人は間違いなくあなたです!
(※RTX1500は2011年に販売終了しています。彼のせいばかりではないです。)
普段あまり気にする事のないセッション数。機器選定でもスルーされがちな項目ですが、ここ10年で回線速度よりも急激に増大したのはセッション数だったりします。
PC一台が張るインターネットセッション、どのくらいかご存知でしょうか?(私も今回のトラブルまでよく知りませんでした。)
代表的なサイトのセッション数を並べてみました。
- Yahooトップページ : 40~50セッション
- Google map : 50~60セッション
- You Tube : 40~50セッション
- Amazon : 80~100セッション
- iTunes : 200~250セッション!
オフィスでiTunesやYouTubeをヘビーに使うかどうかは置いておいて、大容量のデータをやり取りすることが多い現在のWebサイトは、1ページを細かく分割して別セッションにし、快適な速度を実現しています。グーグルマップなんかは碁盤の目ように地図を5×5くらいに分割してセッションをはるので、回線が遅いときに地図の一部が灰色の四角でかけたりしますね。あれがまさにセッション数不足です。
件のお客様で言えば、50人が揃う朝夕に20セッション張るサイトをタブブラウザで5サイト表示させてしまえば5,000セッションです。2004年発売の機器には無理ですよね・・・
ましてや今はアプリもどんどんクラウド化し、社内からインターネットへのセッションは増える一方です。
今回のトラブルにしても回線はフレッツネクストの200MbpsでRTXのスループットは200Mbps。一見問題ないように見えますが、1つのアプリをクラウド化しただけでセッション崩壊するようなギリギリの運用をしていたのでした。
今回の教訓
『サポート切れの製品は、使えそうでもやっぱり使っては駄目』