測定器を使ったネットワーク障害の解決 第1話 相互接続性試験の重要性を知る

インフラネットワーク構築につきものなのが、システム障害。起きてしまった時には、早急な解決が現場のエンジニアには求められます。とはいえ、企業の基幹システムや大規模ネットワークなど、複雑な構成であればあるほど問題の切り分けが難しくなりがちです。

 

一般的に光通信装置用の測定器は光トランシーバーの特性を測定する際に使われますが、場合によっては、光トランシーバー以外にある障害発生原因の切り分けにも役立つことがあります。この記事では、ネットワーク装置におけるリンク障害のトラブルシューティングの一例として、スイッチと光トランシーバーの双方に原因があることを見出した例をご紹介します。

お客様の環境で発生したリンク障害

あるお客様の環境で、100Gの光通信にリンク障害が発生しました。症状は、スイッチのポートによってリンクアップが成功したり失敗したりする・・・ということでした。

状況をまとめると、以下の通りとなります。

 

・100Gの光リンクが正しくリンクアップする場合としない場合がある

 

・リンクアップする場合としない場合の違い

  -使用する光トランシーバーの型番による(光トランシーバーAだと問題発生しないけどBだと発生する場合がある)

  -挿入するスイッチのポートによる(問題が起こらないポートと、起こりやすいポートがある)

  -使うスイッチの機種による(問題が起こらない機種と起こる機種がある)

 

連絡を受けて弊社技術チームがお客様を訪問し、実際にお客様が言われているような現象が発生していることも確認できました。

測定器を使った解析① 制御信号のモニター

いくつかのパターンにおける、スイッチと光トランシーバー間の制御信号を実際にお客様の環境でモニターしてみました。

 

・光リンクが正しくリンクアップする場合としない場合

・光トランシーバーの型番やスイッチの機種を変更した場合

I2Cアクセスをモニターしているようす(Multilane社ML4066使用)
I2Cアクセスをモニターしているようす(Multilane社ML4066使用)

スイッチと光トランシーバーの間でやりとりされる制御信号をモニターし、解析してみたところ興味深いことが分かりました。

スイッチと光トランシーバー間の制御信号を解析して分かったこと

パターンによって差分があるかどうかを確認していきます。

 

・使う光トランシーバーの型番による(光トランシーバーAだと問題は起こらない、光トランシーバーBだと起こる場合がある)

                 数種類の光トランシーバーで確認しましたが、光トランシーバーを変えても制御信号に明らかな差分はありませんでした。

     (どれを挿しても同じ制御でした。)

・挿入するスイッチのポートによる(問題が起こらないポートと、起こりやすいポートがある)

                 挿すポートを変えても制御信号に明らかな差分はありませんでした。

     (どのポートに挿しても同じ制御でした。)

・使うスイッチの機種による(問題が起こらない機種と起こる機種がある)

                 リンク障害の起こるスイッチと起こらないスイッチで、興味深い差分がありました。

スイッチの機種による差分は何か?

モニタしたスイッチと光トランシーバーの間で交わされる制御信号を解析したところ、いくつかの差分がありました。

この差分に、注目しました。

リンク障害が起こらないスイッチとの制御信号のやりとり

  1. スイッチから光トランシーバーのレジスター値を読み込む
  2. 光トランシーバーの送信イコライザーの設定を行う
  3. 光トランシーバーの受信エンファシスの設定を行う

リンク障害が起こるスイッチとの制御信号のやりとり

  1. スイッチから光トランシーバーのレジスター値を読み込む
  2. 光トランシーバーの送信イコライザーの設定を行う
  3. 光トランシーバーの受信エンファシスの設定を行う
  4. 光トランシーバーからスイッチに渡す、受信振幅を最大振幅にセットする

 

4つ目の「受信振幅を最大振幅にセットする」というのは、光トランシーバーからスイッチに渡す電気信号の振幅を、設定できる範囲での最大値にセットする、というものです。

仮説を立ててみました

障害が起こりやすいスイッチでは、光トランシーバーからスイッチに渡す電気信号の受信振幅を最大にする設定が行われている。

この解析結果から、「受信振幅が小さい場合にリンク障害が起こりやすいのではないか?」という仮説を立てました。

次は、この仮説が正しいかどうか、お客様からも光トランシーバーをお借りして検証です。

測定器を使った解析② 受信振幅を測定

光の受信信号は、光トランシーバー内で電気信号に変換され、スイッチに電気信号で渡します。この光トランシーバーからスイッチに渡す電気信号の受信振幅を、型番の異なる光トランシーバーで測定しました。

 

・光トランシーバーA・・・リンクの問題が起こらない型番

・光トランシーバーB・・・リンクの問題が起こりやすい型番

 

その結果、リンクの問題が起こりやすい光トランシーバーBの受信振幅の方が、問題が起こらない光トランシーバーAよりも小さくなっていることが分かりました。※トランシーバーAとの比較では小さいですが、トランシーバーの規格には入っています。

光トランシーバーの受信電気振幅を測定する
光トランシーバーの受信電気振幅を測定する
光トランシーバーの受信電気振幅
光トランシーバーの受信電気振幅

グラフは測定の結果です。トランシーバーAとBをそれぞれ3個ずつ用意して、測定を行いました。

 

オレンジ:リンクの問題が起こらない光トランシーバーA

ブルー:リンクの問題が起こりやすい光トランシーバーB

 

このグラフから分かることは、問題の起こるトランシーバーBの受信振幅がトランシーバーAの受信振幅と比較して小さい、ということです。

 

この結果から、お客様には「このスイッチには、受信振幅の比較的大きな光トランシーバーが必要です」ということを報告し、合わせて受信振幅の大きな光トランシーバーをご紹介いたしました。その後は、リンク障害の問題は起こっていないと聞いています。

今回の解析から分かったこと

今回の解析で分かったことです。

 

・スイッチと光トランシーバー間の制御信号を解析し、原因について仮説を立てた。

   制御信号から、光トランシーバーの受信電気振幅を最大に設定していることが分かった。

・いくつかの光トランシーバーを測定し、仮設の裏づけを行った。

   問題の起こりやすい光トランシーバーの受信電気振幅が相対的に小さいことを確認した。

 

リンクアップ障害の起こっているトランシーバーでは相対的に受信振幅が小さいことが分かり、仮設を裏付けることができました。このことから、光トランシーバーの受信電気振幅は、規格の範囲内であっても大きいものと小さいものとばらつきがあり、スイッチによっては、大きな信号でないと正常に受信できないことがあると言えます。

相互接続性試験はマクニカへお任せください

今回の例ように、規格上は問題なく接続できるスイッチと光トランシーバーであっても相性が出る可能性があります。つまり、光通信装置を構成する上では、できるだけ事前に通信試験を実施することが重要と言えるでしょう。

 

マクニカの技術チームは、これまでのサポート経験から豊富な知見を蓄えており、専門的な検証機/測定器を用いた各構成要素間の相互接続性試験やトラブルシューティングを実施しています。ご興味をお持ちいただけましたら、ぜひ下記よりお問い合わせください。

 

使用したマルチレーン社の機材

今回の解析で使用した測定器について次回の記事で詳しくご紹介します。ぜひご覧ください。

 

ML4066-QSFP                       QSFP用アダプタボード

ML4041-K                               QSFP用モジュールコンプライアンスボード(MCB)

ML4004-JIT                            BERT & DSO

測定器を使ったネットワーク障害の解決 第2話 光トランシーバーモジュールの性能測定