1. RoE の概要

一般的に認知されている RDMA ( リモート DMA ) 技術は、インフィニバンドと iWARP ( Internet Wide Area RDMA Protocol ) の2つが挙げられます。

インフィニバンドは HPC アプリケーションから始まり幅広いアプリケーションで採用され、大きな成功を収めたのに対し、イーサネット上の iWARP は実装と配備の課題により採用されたアプリケーションはごくわずかとなっています。IEEE data center Bridging ( DCB ) 傘下で、最近のイーサネットデータリンク層への機能強化は、主流となるデータセンタのアプリケーションにおいて RDMA 技術の使用を広める重要な機会をもたらします。提案されるその DCB 標準規格は IEEE802.1bb – Priority-based flow control ( PFC ) 、802.1Qau – Congestion Notification 、802.1az – Enhanced Transmission Selection ( ETS ) 、DCB Capability Exchange を含みます。Priority-based flow control ( PFC ) により可能となる DCB の lossless ( ロスが発生しない ) 配送の特徴は、インフィニバンドデータリンク層の特徴と類似します。よって PFC をベースにした DCB イーサネット上で RDMA サービスを構築するために、インフィニバンドベースのネイティブ RDMA 転送サービスを適用することは、ごく自然な選択だといえます。IBTA ( Infiniband Trade Association ) は、イーサネット上でインフィニバンドベースのネイティブ RDMA 転送サービスを適用する RDMA over Converged Ethernet ( RoCE, “Rocky”と発音 ) と呼ばれる仕様を最近リリースしました。ConnectX-2 EN with RoE ( RDMA over Ethernet ) は RoCE 標準規格を実装し、イーサネット上でインフィニバンドのような超低レイテンシーと高い拡張性 ( スケーラビリティ ) を実現します。

2. ConnectX-2 RoE のメカニズム

ConnectX-2 EN with RoE はインフィニバンドのネイティブ RDMA 転送と IBTA RoCE 規格によるイーサネットとの組み合わせから構成されており、下図のようにデータリンクはインフィニバンドベースのレイヤー 2 からイーサネットのレイヤー 2 に置き換えられ、インフィニバンドトランスポートは PFC ベースの lossless イーサネットデータリンク上に適用されます。

図:LLE ( Low Latency Ethernet ) のフォーマットとプロトコルスタック

ソフトウェアインタフェース

ConnectX-2 EN with RoE はOpen Fabrics Alliance OFED verbs の定義に準拠しており OFA ソフトウェアスタック (インフィニバンドや iWARP に類似) と相互運用が可能です。ConnectX-2 EN with RoE は OFA スタックで利用可能となっている、機能が豊富で実績のあるインフィニバンド Verbs インターフェースを使用し、OFED v1.5.1 から RoCE と ConnectX-2 EN with Roe がサポートされます。

ネットワーク層

ConnectX-2 EN with RoE はインフィニバンドで定義される GRH (Global Route Header ) をベースにしたネットワーク層に依存し、必要の場合にはインフィニバンド GRH ベースのネットワーク層の機能を要求します。GRH は IPv6 のアドレス指定と同等であり、IPv4 アドレス指定にも適用することが出来る GID ( Global Identifier ) を持っています。

データリンク層

データリンク層のレベルでは、標準のレイヤー 2 のイーサネットサービスと lossless パケットの配信を保証するために最低限 802.1bb Priority Flow Control ( PFC ) または 802.3x Pause を必要とします。802.1au Congestion notification ( 輻輳通知 ) はサポートされていることが望ましいですが、サーバ間、またはサーバとストレージ間の接続網が超過な状態ではなく、また輻輳が起こりにくいのであれば必ずしも必要となる機能ではありません。L2 アドレスの指定方法は宛先と送信元の MAC アドレスをベースにしており、また QoS を実装する方法は 802.1az ( ETS ) や他のイーサネットの機能と同様に 802.1Q ヘッダープライオリティフィールドに存在します。最後にそのパケットが RoCE タイプであるであるかは IEEE で割り当てられる Ethertype で指し示します。
次の表はイーサネットデータリンク層上でインフィニバンドトランスポート層のシームレスな運用を可能にするために、イーサネットのレイヤー 2 ヘッダーフィールドがインフィニバンドのレイヤー 2 ヘッダーフィールドで提供される機能にどのように対応付けされるかを纏めたものです。

機能インフィニバンド L2 ヘッダーフィールドイーサネット L2 ヘッダーフィールド
アドレス方式SLID と DLIDSMAC と DMAC
キュー ( Queue ) のプライオリティService Level ( SL )802.1Q header priority
パーティショニング、または VLANPartition key ( P-Key )802.1Q header VLAN ID
輻輳通知( Congestion Notification )IBTA で定義される FECN と BECN802.1Qau QCN

コンバージドトラフィック

RoCE パケットはその L2 ヘッダー内の Ethertype number にて識別されます。これはスタック内の低いレベルで異なるパケットタイプの違いを認識し、RDMA 通信を含む異なるタイプのイーサネット通信を、物理的に単一のイーサネットのワイヤー上で同時に共存することを可能にします。ConnectX-2 EN with RoE はトラフィックを複数のキューペアーに分離するため、トランスポートヘッダー内の destination queue pair number ( DQPN ) を参照します。

マネージメント

ConenctX-2 EN with RoE は SM ( インフィニバンドサブネットマネージャ ) を必要とせず、L2 アドレス指定、L2 トポロジーディスカバリ、またスイッチフィルタリングデータベース ( FDB ) の設定に、標準のイーサネットネットワークの管理手法を使用し動作することが出来ます ( たとえばスパニングツリーやラーニングが使われることが出来ます )。RoCEE の QoS 管理は 802.1Qaz ( ETS ) のイーサネット管理手法を使って実現され、輻輳管理機能として RoCEE はイーサネットの 802.1au 輻輳管理機能を用いています。PFC のプライオリティ設定や PFC 対応スイッチとのネゴシエーションは、静的に VLAN ( RDMA トラフィックをホスト内の VLAN に結びつけ、スイッチ内のそれらの VLAN に対して高い PFC プライオリティを割り当てる ) を使用して行われたり、また動的に NIC とスイッチ間で DCB エクスチェンジプロトコルを使用して行われたりすることが出来、ConnectX-2 EN with RoE はこの PFC 設定手法の両モードをサポートします。最後に、パフォーマンスモニタリング、ベースボード、そしてデバイスマネージャは標準の SNMP/RMON MIB を使用して実行されることが出来ます。
次の表はインフィニバンドトランスポート層とその層を使用するアプリケーションによって期待されるネットワーク管理の特徴がどのように標準イーサネットの管理手法を使ってシームレスに実現され、またインフィニバンドサブネットマネージャの必要性を無くしたのかを纏めたものです。データセンタの IT 管理者は使い慣れたイーサネットベースの管理ツールを使用し ConnectX-2 EN with RoE を他のイーサネット技術と同様に使用し、用意にデータセンタに展開することが可能です。

IB トランスポート層とその層で使われるアプリに必要とされる管理機能インフィニバンドサブネット内のインフィニバンドでの実現方法標準イーサネット管理手法を使ったイーサネットの実現方法
L2 アドレス指定Subnet Manager による L2 アドレス指定固定された L2 アドレスの指定、または他のイーサネットメカニズム
L2 トポロジーディスカバリとスイッチ FDB設定Subnet Manager による Direct routed subnet management packets ( SMP ) を使ったトポロジーディスカバリと Subnet Manager による Path computation と path distributionスパニングツリーとラーニングメカニズム。また、多くのリンク ( TRILL ) の IETF transparent interconnection と他のイーサネット手法
QoSSubnet Manager を拡張した QoS Manager標準のイーサネットQoS管理手法。ファブリックのポリシー設定にアクセスする Local API
輻輳管理( Congestion Management )IB 用の Congestion management802.1Qau congestion management 手法
性能管理 ( Performace Management )IB performance ManagerSNMP/RMON MIBS
デバイス/ボードベース管理 ( Device/Baseboard management )IB Baseboard ManagerSNMP/RMON MIBS

IBTA RoCE 仕様に基づいた ConnectX-2 EN with RoE アダプタは今日 Mellanox Technologies からリリースされており、End-to-End のアプリケーションレベルの遅延時間で 1.3 us ( マイクロセカンド ) という低遅延で到達することを実機で確認しました。Mellanox とその他のリーディングカンパニーは、RoCE ベースのアダプタのエコシステムと ConnectX-2 の利点を十分に生かした独立したベンダーアプリケーションを伸ばしていくために協力して取り組んでいます。ターゲットアプリケーションの例としては、金融サービス、ビジネスインテリジェンス、データウェアハウス、クラウドコンピューティング、そして Web 2.0 が挙げられます。

3. RoE 対応の ConnectX-2 EN の優位性

今までの内容を元に、RoE 対応の ConnectX-2 EN が多くの利点をもたらし、メインストリームデータセンターアプリケーションへ RDMA 技術の発展と展開が可能になることを約束します。

・RoE 対応の ConnectX-2 EN はイーサネット ( DCB ) の躍進を利用し、イーサネット上に低コストで効率よく RDMA の実装を可能にします。


・ConnectX-2 EN の RDMA データ通信は、より早いデータリンク層で区別されることができ、CPU のオーバヘッドをより必要としません。


・RoE 対応の ConnectX-2 EN はアプリケーション間の遅延にて、イーサネット上の他の業界標準実装技術の 10 分の 1 となる
 1.3 us ( マイクロセカンド ) の低遅延を達成します。金融サービスにて主に使用されるアプリケーションでは、資本市場のデータ処理や
 取引のやり取りにおいて 60% 以上のより低い遅延値を見せます。


・RoE 対応の ConnectX-2 EN は RDMA の全体的 RDMA の機能とその低遅延の特徴をサポートします。
 これは Reliable connection service、datagram service、RDMA と send/receive semantics、atomic operation、user level multicast、
 user level I/O access、kernel bypass、そして zero copy を含みます。


・RoE 対応の ConnectX-2 EN によって使用される OFA verbs はインフィニバンドに基づいており、
 HPC と EDC の両方の分野において複数の ISV アプリケーションと共に、大きな規模での実績が証明されています。


・Roe 対応の ConnectX-2 EN ベースのネットワーク管理は、他のイーサネットや DCB ベースのネットワーク管理と同様であり、
 IT 管理者は新しい技術を学ぶ必要がありません。

上記の内容は Mellanox 社のホワイトペーパー ( WP_ConnectX-2_EN_with_ROE.pdf ) を翻訳したものとなります。原文に関しては www.mellanox.com > Products > Ethernet cards > ConnectX-2 EN にてご参照いただけます。