異なり数を用いた広帯域ネットワークのトラフィック解析技術に関する研究

筑波大学大学院 システム情報工学研究科 リスク工学専攻
正村雄介

はじめに

近年,ADSL(Asymmetric Digital Subscriber Line)やFTTH(Fiber To The Home)技術によるアクセス回線のブロードバンド化に伴い,広帯域な常時接続環 境が一般利用者に急速に普及し,ネットワークの利用形態が多様化している. 従来のBest Effort型のネットワークアプリケーションに加えて,IP電話やIPテ レビといった様々なサービスが同一ネットワークに統合される状況となってい る.音声・動画や基幹業務のトランザクションデータなどの通信は低遅延での 通信を前提としており,品質保証が必要となる.ところが,回線速度の向上に 伴いネットワーク機器の消費電力は増大傾向にあり,経済性の観点から単純な オーバープロビジョニングによる品質の確保は難しくなる.そこで,トラフィッ クの優先度に応じ転送制御することが求められており,これを実現するためネッ トワーク機器に流れるトラフィックの分類技術が必要となっている.

また一方で,不正なパケットを大量に送信し,サーバやルータをサービス停止 状態とするDoS(Denial of Service)攻撃,DDoS(Distributed Denial of Service)攻撃の発生,ウィルスやWormによる異常トラフィックの発生,及 び,P2Pファイル交換による帯域占有が問題となっている.特に通信事業者の広 域ネットワークでは,網管理者が,これらのトラフィックを判別し,QoS処理や フィルタリング処理を実施し,ネットワークを管理する必要がある.この様な 網管理者の業務を支援するため,DDoS,Worm,P2P過大トラフィック等の通信帯 域を圧迫するフローの検出技術が求められている.

このような背景に基づいて,本研究では,インターネットトラフィックをアプ リケーションの挙動を元にリアルタイムで分類する解析技術の確立を目的とし た.ここでは,通信事業者規模のネットワークでの利用を対象とし,高速回線 に対応可能なアルゴリズムを提案した.本提案は(1)トラフィック解析に必要と なる統計情報の計測手法に関する提案,(2)10Gbps回線フルパケット解析に対応 する高速化手法の提案,(3)トラフィックの分類手法の提案からなる.各提案の 概要を以下に示す.

(1) トラフィック解析に必要となる統計情報の計測手法に関する提案

高速回線の利用状況を効率よく把握するため,流量の多いトラフィックを抽出 すると同時に,通信相手や使用ポート番号等の出現した種類数である異なり数 情報を計測するAggregated Flow Mining(AFM)を提案した.異なり数情報は,ホ ストやアプリケーションの振る舞い分析に有効であり,DDoS,Worm,Scan等の 判別にも利用できる重要な統計情報である.提案手法は,フローを特定する 5-tuple(送信元IP アドレス(Src IP),宛先IP アドレス(Dst IP),送信元ポー ト番号(Src PT),宛先ポート番号(Dst PT),プロトコル(PRT))を対象とし,デー タマイニング技術の一つである頻出アイテムセット抽出技術に異なり数を計測 する仕組みを取り入れた.ここで,集約フローを,5-tupleの中から任意に選択 したn-tuple (1≦n≦5) が一致したパケット群として定義すると,異なり数計 測機能はn-tupleに含まれない項目全てにおいて異なり数を計測できる.

従来の異なり数計測では,既出情報を保持するため膨大なメモリ量を必要とす る点が課題であったが,本方式では限られたメモリ量での計測が可能であり, 異なり数をトラフィック種別の判別に十分な計測精度で計測可能なことを明ら かにした.また,通信相手数やポート番号数と複数の異なり数を同時に計測で きることから,P2Pトラフィックの検出も可能であることを明らかにした.

(2) 10Gbps回線フルパケット解析に対応する高速化手法の提案

現在のネットワーク回線は解析に用いる計算機のメモリアクセス速度を上回る 速さで高速化しているため,(1)で提案した技術においてもメモリアクセス速度 がネックとなり解析に必要な統計情報の収集が困難となってきている.そこ で,現在通信事業者で主流となっている10Gbps回線をフルパケットで解析でき るメモリアクセス速度改善方式を提案した.

提案方式はトラフィックの特性を考慮し提案したものであり,メモリアクセス 回数を削減する二段階集約方式と,メモリアクセス速度を改善する複数データ 一括更新方式からなる.二段階集約方式は,AFMの前処理部としてフロー集約部 を設置しトラフィックを一度フロー単位の統計情報へ集約する方式であり,デー タマイニングに必要なメモリアクセス回数を1/5から1/20程度に減らすことがで きる.複数データ一括更新方式は,統計情報の更新順番を変更することでキャッ シュの効果を最大限活用する方式であり,メモリアクセスにかかる平均時間を 最大半分程度に減らすことができる.

提案方式を実装した試作機を作成し,性能評価を行った結果,10Gbps回線フル パケットの解析に十分対応できることを明らかにした.

(3) トラフィックの分類手法の提案

上記(1)(2)の提案方式で収集するトラフィックの統計情報を用い,トラフィッ クをアプリケーションのタイプ毎に分類するサービスフロー分類方式を提案し た.本提案は,異なり数を用いたサービスポートの抽出方式とパケット長を用 いた振る舞い分析方式からなり,サービスポート番号でまとめたトラフィック をダウンロードタイプ,アップロードタイプ,双方向タイプ,コントロールタ イプの4つに分類する.

本方式を用いることで,P2Pトラフィックについては,オーバレイネットワーク を制御するモードとファイルを交換するモードと,二つの状態を識別できるこ とが分かった.また,提案手法を筑波大学キャンパスネットワークの実トラ フィックに適用し,有効性を確認した.

以上の提案手法をインターネットトラフィックの解析に適用すること で,10Gbps回線をリアルタイムに解析することができる.

提案方式を用い,MAWI公開のTrans-Pacific lineのトラフィックを解析した一 例を図 1に示す.図 1は集約フロー(Src_IP, PRT)で通信帯域の大きいフローに 関し,(Dst_IP, Src_PT, Dst_PT)の異なり数情報を3次元プロットした図であ り,以下に示すいくつかの特徴的な集団を見つける事ができる.ただし,各点 は1000パケット毎に収集された統計情報であり,流量の多いフローは同一フロー で複数の点が存在する.


図 1. トラフィック解析結果1
  1. P2P flow
    青の点で示したフローはP2Pホストが生成したフローであると推測できる.P2P ホストはランダムにSrc_PTを決定するため,Dst_IPに比例しDst_PT も増加する 傾向がある.
  2. Server flow
    オレンジの点で示したフローはサーバが生成したフローであると推測でき る.HTTPサーバ等の典型的なサーバは,決まったSrc_PTを用い,複数のDst_IP と複数のDst_PTへパケットを送信する傾向がある.Src_PTはサーバ がサービス を提供するため,Listenしているポートである.
  3. Client flow
    赤の点で示したフローはクライアントが生成したフローであると推測できる. ウェブサーフィン等の典型的なクライアントは,決まったDst_PTで, 様々なサー バにアクセスする傾向がある.Dst_PTは通常Well-knownポートである.

以上のように,サーバやクライアント,P2Pホストの動作の経験則を用いれば, フローの送信元ホストの粗い分類ができる.

次に,集約フロー(Src_IP, Src_PT, PRT)の解析結果を図2に示す.図2は横軸に Dst_IP, 縦軸にDst_PTの異なり数をプロットした図である.例えば,図中の (d)は,あるホストのあるポート番号から600前後の通信相手に送っており,通 信相手のポート番号も600前後の種類が現れたことを示す.集約フロー (Src_IP, Src_PT, PRT)の統計情報は,主にサーバの出力の挙動を表してい る.Dst_IPの異なり数情報から下記の様に検出したフローの分類を行った.


図 2. トラフィック解析結果2
  1. Dst_IPの異なり数が500以上のフロー:
    4種類の集約フローが検出された(図中(a),(b),(c),(d)).これらの集約フロー は1ホストあたり1パケット前後しか送っていない.TCPフローでは3-way handshakeが必要となることから,異常フローと分類した. 詳細に解析した結果,フロー(a)はSrc_PTが7000でRST+ACKフラグが立つパケッ トのみを送信しており,フロー(b)もSrc_PTが7000でSYN+ACKフラグが立つパケッ トのみを送信していた.フロー(c)と(d)はSrc_PTが80でSYN+ACKフラグが立つパ ケットのみを送信していた.これらの情報から,上記のSrc_IPはDoS攻撃を受け ており,その返信パケットが検出されている可能性が高いと判断した.
  2. Dst_IPの異なり数が150から500のフロー:
    22種類の集約フローが検出された(図中(e),(f)).これら集約フローのSrc_IPは 非常に多くの通信相手と同時に通信していることから,P2Pフローと分類した. 通信相手の数が常時200から300で推移していることから,Overlay Networkのハ ブホストであり,セッションを維持管理するトラフィックである可能性が高 い.また,TCPとUDP同一のポート番号を利用しており,P2Pソフトでよく使われ る実装の特徴も現れていた.
  3. Dst_IPの異なり数が150以下のフロー:
    これらのフローは一般的なサーバフローと分類した.

以上の異なり数解析の結果から,Dst_IPの異なり数が150以上の集約フローは異 常フローの可能性が高く,提案方式は挙動不振なフローの抽出に効果的である ことが分かった.

本提案の有効性は筑波大学キャンパスネットワークに適用し実トラフィックを 解析することで検証した.本方式での解析により,回線に流れるトラフィック の可視化及び,DDoS,Worm,P2Pフローの検出が可能となり,トラフィックをホ ストやサービスの振る舞いを元に分類することもできる.トラフィックをアプ リケーションの種類ごとに分類することで,アプリケーションの特性に応じた 優先制御が可能となる.

関連業績リスト

  1. Y. Shomura, Y. Watanabe, K. Yoshida, ``Analyzing the Number of Varieties in Frequently Found Flows'', IEICE vol.E91-B, no.6, pp.1896-1905, Jun. 2008.
  2. 正村 雄介, 渡辺 義則, 池田 尚哉, ``トラヒック解析技術AFMの高速化方式, 電子情報通信学会 vol.J92-B, no.10, pp.1579-1587, 2009年10月
  3. Y. Shomura, Y. Watanabe, N. Ikeda, ``A Traffic Monitoring Method for High Speed Networks'', Proceedings of the 9th International Symposium on Applications and the Internet (SAINT 2009), Jul. 2009.
  4. Y. Shomura, K. Yoshida, A. Sato, S. Matsumoto, K. Itano, ``A Traffic Analysis Using Cardinalities and Header Information'', Proceedings of the 1st International Conference on Networking and Computing (ICNC'10), Nov. 2010, Best paper award.