三田村 健史 2010年 修士(経営学)
DNSクエリデータに基づくコンテンツへの関心度分析

1. はじめに

仮想コミュニティにおける現象と現実社会での現象に関する研究は、主として 仮想コミュニティにおける「書き手側」の視点からの分析が主流である。本研 究では、このようなコンテンツへの「書き手側」を中心とした関心度の分析の 持つ課題を解決する分析手法を提案する。 具体的には本研究の目的を次の2つとする。

2. 関連研究

インターネットにおける仮想的な世界と現実の世界の関係を書き手の視点から 分析する研究は数多く存在する。たとえば、[Gruhl 2007]は、書籍を取り上げ、 blogへの書き込みとECサイトでの売上の関係について分析している。blogにお いて、ある書籍に関わる集中的な書き込みが発生した場合、その1.7日〜8.8日 後にECサイトへの売上に影響が出ることを書き手の視点から示した。

また、本研究において分析対象として取り上げる映画の興行成績を予測する研 究において、映画に関する口コミ効果が、興行成績に与える影響の分析も多く 存在する。たとえば、[Mishine 2006]では、映画ジャンルや公開時期などの変 数に加え、ブログでの評価コメントが興行収入に及ぼす影響を示している。こ れらの研究は、主に多くの情報の中から興行成績に、より影響を与える説明変 数を探し出す内容となっている。たとえば[Mishine 2006]は、ブログへの書き 込み内容と興行収益の相関が、公開前で0.454〜0.542、公開後で0.478〜0.614で あることを示している。本研究ではDNSクエリデータを用い、これより高い精度 での予測が可能であることを示す。

3.異なり数を用いた関心度測定手法の提案

図1にDNSクエリの仕組みと、本研究における関心度測定のためのシステム構成 を示す。サイトを閲覧する場合、まず、そのインターネットドメイン名(以下、 ドメイン名。図はexample.jp)に対応するIPアドレス(図は192.1.1.1)を取得 するために、閲覧者が契約しているISPのDNSに対し、ドメイン名とIPアドレス の対応の検索を行う。その後、ISPのDNSでは、ルートサーバ(図は m.root-servers.net)、JP-DNS(図はa.dns.jp)、公式サイトを管理する DNS(図はdns.example.ad.jp)を検索する。本研究における分析データは、図 中のa.dns.jp相当で行う。

図1に示した分析環境では、次の流れでデータを処理する。

延べ数と異なり数

本研究では、コンテンツへの関心度を測定する上で、DNSクエリデータの計測結 果として、大別して延べ数と異なり数の2種類の変数を用いる。前者は、DNSの クエリが何回発生したかという累計数である。後者は、DNSのクエリがどこから 発生したかという種類を示す数である。特に後者は、さらに2種類(IPアドレス、 国・地域の2種類)の変数を用いる。

DNSキャッシュの影響と異なり数

DNSキャッシュサーバでは、同じドメイン名に対するクエリに対しTTLの間キャッ シュ機能が働き、代理応答を行う可能性があるため、JP-DNSでは、必ずしも全 てのクエリを受信できているとは言えない。本提案手法では対策として、単純 なDNSクエリの延べ数ではなく、キャッシュの機能の影響を受けない異なり数を 用い関心度を測定する。 

4.提案手法を用いた分析結果

日本映画の観客動員数予測分析

日本映画の観客動員数の予測分析対象は次のとおりである。

分析の流れ

計測データの説明力分析

まず、クエリ数、IPアドレス数、国数の説明力分析のために、単回帰分析を行った。変数のデータ抽出範囲は、以下のとおりである。

決定係数は、IPアドレス数>国数>クエリ数となった。以上、延べ数よりも異なり数が高い説明力を示した。

重回帰分析の結果

目的変数に対する決定係数と自由度調整済み決定係数であるが、単回帰よりも大きく改善している。最終的な予測式は、次の通りとなった。

実務への適用を考慮し、日本映画の興行予測を行う場合における説明力の改善を試みる。単回帰分析で説明力のもっとも高かった変数である、IPアドレス数に着目する。改善を試みる上で、以下の方針を置いた。

方針:IPアドレス数の時系列データにおいて、より映画の公開日に近く、ある閾値以上が連続した期間のデータを抽出することで改善を試みる。結果は、表3の通りである。

この場合の予測式は、次の通りとなった。

5.実務適用に関する考察

本研究の実務への適用の可能性を探るために、実務家へのインタビューを行った。配給会社によっても差異は出ると考えられるが、概ね次のような目安であるとのことであった。

以上のことから、最低でも映画公開の2週間前、可能であれば1ヶ月から3ヶ月くらい前の時点での予測を求められることがわかった。

まず、重回帰分析の結果であるが、映画公開の1ヶ月前で60%以上、2ヶ月前でも40%以上の高い説明力を示す結果となった。決定係数と自由度調整済み決定係数は、公開前日から1ヶ月前まで緩やかに下がり、1ヶ月前から1.5ヶ月前の間で決定係数の落ち込みが大きくなり、その後、緩やかに下がる傾向を示した。

6.まとめ

本研究では、「書き手側」の視点ではなく、作為的な意思が入りにくい「読み 手側」の視点を中心とした関心度測定の手法を提案した。3章で、DNSへのクエ リデータから導いた異なり数を用いた「読み手側」からの関心度測定手法の提 案を行い、4章で、提案手法についての事例検証として、日本映画の公開初週の 観客動員数の予測を行った。提案手法は、従来手法が映画公開前で相関係数 0.454〜0.542であったのに対し、0.865と予測精度において優れている。

更に5章で、本研究における提案手法の実務への適用について議論を行った。本研究における提案手法では、映画公開の1ヶ月前で60%以上、2ヶ月前でも40%以上の高い説明力を示した。 本研究では、DNSというインターネットの技術が、現実社会の分析に利用できることを示している。これ以外の事例に対する分析の検討は、今後の課題である。

7.参考文献