NTCIR-7におけるスプログ問題について
本日のNTCIR-7説明会においてブログを対象としているCLIRB/MOATに関してコメントしたが、
各方面から誤解があるようなのでここに私の考えをまとめておく。
スプログ(splog)=ブログにおけるスパムのこと。
CLIRB (Cross-Lingual Information Retrieval for Blog Task)=ブログ記事を検索対象とした言語横断検索タスク。
MOAT (Multilingual Opinion Analysis Task)=多言語意見分析タスク。今年はCLIRBで得られた適合文書を対象としている。
私が指摘したのは、CLIRBで通常のプーリングによる適合性判定を行うと、
スプログの影響により適合文書セットの網羅性に影響が出る可能性があるということ。
スプログは通常の不適合文書とは異なり、意図的にたくさんの話題にマッチするように生成されているので、
たくさんの検索課題についてプールの上位を占めてしまう可能性があるためである。
つまり、スプログが邪魔をして適合文書がプールに入ってこない可能性がある!
そこで私が一案として述べたのは文書セットから予めスプログを除くことだが、
これはスプログ検出(splog detection)が情報検索の守備範囲外であるという意味ではない。
従来のテストコレクションと同等に網羅性の高い適合文書セットを作成し、
同時に、スプログ検出の問題をブログ検索タスクのサブタスクとして分離するというのが主旨である。
質問応答を扱うACLIAにおいてモジュール毎の評価をやろうとしていることに近い。
さて、実際、どうすべきだろうか?
(案1)オーガナイザが事前に、文書コレクション中の全文書にスプログか否かのフラグをつける。
(つまり最初にスプログ検出の問題を解くのはオーガナイザ。全部を人手でやるのは量的に無理。)
そして、スプログ込みデータセットとスプログ除去データセットの両方を配布し、
検索結果も両方について提出してもらう。
プーリングおよび適合性判定には、両方の検索結果を利用する。
(注:プールに、スプログの影響を受けない優等生的検索結果を大量に投入することを意味する。)
結果的に両方の検索結果の有効性がほぼ一致するチームは、スプログ対策がほぼできているチームと言える。
(案2)オーガナイザは事前には何もせずに、参加者から提出された検索結果から通常通りプールを作成し、
適合性判定に先立ち、このプールに対して人手でスプログか否かのフラグをつける。
そして、スプログの比率が一定値以上となった場合、
当該検索課題のpool depth(注)を大きくしてpoolを作り直す。
このほうがスプログ判定の件数も参加者の負担も少ないが、
厳密には上記繰り返し処理が停止する保証がない。
(例えば、提出された検索結果のほとんどがスプログだったら!?)
(注)昨日の発表資料のp.4参照
繰り返すが、私はスプログ検出が情報検索の範疇外であるなどとは言っていない。
むしろ、スプログを扱わないCLIRBだと、あまりおもしろくないなあと思っている。



