情報検索入門シリーズ。
テストコレクション(test collection)とは、評価用データセットのこと。
特に、様々な研究機関が共有し、異なる研究環境間でも評価結果の比較ができるようしたものを
自前の評価用データと区別するために標準テストコレクション(standard test collection)と呼ぶこともある。
情報検索のテストコレクションは通常、検索対象である文書セットと、検索課題セットと、各検索課題に対する正解(適合文書)セットから構成される。
検索システムを評価する際には、各検索課題をシステムに与えて得られた検索結果に対し平均精度などの評価指標を計算し、さらに評価指標の検索課題セットに関する平均などを算出する。
テストコレクションは歴史的に数百~数千件の文書を扱うものが多かったが、1992年に米国の評価型ワークショップTREC(Text Retrieval Conference)が始まって以来、文書の規模は一気に数十万以上になった。
そのわりに検索課題の数はいまだに50件程度である。
本来は実験の信頼性を高めるために検索課題の桁数も増やすべきだが、人手による正解判定が追いつかないためこのようなバランスの悪い状況になっている。
このためTRECでは、正解判定で手抜きをするかわりに検索課題の数を一万くらいにする(実際の評価に用いるのは千くらい)という試みが始まっている。
ちなみにこの検索タスクの名前はMillion Query Track。なんでやねん。
日本でも何か新企画をやるならとりあえず大風呂敷を広げるに限るな。
さて、TRECの出現に危機感を抱いた日本人のボランティア検索メイニアックたちは、日本初の情報検索用日本語テストコレクションを作成した。
600文書のBMIR-J1(1996年公開)およ5,080文書のBMIR-J2(1998年公開)である。
BMIRは規模こそ小さかったものの、正解判定に多値適合性(高適合・適合)を採用し、検索システムに要求される機能の観点から検索課題を予めグループ化しているというなかなかユニークなものであった。
現在ニューズウォッチの取締役である三池さんはBMIR-J1を作成したボランティアの一人であったが、ニューズウォッチ設立に伴い東芝の研究所を離れたため、BMIR-J2の作成から私が引き継いだ。
そういうわけで、BMIRに関しては以下の文献をご覧いただきたい。
連名になっているのが企業や大学からのボランティアの方々である。BMIR-J1からずっとやられていた方々が多い。
酒井, 小川, 木谷, 石川, 木本, 中渡瀬, 芥子, 豊浦, 福島, 松井, 上田, 徳永, 鶴岡, 安形, 神門:
情報検索システム評価のためのテストコレクション,
Computer Today, Vol.9, No.87, pp.31-35, サイエンス社, 1998.
Sakai, T., Kitani, T., Ogawa, Y., Ishikawa, T., Kimoto, H.,Keshi, I., Toyoura, J., Fukushima, T., Matsui, K., Ueda, Y.,Tokunaga, T., Tsuruoka, H., Nakawatase, H., Agata, T.and Kando, N.:
BMIR-J2: A Test Collection for Evaluation of Japanese Information Retrieval Systems,
ACM SIGIR Forum, Vol.33, No.1, pp.13-17, 1999.
なお、BMIR-J2公開と同じころに発足したNTCIR(再来週開催!)もTRECと同様に数十万以上の文書を扱っているため、今やBMIRの存在意義はかなり薄れたと言っていい。
ただ、NTCIRやTRECのテストコレクションがプーリング(pooling)により作成されたおそらくincompleteなテストコレクションであるのに対し、BMIRは文書集合が小さいだけに正解がより網羅的に列挙されている可能性が高い。
ここでプーリングとは、多数の検索システムによる検索結果を収集し、これらに含まれる文書(の一部)のみに対して正解判定を行うことである。
さて、プーリングの何が悪いのか?
例えば、検索タスクに参加した10チームによる検索結果を全てプールし、これらに含まれる全文書を対象に徹底的に検査して正解データを作成したとしよう。
このあと11番目のチームが現れ、情報検索技術上のとてつもないブレイクスルーを実現したとする。
このチームはブレイクスルーにより、上記10チームが全く検索できなかった適合文書をたくさん検索できている。
ところが、これらの適合文書は上記10チームの検索結果をもとに作成した正解データには含まれていないため、不正解扱いになってしまう。
従って、11番目のシステムの検索有効性は実力よりも相当低く見積もられてしまうのである。
プーリングなどに参加していない未知のシステムに対してもある程度正当な評価を下すテストコレクションは再利用可能(reusable)であるという。
テストコレクションが不完全(incomplete)でない、すなわち完全(complete)であるならば、それは再利用可能なはずである。
適合文書が完璧に網羅されているからである。
一方、不完全であっても再利用可能なテストコレクションは存在しうる。
すなわち、適合文書が網羅されているわけではないが、おおかたの検索システムの評価には役に立つものである。
NTCIRやTRECのテストコレクションの多くはこのような位置づけであろう。
しかし真のブレイクスルーを実現した検索システムに対して、これらのテストコレクションがどの程度役に立つかは…ブレイクスルーが実現されない限り厳密にはわからないだろう。