hobokingさんへのお返事
再現率と精度のエントリに対してhobokingさんからご質問をいただいた。
リプライが長くなりそうだったので、以下、新規エントリとして書いてみた。
Dear hobokingさん
酒井博士教えてください。 再現率の「検索された文書数」が変動する事ってあるのでしょうか? あるとすればどんなときでしょうか? 例えばフレッシュアイなんかで、巡回ロボットが回った前と後って事になるのでしょうか? 実験のときなんかは人為的に変動させるのでしょうか?
頭髪が多かったころは佐野元春に似ていると言われていた酒井です。
「20件などとけちなことは言わずにもっとたくさん検索すれば当然再現率は上がるが、一般にはその分、精度が下がる。」
という説明が少しわかりにくかったかも知れません。
再現率と精度はもともと、検索対象とする文書セットが小さくて、
システムが検索条件(例えば「佐野元春 AND hoboking」)にマッチした文書を片っ端から出力すれば良かった時代の指標です。
検索条件にマッチするものが文書セット中にそもそも20件しかないなら、
「20件などとけちなことは言わずにもっとたくさん検索」というのは当てはまりません。
ところが近年、検索対象とする文書セットのサイズが数十万~数十億になり、
「検索条件に200万件ヒットしました」といって200万件全部をユーザに丸投げするシステムは許されなくなりました。
そこで登場した順序つき検索システムは、ご存知のとおり、実際は200万件くらいヒットした文書があっても、文書に順位をつけて上位から10件ずつユーザに提示したりします。
この場合、第何位までを「検索結果」と見なして再現率と精度を計算するかで評価値が変わってきます。
「再現率と精度のトレードオフ」というのはこういう事情を想定して書いたものです。
それではこのトレードオフを考慮し、実際に順序つき検索システムを定量的に評価するには?
これについては近日中に別途エントリを書きます。
hobokingさんの「実験のときなんかは人為的に変動させるのでしょうか?」というご質問に関連するものです。
さて、hobokingさんの「巡回ロボットが回った前と後」に関するご質問に関して、以下に整理してみたいと思います。
再現率と精度の計算には、「正解」(適合文書)がどれかを定義する必要があります。
正解集合は検索対象セットの部分集合ですから、まずは検索対象セットをはっきりと定める必要があります。
つまり、再現率と精度による評価は、基本的に検索対象セットが不変であるという前提に基づくものです。
とはいえ、実際のWeb環境では、刻々と生成・変更・削除される文書があり、これらをクロールするロボット側の都合もあり、
検索対象セットは絶えず移り変わっています。
そこで、このような環境に対して再現率・精度ベースの評価を行うには、
Webの「スナップショット」、すなわちある瞬間の状態を冷凍保存したものを作成し、
静的な検索対象セットとして扱うことが基本となります。
ただ、こうして得られたスナップショットは当然どんどん陳腐化していきます。
そこで、上記スナップショットから正解を選んでおいて、こちらだけ不変なものとして扱い、
検索対象の文書セットのほうだけなるべく新しいものを用いるという考え方もあります。
人手で正解を選び出す作業はそう何度もやっていられないからです。
しかしこうすると、正解としてリストアップされている文書が、最新の検索対象セット中には実在しないというケースも出てきます。このような評価データのことをimperfectであると言います。
また、Webのように検索対象セットが膨大だと、そもそも予め網羅的に正解を見つけておくこと自体困難です。
このように、正解が網羅的に収集されていない評価データのことをincompleteであると言います。
これらの用語を日本語に訳すときはどうするのでしょうね。どちらも「不完全」?
個人的には、英語ではimperfectでなくunsoundと呼んでもらうことにして、soundness=「健全性」、completeness=「完全性」と訳すのがすっきりすると思うのですが。
「不完全」なデータを扱った情報検索評価の研究は実は始まったばかりで、まだまだ「不完全」です。
ご質問ありがとうございました。



