地図ではないMAP
情報検索入門シリーズ。
情報検索の研究をやっている人で、MAPと聞いて地図を思い浮かべるひとはあまりいないだろう。
検索メイニアックにとってMAPとは、現在最も広く使われている情報検索評価指標、Mean Average Precisionを意味する。
再現率と精度のトレードオフについては再現率と精度のエントリおよびhobokingさんへのお返事で述べた。
Average Precisionは再現率と精度を統合した評価指標で、順位つき検索結果の評価に適している。
(ところで最近、検索結果の順位を明示しない検索エンジンがあるが、
個人的には潔く順位くらいは示してくれたほうが使い勝手がいいと思う。)
検索結果の上位から順番に、文書(例えばwebページ)が正解であるかそうでないか調べていく。
そして、正解を見つけるたびに精度を計算する。
例えば、1位が不正解、2位が正解である場合、2位における精度は1/2。
さらに3位と4位が不正解、5位が正解である場合、5位における精度は2/5。
このように、検索された全ての正解について精度を計算して足し合わせ、最後に全正解数で割る。
Average Precision = 検索された各正解の順位における精度の和/全正解数
日本語では平均精度という。
分子には「検索された正解」しか出てこないのに対し、
分母は「検索された正解数」ではなく「全正解数」であることに注意しよう。
つまり、Average Precisionは、検索されなかった各正解についての精度はゼロとみなした上で、
全正解についての精度の平均をとったものである。
Average Precisionは、検索結果の上位の変動に非常に敏感な指標である。
その値は、例えば99位の正解と100位の不正解が入れ替わってもはそう変わらないが、
1位の正解と2位の不正解が入れ替わるとかなり変わる。
検索システムを評価する際には、一般に数十以上の検索課題を使って評価する。
Average Precisionを各検索課題について算出し、
これらを全検索課題について平均したものをMean Average PrecisionすなわちMAPという。
平均精度の平均は日本語で何と呼べばよいのだろう。平均平均精度?
実際は単に平均精度あるいはMAPと呼ばれている。
同様の混乱は英語圏でも生じている。
ひとつの検索課題のAverage PrecisionのことをMAPと呼んでしまっている論文が結構あるのだ。
MAPがあまりに呼びやすい名前であることも一因だろう。
また、逆数順位(Reciprocal Rank)という別の評価尺度を検索課題セットについて平均した
Mean Reciprocal Rank (MRR)についても同様の混乱が見られる。
つまり、RRというべきところをMRRと書いている論文がたまにあるのである。
私は国際会議や国際論文誌の査読でこういう論文に出くわした場合、一言つっこむようにはしている。
さて、MAPやMRRなどの情報検索評価指標についてもう少し知りたいという方には
下記文献をご一読いただきたい。
酒井哲也:
よりよい検索システム実現のために:正解の良し悪しを考慮した情報検索評価の動向,
情報処理 Vol.47 No.2 (2006)
この解説記事に対する読者のご意見(少しスクロールすると見つかります)
上記解説記事には一か所ちょっとした間違いがあるが、これについてはまたの機会に...



