« 2007年08月18日 | メイン | 2007年08月22日 »

2007年08月20日

検索評価指標の感度、栗原恵、高橋みゆき

日本にとってのバレーボール・ワールドグランプリが終わってしまった。
しかし日本の選手は美しく強かった。
実は負け越しだが、諸外国の強豪とフルセットで競り合うなど、見ごたえはあった。

負けても見ごたえがある一因として、バレーボールのスコアの粒度の細かさがあると思う。
僅差のチーム同士だと、25対23などということになって、
結果的に負けても、チームがどれくらい頑張ったかが定量的に評価できる。
(え、かわいい娘に甘いって? 当たり前じゃないか。)

スコアの粒度が粗いチーム競技の代表といえばサッカーか。
例えば1対0で負ける。
0点のほうは、健闘したのかも知れないし、全然だめだったのかも知れない。
本当はかなり健闘したのだとしてもスコアには反映されないので、観客は「全然だめ」と主観的に判断し、フーリガンと化す。
さらに、粒度が粗いスコア方式では「まぐれ」が起こる確率も高い。
勝つはずのチームが負けると、サポータはフーリガンと化す。


サッカーのルールもあまりよくわかっていない私のこのいい加減な議論は、
私が研究をしてきた情報検索の評価指標の感度(判別能力)に関する議論と似ている。
例えば10種類の検索エンジンがあったとき、その組み合わせの数は
10*9/2=45通りあるが、各組み合わせについて個別に(注1)統計的検定を行った場合、
いくつの組み合わせについて有意差が得られるかを判別能力と定義し、
同条件のもとで(第一種の誤りの確率を固定した下で)複数の評価指標の判別能力を比較し、
同時に、平均的にどれくらいの絶対差があれば統計的に有意となるかを推定する、
という地味な研究の話である。

(注1) 個別でなく、まとめて統計的検定をやる方法もある。

このような取り組みに対し、「感度が高いイコール良い評価指標とは限らない。
ユーザの主観的判断はもっと粒度が粗いはず」という人もいる。
しかし、システムの最適化を効率よく行うには、
ユーザの主観判断と高い相関を示し、かつ、感度のよい評価指標を用いることが望ましい。
なぜなら、例えば{0,1}の2つの値しかとらない評価指標を使ってシステムをチューニングしようとしても、
0と評価されたシステムが健闘しているのか、全然だめなのか全くわからず、改良のしようがないからである。
欲しいのは、どんな局面にあっても、システムを正しい方向に優しく導いてくれる指標である。
ちなみに、統計的有意差が実際に役に立つための十分条件であるなんて誰も言っていない。


サッカーで、ゴールの大きさを2倍にする、あるいは、おしくもはずれたシュートには0.5点あげる、
などというルールの改変を行っても、フーリガンは減らないものだろうか。
得点したときのあの幸福感が損なわれる分、得点しなかったときの不満が緩和されたりしないだろうか。
ううむ、パブでのサッカー観戦が盛り上がらなくなりそうだなあ。

やはり私は栗原恵高橋みゆき達について行こう。

カレンダー

« 2007年08月 »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ