« 2007年05月11日 | メイン | 2007年05月13日 »

2007年05月12日

レレバンス・フィードバック

情報検索入門シリーズ。
意外なことに、現時点では日本語版Wikipediaにrelevance feedback(レレバンス・フィードバック、適合性フィードバック)のエントリは存在しないようである。
私自身はWikipediaの執筆に参加したこともないし今のところする予定もないが、relevance feedbackについて言及せずに検索技術を語ることは不可能なので、簡単に紹介しておく。
以下、私が人工知能学会誌Vol.13 No.1 (1998年)に書いた用語解説「レレバンスフィードバック」からの引用である。

レレバンスフィードバックとは,一言でいうと,とりあえず検索を行ってみて結果をユーザに評価してもらい,この評価情報を利用して検索式を修正する処理のことである.
修正をうまく行って再検索をすれば,よりユーザの要求に近い検索結果が得られるはずである.
さらに,この検索,評価,修正のサイクルを繰り返せば,ユーザの欲しい情報が段階的に得られる可能性がある.
<中略>
ユーザが検索を行う際,あらかじめ検索対象に関する知識を持っていることはまれであり,また検索要求が事前には明確に定まらない場合もある.
たとえ検索要求が明確であても,それを検索システムに可読な形で表現するにはシステムに関する知識が必要となる.
レレバンスフィードバックはこれらの問題に対処するための一手法といえる…

もともとはユーザが「この文書とこの文書は正解。こういうのをもっと検索して」と明示的にシステムに教えるものであった。
しかしこれではユーザも大変なので、例えばWeb検索において、検索結果一覧の中でユーザがクリックした文書や長時間閲覧した文書があれば、これらを正解と見なしてフィードバックを行うことも考えられる。
このようにユーザに意識させないものをimplicit (relevance) feedbackと呼び、従来型をexplicit (relevance) feedbackと呼んで区別することもある。

Explicitであれimplicitであれ、relevance feedbackはユーザからなんらかのフィードバック情報を取得する。
これに対し、ユーザの助けを全く借りずに自動的にフィードバックを行う手法もある。
これをpseudo-relevance feedback(擬似適合性フィードバック、スード・レレバンス・フィードバック)という。
別名、blind (relevance) feedback、local feedback
検索結果の上位10件くらいを全て正解であると勝手に仮定してしまい、これをもとに検索条件を勝手に変更して、再検索を行うという無茶なやり方である。
もともと1970年代に考案された手法だが、1990年代のTRECにおける大規模検索実験により初めて、これにより検索有効性が平均的には格段に向上することが示された。
ただし、検索課題毎に調べてみると、全検索課題の4分の1くらいについてはフィードバック適用前よりも検索有効性が下がってしまう。
実用性はまだまだである。
いろいろ取り組みはあるが、擬似適合性フィードバックがうまくいくか否かを自動判定するという研究課題は未解決であると言っていいだろう。

なおTRECやNTCIRなどの検索タスクにおける上位チームは皆なんらかの形でpseudo-relevance feedback (PRF)を行っている。
そろそろ、PRFくらい効果のある新しいbreakthroughが欲しいなあ。

カレンダー

« 2007年05月 »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ

最近のエントリー

フレッシュアイ 社長ブログ