FIT2007査読者への反論
第6回情報科学技術フォーラム(Forum on Information Technology)の査読つき論文部門に投稿していた論文が採録決定となった。
が、評価は、査読者2名とも
6=Strong Accept
5=Accept
4=Weak Accept
3=Weak Reject
2=Reject
1=Strong Reject
の6段階評価のうち4。「しぶしぶ採録」。厳しいなあ。
論文誌とは違い、国際・国内会議では査読者に反論する機会がないので、少しだけここに書いておこう。
私の論文は、Web検索のように再現率を考慮した評価があまり意味をなさない検索シーンにおいて、
適合性のなるべく高い文書をひとつだけ検索する場合に適した評価指標を扱っている。
この評価指標について、査読者の一人は以下のように批判的である。
・ そもそも目的は、ひとつの正解を見つけるということですが、その評価の際に部分 正解(B, Aも?)を使うのは非現実的のように思います。まず、そもそも部分正解がない ような検索要求も多いのではないでしょうか?「日本で一番高い山は?」に部分正解は あるのでしょうか?また、ひとつの正解を見つけるという目的でシステムを構築する際、 部分正解をあえて上位にランキングしないシステムも考えられます(もちろん、部分正 解かどうかをシステムがあらかじめ判断することは困難ですが不可能ではありませ ん)。部分正解を落とせば正解がその分上位に上がるので間接的には問題ないのかもし れませんが、部分正解という想定外の情報を評価尺度に直接に取り込むのは危ういと 思います。
この査読者は、もしかすると「質問の答えとなる事実がひとつか否か」と文書の適合レベルを混同しているのではないだろうか。
たしかに、「日本で一番高い山は?」に対する正解は「富士山」であり、それ以外はちょっと考えられない。
しかし、私がこの論文で議論しているのは文書検索である。
例えば「日本で一番高い山は?」でWeb検索をすると、
答えが富士山であることがひと目でわかる簡潔なページもあれば、
不必要な情報をたくさん含んでおり、さんざんスクロールした結果やっとわかるページもあるだろう。
評価の際にこれらのページを区別したければ、前者を高適合文書、後者を部分適合文書として扱うことは自然だろう。
また、適合レベルを信頼性の観点から定義することも考えられる。
例えば、非常にいんちきくさいブログに
「日本で一番高い山は富士山かもよ~(笑)」(注1)
と書いてある場合と、安倍首相が
「美しい国、日本で一番高い富士山は…」
と政府の公式ページで語っている場合である。
(えっ、いんちきくさいのはどちらかって?)
さらに、もしなるべく見た目がきれいで読みやすいページをシステムに検索して欲しいならば、
読みやすさの観点から適合レベルを定義することも可能かも知れない。
さらにさらに、情報の新鮮度という観点もありうる。
「世界で一番高いビルは?」という質問を考えれば明らかだろう。
もちろん、私の言う部分適合文書を全て不適合文書とみなして評価を行うという立場もあるだろう。
しかしこうすると、「日本で一番高い山は?」に対して何一つ有用なページを検索できないシステムと、
頑張ってスクロールすれば正解が見つかるページを検索できるシステムとの判別は不可能になる。
さらに、適合文書数を減らすと、評価実験全体が不安定になり結果の信頼性が低くなる。
注1: この「(笑)」はあくまでブログテキストの例の一部であり、検索メイニアックの本文ではないことを念のためお断りしておく。
ときに、FITの査読は昨年までは7段階評価だった。
7=Strong Accept
6=Accept
5=Weak Accept
4=Average
3=Weak Reject
2=Reject
1=Strong Reject
しかし、私が情報学基礎研究会を通して
「査読者はacceptするかrejectするか明確に示し、自分の意見に責任をもつべき。Averageは廃止すべき」
と主張したところ、これが採用され今年から6段階になったのだ。
(ちなみに、査読の信頼性を高めるために査読者を3名に増やすという提案は採用されなかった。
査読側の負荷が大きすぎるという判断だろう。)
7段階だったら、私の今回の論文には"Average"がついていたのかも知れない。
いずれにしても研究者は自分の信念を貫けばよいのだ。
たまに人の話にも耳を傾けるふりをしながら。



