メイン | 2007年05月 »

2007年04月27日

NTCIR(エンティサイル)もよろしくお願いします

既に紹介した国際ワークショップEVIAは、NTCIR(エンティサイル)という評価型ワークショップの成果報告会の併設ワークショップである。
なんのこっちゃ。ようするにEVIAはNTCIRの一部である。
5月15~18日に開催される第6回NTCIRの成果報告会の初日がEVIAである。

評価型ワークショップとは、ようするに研究者のためのオリンピックのようなもの。
世界中の出場者が一斉に同じデータを使った研究課題(タスク)に取り組んで、自分のシステムによる処理結果を期限までに提出し、結果を比較し、議論を行い、その研究分野を活性化させる仕組みである。
競争と協調が共存するイベントである。
情報アクセス技術に関する世界の三大評価型ワークショップといえば、米国National Institute of Standards and Technology主催のTREC(トレック)、欧州言語を対象としたCLEF(クレ)、そしてアジア言語を対象とした国立情報学研究所主催のNTCIRである。
昨年の第5回NTCIRには12ヶ国から102チーム(重複含む)の参加があったという。

第6回NTCIR(NTCIR-6)は、新聞や特許の言語横断情報検索(cross-language information retrieval)、つまりユーザの言語と検索対象の言語が異なる場合の検索、質問応答(question answering)、つまり文書のリストを出力するのではなく、例えば「ニューズウォッチの社長は?」のような質問に対する回答をずばり文字列で出力するもの、意見分析(opinion analysis)、つまり文書から意見を述べている文を抜き出して肯定的か否定的かなどを判定するものをカバーしている。

「NTCIRの母」あるいは「NTCIRのおねえさん」(ご本人はこちらをご希望)として知られているのが国立情報学研究所の神門典子(かんどのりこ)先生である。
世界中を飛び回って招待講演などをこなしつつ、NTCIRの全てを取り仕切っているすごい方である。
先日、今度の成果報告会で参加者に配るバッグのデザイン・配色にまで駄目出しをされているのを見て驚いた。
(国際会議に参加すると分厚い論文集などが配布されるので、これらを持ち歩くためにバッグが支給される。
一般的には、スポンサー会社のロゴがべたべた貼ってあり普段使うには恥ずかしすぎるものが多いのだが、NTCIRは数少ない例外である。
そういえば昨年シンガポールのSentosa島でやった別の国際会議で配られたのはbeach bagだったな。)

約一年半に一度のサイクルで開催されるNTCIRに私は毎回参加している。
英国留学中もStephen Robertsonらと参加した。
今回のNTCIR-6では「東芝チーム」として言語横断検索タスクに参加し、提出した全ての種目でトップの成績を出すことができた。
なにしろNTCIRに手を染めてもう10年目である。継続は力なり。
評価型ワークショップはコンテストではなく、よい成績よりも有用な知見を得ることのほうが重要だが、両方得られればそれに越したことはない。
また私はNTCIR-6のInformation Logistics Chairということになっている。
定義はよくわからないが、一応全ての論文を電子的に管理する係はやってきた。

EVIAとNTCIRの様子はなるべくリアルタイムに検索メイニアックに綴りたいと思っているが、
期間中は毎晩遅くまで外国人研究者との「discussion」になりそうな気配。
ときに最近、「discussion」の余韻が翌日まで残ることが多いのは歳のせい?

2007年04月26日

雪のボストン氷の微笑

雪のボストンの朝。
当時東芝の社員だった我々は、いつものように米ベンチャー企業に出勤するため、AVISで借りたレンタカーに乗り込んで出発した。
と思ったらドカーンとぶつかった。

我々がぶつかった車は道路をスリップしながら、路肩の雪の壁に何度かぶつかった後に停止。
米国なので当然、baseball batを片手に持った大男が車から出てきて、大声を上げながら我々の車の
フロンドガラス(英語ではwindscreen、米語ではwindshield)を叩き割った。

という展開になると思ったのだが、実際に相手の車から出てきたのはSharon Stone似の女性。
首を横に振り、肩をすくめて「いったいどうしたっていうのよ?」という表情で我々の車に近づいてきた。

事故の状況は図の通りである。
sharon.jpg

私はとっさに助手席から降りて「Are you all right!?」とSharonに駆け寄った。
事故は100%こちらの落ち度であること、雪が積み上げられていたために視界が悪かったこと、我々は東芝の社員でもうすぐ日本に帰国予定であること、車はAVISのレンタカーであり保険に入っていることを説明し、名刺を渡した。
するとSharonも表情を和らげ、我々のAVISの書類や免許証の情報を控えたあとは
「I don't want you to stand in the cold」(寒い中ずっと立たせてるのも悪いわ)
と言ってくれた。

幸いSharonの車も我々の車も一応まだusableであった。
夜Sharonに電話して、まず鞭打ちなどになっていないか聞いた。
Sharonは元気で、AVISには連絡済みで、保険で全てカバーされるのでeverything will be fineと言ってくれた。
もちろん私のほうもAVISに電話したが、電話に出たAVISの女性は本当に、ものすご~く、態度が悪かった。
(そういえば村上春樹氏も何かの本にAVISは印象が悪いと書いていたなあ。)

この事故について報告するため、日本にいる東芝の上司にボストンから送ったメイルのsubjectは「car accident」。
当時の上司は青ざめたそうである。

事故の相手がSharonでなかったら、我々はその場で射殺され、ニューズウォッチ設立計画は白紙になったかも知れない。
いや、延期くらいかな。

Basic Instinct (氷の微笑)

2007年04月23日

EVIA(エヴィア)をよろしくお願いします

5月15日に学術総合センター(神保町・竹橋)にて、第一回情報アクセス技術評価に関する国際ワークショップ「EVIA 2007」が開催される。
私はこのワークショップのチェアをやっている。やっと当日の講演プログラムが確定した。
日本語の参加案内も作成した。以下がその内容。
検索技術の評価に関心がある方、参加をお待ちしております!



第一回情報アクセス技術評価に関する国際ワークショップ
EVIA 2007 (The First International Workshop on Evaluating Information Access)参加案内
~半日で学ぶ、世界の研究最先端~

期日: 2007年5月15日 13:00-18:00
会場: 学術総合センター(神保町・竹橋)


膨大な情報の中から所望の情報に効率良くアクセスするための情報アクセス技術
(例えば検索、質問応答、要約、テキストマイニング)の研究には、適切な評価方
法および評価データの確立が不可欠です。一方、情報アクセス技術およびその
評価方法の方向性は、各国の社会的背景、言語特性、市場などに依存します。例
えば米国ではテロ対策としての情報収集技術が、インドでは国内の多言語情報を
対象とした高度な検索技術が、国家レベルの重要課題となっています。またアジ
アにおけるウェブ検索市場を見ても、Google独占状態の国もあれば、中国や韓国
のように、独自のポリシーに基づく国産検索エンジンがユーザから高い評価を得
て、米国産エンジンを抑えているケースもあります。このような背景から、世界
各国で情報アクセス技術評価に取り組んでいる研究者が集結し、グローバルな観
点から議論を行う場として、第一回情報アクセス技術評価に関する国際ワークシ
ョップEVIA(エヴィア)2007を開催することになりました。

EVIA 2007は、国立情報学研究所主催の国際ワークショップNTCIR-6の併設イベン
トで、NTCIR-6に参加登録された方ならどなたでも参加できます(下記URL参照)。
学生さんなら無料参加できます!(*注1)

(*注1)無料参加の場合、論文集はつきません。ですが、EVIAの論文は全てNTC
IRウェブサイトに掲載され、EVIA開催当日より閲覧可能となります。

今回のEVIAでは、米国の評価型ワークショップTREC(Text Retrieval Conference)
のオーガナイザであるIan Soboroff氏による最新の情報検索評価方法に関する招
待講演や、ベトナム・タイ・インド・中国における新しい情報検索評価の潮流に
関する招待講演の他、欧州の評価型ワークショップCLEF(Cross-Language
Evaluation Forum)に関連する発表や、新しい評価指標に関する発表などが行われ
ます。詳細プログラムについては下記EVIA 2007ホームページをご覧ください。

EVIAに参加すれば、たった半日で世界の情報アクセス評価の動向が把握できます!
ご参加をお待ちしています。なお、講演および議論は英語で行われます。

EVIA 2007ホームページ:
http://research.nii.ac.jp/ntcir/ntcir-ws6/pmw-en.html
NTCIR-6参加登録ページ:
http://research.nii.ac.jp/ntcir/ntcir-ws6/meeting/registration_ws6.html

EVIA 2007 チェア:
Mark Sanderson (University of Sheffield)
酒井 哲也 ((株)ニューズウォッチ)

2007年04月22日

The Rebels Will Strike Back

検索メイニアックの記念すべき第一エントリで書いたように、ニューズウォッチはもともとボストンのベンチャー企業との合弁会社だった。
この米ベンチャーにはいろんな人がいた。10年以上前のことなのに何故かよく覚えている。

ものすごく優しかった技術屋のF氏。
銀座のニューズウォッチのオフィスを立ち上げた当初、彼には様子を見に来日してもらった。
オフィスの近くで一緒にそばを食べているとき「I am gay」と言われた。重い身の上話も聞いた。
Black Blackという商品名のガムを見て「米国ではこんなガムのネイミングあり得ない!」と笑っていた。
日本人の感覚でも、美味しそうな名前というわけではないのだが。

6~7ヶ国語を操るという営業系のA氏。
女優並みにきれいな日本人の女の子とボストンで同棲していた。
六本木でナンパしたという。よく喋る奴だった。
東芝の研究所のむさい男3人一緒にボストンで自炊生活をしていた頃は、彼らにさんざん見せつけられた。
対抗するわけではないが、私だって母親が大阪人、父親が京都人なので、関西弁も日常会話程度ならできるぞ。

ミッキーマウスのネクタイがお茶目なY社長。
東芝の研究所に遊びに来たとき、何を思ったか「S?X」という英単語を含むジョークを連発していたが、その場にいた日本人はもちろん皆無反応。
彼のその後の運命は先に触れた第一エントリで書いたとおりである。

ボストンのオフィスには、他にも若くて元気のよい開発者がいた。
マイクロソフトをGalactic Empire(銀河帝国)と呼び、自分たちをrebel forces(反乱軍)になぞらえ、少数派でも帝国の弱点を見つけて闘うという趣旨の雑談をしてくれた。
今思い出したが、そのとき「ベンチャーってすごいな~」と思った。

実は私もThe Dark Side(暗黒面)に落ちかけたことがあるが、最近は銀河系もだいぶん様変わりした。
Rebelsも頑張らないとな…

2007年04月17日

地図ではないMAP

情報検索入門シリーズ。
情報検索の研究をやっている人で、MAPと聞いて地図を思い浮かべるひとはあまりいないだろう。
検索メイニアックにとってMAPとは、現在最も広く使われている情報検索評価指標、Mean Average Precisionを意味する。

再現率と精度のトレードオフについては再現率と精度のエントリおよびhobokingさんへのお返事で述べた。
Average Precisionは再現率と精度を統合した評価指標で、順位つき検索結果の評価に適している。
(ところで最近、検索結果の順位を明示しない検索エンジンがあるが、
個人的には潔く順位くらいは示してくれたほうが使い勝手がいいと思う。)

検索結果の上位から順番に、文書(例えばwebページ)が正解であるかそうでないか調べていく。
そして、正解を見つけるたびに精度を計算する。
例えば、1位が不正解、2位が正解である場合、2位における精度は1/2。
さらに3位と4位が不正解、5位が正解である場合、5位における精度は2/5。
このように、検索された全ての正解について精度を計算して足し合わせ、最後に全正解数で割る。

Average Precision = 検索された各正解の順位における精度の和/全正解数

日本語では平均精度という。
分子には「検索された正解」しか出てこないのに対し、
分母は「検索された正解数」ではなく「全正解数」であることに注意しよう。
つまり、Average Precisionは、検索されなかった各正解についての精度はゼロとみなした上で、
全正解についての精度の平均をとったものである。

Average Precisionは、検索結果の上位の変動に非常に敏感な指標である。
その値は、例えば99位の正解と100位の不正解が入れ替わってもはそう変わらないが、
1位の正解と2位の不正解が入れ替わるとかなり変わる。

検索システムを評価する際には、一般に数十以上の検索課題を使って評価する。
Average Precisionを各検索課題について算出し、
これらを全検索課題について平均したものをMean Average PrecisionすなわちMAPという。
平均精度の平均は日本語で何と呼べばよいのだろう。平均平均精度?
実際は単に平均精度あるいはMAPと呼ばれている。

同様の混乱は英語圏でも生じている。
ひとつの検索課題のAverage PrecisionのことをMAPと呼んでしまっている論文が結構あるのだ。
MAPがあまりに呼びやすい名前であることも一因だろう。
また、逆数順位(Reciprocal Rank)という別の評価尺度を検索課題セットについて平均した
Mean Reciprocal Rank (MRR)についても同様の混乱が見られる。
つまり、RRというべきところをMRRと書いている論文がたまにあるのである。
私は国際会議や国際論文誌の査読でこういう論文に出くわした場合、一言つっこむようにはしている。

さて、MAPやMRRなどの情報検索評価指標についてもう少し知りたいという方には
下記文献をご一読いただきたい。

酒井哲也:
よりよい検索システム実現のために:正解の良し悪しを考慮した情報検索評価の動向,
情報処理 Vol.47 No.2 (2006)
この解説記事に対する読者のご意見(少しスクロールすると見つかります)

上記解説記事には一か所ちょっとした間違いがあるが、これについてはまたの機会に...

2007年04月16日

hobokingさんへのお返事

再現率と精度のエントリに対してhobokingさんからご質問をいただいた。
リプライが長くなりそうだったので、以下、新規エントリとして書いてみた。

Dear hobokingさん

酒井博士教えてください。 再現率の「検索された文書数」が変動する事ってあるのでしょうか? あるとすればどんなときでしょうか? 例えばフレッシュアイなんかで、巡回ロボットが回った前と後って事になるのでしょうか? 実験のときなんかは人為的に変動させるのでしょうか?

頭髪が多かったころは佐野元春に似ていると言われていた酒井です。

「20件などとけちなことは言わずにもっとたくさん検索すれば当然再現率は上がるが、一般にはその分、精度が下がる。」
という説明が少しわかりにくかったかも知れません。

再現率と精度はもともと、検索対象とする文書セットが小さくて、
システムが検索条件(例えば「佐野元春 AND hoboking」)にマッチした文書を片っ端から出力すれば良かった時代の指標です。
検索条件にマッチするものが文書セット中にそもそも20件しかないなら、
「20件などとけちなことは言わずにもっとたくさん検索」というのは当てはまりません。

ところが近年、検索対象とする文書セットのサイズが数十万~数十億になり、
「検索条件に200万件ヒットしました」といって200万件全部をユーザに丸投げするシステムは許されなくなりました。
そこで登場した順序つき検索システムは、ご存知のとおり、実際は200万件くらいヒットした文書があっても、文書に順位をつけて上位から10件ずつユーザに提示したりします。
この場合、第何位までを「検索結果」と見なして再現率と精度を計算するかで評価値が変わってきます。
「再現率と精度のトレードオフ」というのはこういう事情を想定して書いたものです。

それではこのトレードオフを考慮し、実際に順序つき検索システムを定量的に評価するには?
これについては近日中に別途エントリを書きます。
hobokingさんの「実験のときなんかは人為的に変動させるのでしょうか?」というご質問に関連するものです。

さて、hobokingさんの「巡回ロボットが回った前と後」に関するご質問に関して、以下に整理してみたいと思います。

再現率と精度の計算には、「正解」(適合文書)がどれかを定義する必要があります。
正解集合は検索対象セットの部分集合ですから、まずは検索対象セットをはっきりと定める必要があります。
つまり、再現率と精度による評価は、基本的に検索対象セットが不変であるという前提に基づくものです。

とはいえ、実際のWeb環境では、刻々と生成・変更・削除される文書があり、これらをクロールするロボット側の都合もあり、
検索対象セットは絶えず移り変わっています。
そこで、このような環境に対して再現率・精度ベースの評価を行うには、
Webの「スナップショット」、すなわちある瞬間の状態を冷凍保存したものを作成し、
静的な検索対象セットとして扱うことが基本となります。

ただ、こうして得られたスナップショットは当然どんどん陳腐化していきます。
そこで、上記スナップショットから正解を選んでおいて、こちらだけ不変なものとして扱い、
検索対象の文書セットのほうだけなるべく新しいものを用いるという考え方もあります。
人手で正解を選び出す作業はそう何度もやっていられないからです。
しかしこうすると、正解としてリストアップされている文書が、最新の検索対象セット中には実在しないというケースも出てきます。このような評価データのことをimperfectであると言います。

また、Webのように検索対象セットが膨大だと、そもそも予め網羅的に正解を見つけておくこと自体困難です。
このように、正解が網羅的に収集されていない評価データのことをincompleteであると言います。

これらの用語を日本語に訳すときはどうするのでしょうね。どちらも「不完全」?
個人的には、英語ではimperfectでなくunsoundと呼んでもらうことにして、soundness=「健全性」、completeness=「完全性」と訳すのがすっきりすると思うのですが。

「不完全」なデータを扱った情報検索評価の研究は実は始まったばかりで、まだまだ「不完全」です。
ご質問ありがとうございました。

2007年04月14日

検索界と音楽界のメイニアックなつながり

社長ブログに私とMichael Sembelloの「メイニアックつながり」の話が出たが、重要なことを思い出した。
検索界と音楽界には、メイニアックな人にとっては衝撃的なつながりがある。
日本でこれを知っている人は殆どいないだろう。

tf-idfのエントリでちらっと紹介した私の英国の恩師Stephen Robertson
確率モデル(probabilistic model)という情報検索アルゴリズムの体系を築き上げた大家。
もともとロンドンのCity大学の先生だったが、当時の英マイクロソフト研究所所長Roger Needham
(Karenの夫。追悼Karen Sparck Jonesのエントリ参照。)
にヘッドハンティングされてマイクロソフトに入社した。
Okapi BM25という彼が考案した検索アルゴリズムは、検索研究者の間で最もポピュラーであると言っても過言ではない。

私は英国留学時代、BM25が実装されたOkapiというシステムを実際に使って研究していた。
BMとはBest Matchの略で、ようするに各検索キーワードに重みを与えて、順位つきで検索結果を出すこと。
例えば"information retrieval"で検索する場合、まず"information"と"retrieval"の両方を含む文書を検索し、その後にいずれかの語のみを含む文書を検索する。
対義語はExact Match。例えば、"information retrieval"というフレーズをそっくりそのまま含む文書のみ検索する。
"retrieval of information"だけ含む文書も"retrieval"だけを含む文書も検索しない。
25というのは検索アルゴリズムのバージョン番号で、本当はBM11とか、BM2500とか、内部的にはいろいろな番号がある。

話がそれてしまったが、とにかくStephen Robertsonは現在の検索界で最も有名な人の一人で、例えばACM SIGIRからSIGIR Award (Gerard Salton Award)を受賞した6番目の人間である。
(SIGIRについてはこちらのエントリ参照。)

さて、80年代の英国のポップスを聞いていた方。
Thomas Dolbyを覚えているだろうか。
シンセサイザーポップスの黎明期に活躍し、米国でもShe Blinded Me with Scienceというヒットをとばし、坂本龍一とフィールドワークという曲を作ったりもしていたあの人である。
私は英国音楽を好むのでCDを一枚もっている。初期のピコピコサウンドが好きである。

ここで問題。Stephen RobertsonとThomas Dolbyは何つながりでしょう。

これは昨年11月、私がStephen Robertson本人から直接聞いた情報なので確かなもの。
以下、その時のSteveと私の会話のおおまかな日本語訳。
Steve:「Tetsuya、最近ホームページ見たけど君はミュージシャンだったんだね。CD作ったりしてるの?」
私:「学生の頃、レコード会社にデモテープは送ったけど断られたよ。」
Steve:「そうか。ぼくの弟は、結構successfulなミュージシャンなんだよ。」
私:「有名なの?なんていう名前?」

その後は想像がつくだろう。
そう、二人のつながりは、血のつながり。They're real brothers!
この事実を知った瞬間、私の脳の左上にあったStephen Robertsonに関する情報を格納したニューロンと、
右下の隅っこにあったThomas Dolbyに関する情報を格納したニューロンとの間に、
ズバッと音がして太いリンクがはられたのを感じた。ずばリンク。衝撃だった。
当たり前と言えば当たり前なのだが、SteveはThomas Dolbyのことを「Tomよばわり」していた。

でもこの驚きはSteveとThomas Dolbyのことを両方知っているメイニアックな人としか分かち合えないのである。
友達募集。

2007年04月12日

再現率と精度とSwanson

情報検索入門シリーズ。
検索システムを評価する際の古典的な評価尺度に再現率(recall)精度(precision)がある。
再現率とは検索における「もれ」の少なさを、精度は検索における「ごみ」の少なさを意味する。
「もれ」とは、本来検索すべきであるのに検索できなかった文書(webページ、新聞記事、画像など、検索の単位となるもの)、
「ごみ」とは、本来検索すべきでないのに検索してしまった文書のことである。

再現率=検索された正解文書数/正解文書数
精度=検索された正解文書数/検索された文書数

例えばある検索要求に対し、本来検索されるべき文書(すなわち正解)が10件あり、
実際検索された全文書数は20件で、うち5件だけが正解(適合文書=relevant documentsという)であったとする。
この場合、再現率は10件中5件なので0.5、精度は20件中5件なので0.25。

20件などとけちなことは言わずにもっとたくさん検索すれば当然再現率は上がるが、一般にはその分、精度が下がる。
すなわち再現率と精度はトレードオフの関係にある。

さて、意味は同じだが、日本語では「再現率と適合率」という言い方も広く使われている。
たしかにこちらのほうが語呂がよい。
Recallのほうが「率」でprecisionのほうが「度」というのも気持ちが悪いし。
しかし、適合率は本来relevance ratioの訳語で、これはほとんど死語なのである。

文献
Swanson, D. R.:
Historical Note: Information Retrieval and the Future of an Illusion,
Journal of the American Society for Information Science, 39, pp.92-98 (1988)
によれば、
1955年にrecallとpertinency factorという尺度が定式化され、後者がのちにrelevance ratioと呼ばれるようになり、
1965年くらいにprecision ratioに落ち着いたそうである。(最近では単にprecisionという。)
したがって私は、相手に通じないと判断した場合を除いて「再現率と精度」と言うようにしている。

ついでに、「検索精度」という言葉もよく使われるが、
実際には再現率と精度の両方を考慮している場合が多いので、これまた気持ちが悪い。
英語だとretrieval effectivenessなどというので、検索有効性というふうに訳したりするが、まだ普及はしていない。
最後にそれぞれのdf(文書頻度)を比べてみよう。(tf-idfのエントリ参照。)
「検索精度」の検索結果
「検索有効性」の検索結果

2007年04月10日

転職してよかったことランキング

転職してはや二ヶ月。
転職の一般的なメリット・デメリットはさておき、
私の場合で特筆すべき「転職してよかったこと」「驚いたこと」をカウントダウン。

転職してよかったことトップ5

第5位:ランチの選択肢が豊富。
東芝の研究所では社内食堂以外の選択肢はないに等しい。
ただし、銀座ランチは油断するとお金がかかるし、体重も気になるので、
私は「冷凍食品盛り合わせ弁当」を自分で作って持参している。
ん?「転職してよかったこと」になっていない?

第4位:通勤が楽。
仕事や学会関係の外出にものすごく便利。
東芝の研究所は駅からバスに乗らなければならず、不便だった。

第3位:友人が多い。
ニューズウォッチには古くからの友人や元同僚が結構いるので、
転校生が経験するような緊張感・心細さとは全く縁がなかった。感謝。

第2位:社長とブレインストーミングが出来る。
それだけでなんとなく会社に貢献しているような錯覚に陥る。(錯覚である。)
東芝の社長が私とブレインストーミングをしてくれる日は…当たり前だが永久に来なかっただろう。

第1位:自分の研究成果が外に出るまでの道のりが短い。
なにしろベンチャーなので、ベンチャーの定義により、その気になればその日のうちにサービスを立ち上げられる(はず)。
東芝を悪く言うつもりはないが、一般に大企業では、研究所の成果を事業部にて
ビジネスにしてもらうまでの道のりは険しいだろう。

転職して驚いたことトップ5

第5位:「下で飲む」。
私の歓迎会の会場は、銀座東芝ビルのオフィスから出てエレベータで降りた地下のお店。
17:57にオフィスを出れば18:00に乾杯できる。昨日も下で飲んだ。

第4位:社員の出社時間がかなりflexible。東芝よりもさらにflexible。

第3位:へんな外国人から会社によくいたずら電話がかかってくる。
東芝にはよく不動産の勧誘電話がかかってきたが、だいたい日本語だった。

第2位:鼻炎が治った。
東芝では毎日鼻をかんでいたが、あれは自分の机の上がゴミ置き場状態だったからだな。
今は、たいして書類もないし、社内のルールが厳しいので机の上は汚くない。
したがって鼻水も出ない。

第1位:なぜか「所属:営業」と書いた給与明細が私に手渡される。新鮮。
ちなみに東芝ではブラウザで給与明細を表示して自分でこっそりプリンタで印刷。ありがたみがなかった。

2007年04月09日

A good fight at SIGIR?

情報検索(Information Retrieval=IR)の国際会議ACM SIGIRに今年投稿していた論文がaccept(採録と判定)された。
ACMは学会の名前。SIGIRはSpecial Interest Group on Information Retrievalのことだが、日本ではシグアイアール、英語では「スィガイアー」に近い発音で呼ばれている。
1978年から毎年やっており、今年でちょうど30年目!
SIGIRの歴史

SIGIRの採択率(acceptance rate)は90年代には25%程度で安定していたが、最近はこの分野の競争が激化しており、採択率も下がっている。
下記の表は、今世紀になってからの論文投稿数、採択数、採択率をまとめたものである。
投稿数の伸びを見てほしい。まさに検索の時代!

投稿数 採択数 採択率
2007 491 86 17.5%
2006 399 74 18.5%
2005 368 71 19.3%
2004 267 58 21.7%
2003 266 46 17.3%
2002 219 44 20.1%
2001 201 47 23.4%

私の論文がSIGIRでacceptされたのはおかげさまで3回目だが、投稿自体は2000年以来ほぼ毎年やってきた。
つまりrejectされた(不採録とされた)経験も豊富である。
それだけに採録の知らせはビール一年分が当たったくらい嬉しい。
しかも今年は開催地がAmsterdam!留学時代に遊びに行って以来である。
SIGIRにおける私の最初の論文はKarenと連名であったが、今回は彼女のプレゼントかも知れない。
(追悼Karen Sparck Jonesのエントリ参照。)

なお、SIGIRには別途ポスター論文(通常の論文が8ページであるのに対し、こちらは2ページ)を投稿することも可能であり、こちらはさほど「狭き門」ではない。
SIGIRに参加してみたいという方はまずはポスターから挑戦して会議の雰囲気を偵察することをお勧めする。

SIGIRの査読は、3人の査読者と、専門分野毎のメタ査読者の合計4名により綿密に行われる。
(私自身も論文とポスター両方の査読を担当した。)
査読者間の意見が食い違う場合にはもう1名査読者がつく場合もある。この点、SIGIRは非常に丁寧である。
それでもたまに、「なんでこれが採録されてるの?」と思うことがあるのは、査読があくまで主観に基づくものであるため致し方ない。

さて、今回の私の論文に対する査読内容の一部を抜粋し、いいかげんな訳をつけてみる。

> The paper concludes that some metrics (Q', nDCG' and AveP') are better
> than others (bpref) in this respect. That should start a good fight.
>
> Controversy is great for conferences. A good fight is likely to pack the
> halls. Controversy is almost better than correctness. I'm not saying the
> paper is right or wrong, but merely, people will have strong opinions,
> which is good for the conference.

「論文は、bpref(という最近使われはじめた検索評価指標)よりも、Q', nDCG', AveP'という評価指標のほうがこの観点から優れていると結論づけている。
こりゃおもしろい喧嘩になるぞ。

国際会議で論争が起こるのは素晴らしいこと。
おもしろい喧嘩が始まれば、会場は人でいっぱいになる。
賛否両論というのは正しいことよりもむしろいいことかも。
この論文が正しいとか間違ってるとか言うつもりはないが、聴衆はこの論文に対して強い意見をもつだろう。
これはSIGIRにとってよいことだ。」

こわいよう。

そうなのだ。私の論文は、検索界の大御所が最近提案し、
周囲の人があまり深く考えずに採用している評価指標をとりあげて、
「そんなことをしなくても、こうすればもっとうまくいきますよ」とつっこみを入れているものなのだ。
しかも彼らは夫婦揃って今や検索界の中心にいる人々。
ああこわい。Karen助けて。

2007年04月08日

「続きはWebで」も「同時にWebで」もイヤ!

「続きはWebで」?

やだ。この手のTVのCMはあまり好きではない。
それにしてもこのネタで語っている人がこんなに多いとは...

独身寮時代、共用の洗濯ルームには、
東芝の洗濯機と乾燥機が仲良くペアで何組か設置されていた。
洗濯機から取り出した洗濯物を、そのまま真上の乾燥機に一気に放り込む。
重力に逆らわず、上から下に洗濯物が流れていくほうがよりuser friendlyかも知れないが、
まあこの配置でもそんなに不便は感じなかった。

さて、今の「続きはWebで」CMは、
脱衣場の洗濯機から取り出した洗濯物を、書斎まで運んでいって乾燥機に入れるくらい不便だと思う。
わが家のリビングルームにはTVもPCもあり、夜は常に両方ONになってはいるが、それでもそう思う。

「続きはWebで!」と検索キーワードをTVに教えられ、ユーザはそれを記憶して(あるいは書き留めて)、
PC上の検索窓に指先で入れる。
TVとPCの間は完全にオフラインで、
しかもひどいnoisy channel(伝言ゲームのように、伝えるべき情報がめちゃくちゃになってしまう伝達手段)である。
ユーザは検索キーワードを頭に記憶およびPCに入力する際に間違えるし、検索エンジンも出力すべきページを間違える。
(最低限、所望のページが検索されるようにdfの小さい検索キーワードにして欲しい。tf-idfのエントリ参照。)

TVとWebを積極的につなげる動きはだいぶん前からある。
TV映像と関連Web情報を同時に表示する研究や製品もある。
言うなれば「同時にWebで」!

しかし、少なくとも単純にTVとWebを同時に見せるというアイデアには懐疑的である。
私の脳にはプロセサが1個しか入っておらず(Intel入ッテナイ)、
TVを「ながら見」せず、集中して見るタイプだからかも知れないが、
動画とそれ以外の情報を同時に見せられるのは嬉しくない。
映画Back To The Futureでは未来人がTV番組をいくつも同時に見ていたが、旧人の私にはとても真似できない。

動画は静止画とは違い、一方的に自分に情報を押し付けてくる。
静止画やテキストのように、どういうペースで、どういう順番で情報を取得するかという選択の自由を与えてくれない。
基本的には情報を見過ごしたらそれっきり。
動画とWeb情報との間で視線をいったりきたりさせられていては疲れて死んでしまう。
(もちろんいろいろ工夫の余地はある。重要な研究テーマだと思う。)

じゃあどうすれば?
私の場合、TV視聴にあまりリアルタイム性を求めないので、
短期的な解決策としては下記のインタフェースで充分である。
(注: 新規性のある提案はありません。あればブログでなく特許に書きます!)

1. TV番組の途中、CMで、水着姿のエビちゃんが「Click me!」と言う。
2. 私が思わず即座にTVリモコンでクリックすると、Webにある詳細情報がたちまちTV画面を占有する。
3. 私が詳細情報を充分堪能したのち、TVリモコンのbackボタンを押すと、
それまで一時停止状態になっていたTV番組の再生が再開される。

つまり、あくまでシリアル方式。パラレルはナシ。
Web情報を見た時間分だけTV番組の視聴にディレイが生じるが、まあ構わない。
全日本女子バレーの試合をリアルタイムで見ているつもりで応援していたら、実は録画だったりするし。

スポーツのようなライブ性重視のコンテンツでも、
例えば一緒に観戦して盛り上がりたい友人とさえ視聴するタイミングが同期していれば、私はまあ満足である。

マルチプロセサ型の方々からは異論もあると思いますが...

2007年04月07日

転職 or 転覆

1993年に東芝の研究開発センターで働き始めた。
幼少時をロンドンで過ごしたので、英語力を活かして機械翻訳の研究をやる約束で入社したが、
何かの間違いで情報検索・情報アクセス技術ひとすじの研究者になった。

情報アクセス(information access)とは、膨大な情報の中に埋もれた所望の情報に
効率的に到達するための技術の総称で、情報検索(information retrieval)より広い概念。
情報検索以外の情報アクセス技術としては、例えばテキスト要約(text summarisation)
テキスト分類・クラスタリング(text categorisation/clustering)
テキストマイニング(text mining)などがある。
(米語だとsummarization, categorizationのように綴る。)
また、例えば英文データベースを検索するためにユーザの検索要求を英訳したり、
逆に検索結果をユーザの読める言語に翻訳する場合の機械翻訳(machine translation)も含まれるだろう。
さらに、アクセス対象となる情報はテキストに限らず、画像・音声、映像などでもよい。

辞めたのは今年の1月だから、ほぼ14年間東芝に在籍していたことになる。
と言っても実際は、東芝に7年、ケンブリッジ大学に1年半、帰ってきて東芝に5年半。
留学期間がなければ14年はもたなかっただろうな。

前から転職は考えていて、本当は今回の転職の際、海外に片足が出かかっていた。
が、自分が10年以上前に設立に関わった愛着のある会社が日本(しかも銀座!)にあることを思い出し、
検索メイニアックである自分がどれくらいこの会社に貢献できるか試してみようと決心した。

大企業からベンチャー企業への転職。
豪華(?)客船からいかだに乗り換えたようなものか?
豪華客船だと、ラウンジで飲んでいても、座礁でもしない限り船は進んでいく(ような気がする)。
いかだだと、自分も常に必死で漕がないと、沈んでしまう。

どちらが楽しいかって?今の私の答えは「いかだに決まっている」である。
さて、同僚のみなさん、どこに向かって漕いで行きましょうか。

おっと高波、転覆注意!

2007年04月06日

「豊かな海岸」とウィキペディア

JICAのシニア海外ボランティアとしてコスタリカに行っていた両親が本日、2年間の任期を終えて帰国した。お疲れ様でした。

「コスタリカに行く」と言い出したときは、アカメアマガエルやらヴェロキラプトルやらがひしめきあっている秘境を思い浮かべたが、両親の前回の赴任国はヨルダンだったので、全然驚かなかった。
むしろ、「今回は安全そうじゃん」という感想だった。しかも国名がCosta Rica = Rich Coast。楽しそうだ。
しかし実際は、どんどん治安が悪くなっているらしく、日本人ボランティアの多くは窃盗の被害にあったそうである。
父も高齢だし、さすがにもう海外に住むことはないだろう。

それにしてもフレッシュアイ・ウィキペディアって便利だなあ。(わざとらしい?)
ただし、ご利用上の注意:言うまでもないが、ウィキペディアは誰でも書き込めるので、コンテンツの信頼性はまちまち。
TV番組や雑誌やWebにあふれる情報と同様、最終的な見極めは自分の責任で行う必要がある。

ちなみに英語の発音は「ウィキピーディア」に近い。
もちろん百科事典はエンサイクロペディアではなくエンサイクロピーディア。
ウィキペディアの名前の由来をご存知ない方は、フレッシュアイ・ウィキペディアでウィキペディアを検索してみてください。

ちなみにencyclopediaは米語。大英帝国では発音は同じだがencyclopaedia。
英国かぶれと言われそうだが、個人的にはこちらのほうが格調が高そうというか、なんとなくコンテンツが充実しているような気がしてしまう。

同様にメディアは本当はミーディア。しつこい。単数形はミーディアム(medium)。
ちなみにデータにもデータム(datum)という単数形があるのはご存知でしたか。
きりがないのでこのへんで。

2007年04月05日

追悼 Karen Sparck Jones

tf-idfのエントリで書いたばかりの検索・言語処理界の偉人Karen Sparck Jonesが4月4日、癌で亡くなった。

末期癌であったことは少し前から聞いていた。
私が英ケンブリッジ大学におしかけてKarenに弟子入りしていたのが2000年~2001年。
2002年に実は一度癌の手術をしたらしい。
2006年に癌が再発、その時点で手遅れだったそうである。

歯に衣着せぬタイプで、彼女の悪口を言う学生や研究者もいたが、本当は優しくお茶目な人だった。
英国滞在中、Karenとその夫、故Roger Needham
(英ケンブリッジ大コンピュータラボラトリ長、英マイクロソフト研究所所長などを歴任。
私の英国滞在中に、CBEという、あと一歩でknightの称号をもらってしまっためちゃめちゃ偉い人。)
を家に招待して無理矢理日本食を食べさせたところ、なんと後日彼らの自宅でのランチに招待してくれた。

これはそのときのラブラブの二人の写真。足の長さに注目。
karen-and-roger_0001.jpg

Karenは、亡くなる直前に名誉ある賞を3つも受賞した。
ケンブリッジ大学のニュース
学会ACMのアナウンスメント

特に、ACM (The Association for Computing Machinery)から受賞したAthena Lecturer AwardのAthenaというのは、ようするにギリシア神話の女神アテナである。
(注: 英語の発音としてはアスィーナに近い。)
Karenは生前も神様だったし、これからも神様である。

最後に、今年2月27日にKarenが私にくれた最後のメイルにあった言葉を書きとめておく。
私が転職の報告をし、「Director of the Natural Language Processing Laboratoryという肩書きになったけど、今のところ一人しかいない研究所だからdirect(指揮監督)しようがないよ!」
とこぼしたことに対するリプライである。

"Do your research and be thankful!"
研究しなさい、そして(研究に集中できる環境を与えられたことに)感謝なさい!

Karenも天国で研究を続けていることだろう。大好きなRogerと一緒に。


2007年04月04日

論文と宝くじ

昨日(4/3)、情報処理学会から嬉しい知らせが届いた。
下記の論文が、平成18年度論文賞に選ばれたのだ!

Sakai, T.:
On the Task of Finding One Highly Relevant Document with High Precision,
情報処理学会論文誌データベース,
Vol.47, No.SIG 4 (TOD29), pp.13-27, 2006.

受賞は
FIT2005論文賞
平成18年度山下記念研究賞
に続き3件目となる。これまで研究をサポートしてくれた方々に感謝!

さて、単なる自慢話をブログに垂れ流しても意味がないので、
僭越ながら、(私よりもっと)若い研究者の方々のご参考のため私見を述べたい。

研究者は以下の3種類に分類できる。
(a)論文をたくさん書く人
(b)論文をたまに書く人
(c)論文を書かない人

(b)の研究者の中には、非常に寡作だが一作一作のクオリティがめちゃくちゃ高い人が多い。
(c)の研究者の中には、論文ではなくシステムを世の中にばんばん公開して世の中に貢献している人もいる。
このような流儀もおおありだと思うが、私自身は少なくとも今のところ(a)である。
自慢ではなく流儀の問題である。
「質より量」とまでは言わないが、研究成果をどんどん発表して他の研究者からフィードバックをもらうのが好きである。

実際、研究者からのフィードバックは、エンドユーザからのフィードバックとは違った意味で非常に貴重である。
例えば、私の山下記念研究賞受賞論文は、私のFIT2005論文賞受賞論文に対する
査読者(論文を読んで採否を判定する同分野の研究者)のするどいつっこみから生まれたものである。
自分や同じ環境にいる共同研究者では到底考えつかないつっこみが査読者から得られることは多いものである。
(もちろん、不条理な査読結果もたくさんある。何か自分に恨みでもあるのか?と思うこともある。
が、そういう査読結果は破り捨てて信念を貫けばよい。)
また、査読者に限らず、国際会議や研究発表会における聴講者からのコメントも有益であることが多い。

論文賞の選定作業も、査読と同様に他の研究者が貴重な時間を割いて行ってくれるものである。
しかし、その選定作業がどんなに綿密なものであっても、あくまで人間の主観評価に基づくものである。
したがって、例えば論文賞に選ばれた論文と選ばれなかった論文をランダムに取り出して比較した場合、
前者が絶対的に優れているとは到底言えない。
乱暴な言い方をすると、論文賞受賞は宝くじ当選と似ていて、"luck"の要素があることは否定できない。

宝くじは買わないと当たらないのと同様、論文賞がもらえるのは上記の(a)か(b)の流儀の人。
さらに、仮に純粋に宝くじであれば、(a)の人のほうが(b)の人よりも当選確率は高いはずである。
(実際には、組織票などの要因もあるのだが...)

とどのつまり、論文を書くこと自体が研究の目的ではないとは言っても、「論文は、書いたほうがよい」と私は思う。
賞に興味がない人も、他の研究者からのフィードバックは大切にすべきであろう。

2007年04月03日

「ニューズウォッチ」「フレッシュアイ」という名前に関する一考察

「ニューズウォッチ」も「フレッシュアイ」も、入社2ヶ月の私が何故か一応「名付け親」である。
ただ、当初は英語表記を想定していた。NewsWatch。FreshEye。
いずれも、英語だと二音節で比較的単純な名前だが、カタカナで書くとちょっと長い。
特にフレッシュアイは、検索エンジンの名前としては長すぎるかも知れない。
今後どんなに普及しても、「google」「ググる」のように動詞として使われることはないだろう。
(この2つ、本当に使われてるのかな。)

<言い訳>
私は検索エンジンに名前をつけたわけではないのである。
FreshEyeは、もともとWeb上の新鮮情報をウォッチするため
パソコンにインストールするちょっとしたソフトウェアだったのである。

参考文献:
住田, 上原, 小野, 酒井, 池田, 下郡:
WWW上のフロー情報を対象にした情報フィルタ (FreshEye),
インタラクション'97, pp.63-64 (1997)

検索エンジンに派生するのだとわかっていたら、もう少し簡単な名前にしていただろう。
</言い訳>

ちなみに、FreshEyeという名前を考えた当時、関係者がnative speakerに意見を求めたところ、
「fresh」というのは米口語で性的な意味があるのであまりお勧めしないと言われたらしい。
が、別に米国人に検索サービスを提供する予定はなかったので、このアドバイスは無視された。
ちなみに、このnative speakerが出してきた代案は「Information Agent」。ノーコメント。

そういえば、NewsWatchの他に私が出した候補にNewsAgentというのもあった。
新聞を売っているお店みたい。ニューズエイジェント。日本語ではありえないな。
ちなみにニューズウォッチがニュースウォッチでないのは、
検索メイニアックが検索マニアックでないのと同様、私のこだわり。ご容赦ください。

さて、うちの社長がだいぶん前から社名を変えようと考えていたことが判明。
たしかに、「ニューズウォッチがやっているフレッシュアイ」という説明はものすごく面倒くさい。
どかんと儲けて知名度が上がったタイミングで短い社名にし、これを全サービス名の頭につけましょう。

参考:ニューズウォッチとフレッシュアイの歩み
1996年 東芝が(株)ニューズウォッチ設立
1998年 東芝が(株)フレッシュアイ設立
2002年 ニューズウォッチとフレッシュアイが合併
2006年 ヤフー(株)がニューズウォッチを買収

2007年04月02日

tf-idf (ティーエフ・アイディーエフ)とKaren

情報検索入門シリーズ。
"Maniac"という英単語は、あえてカタカナで書くならマニアックではなくメイニアックである。
そういうわけでこのブログのタイトルは「検索メイニアック」である。

さて、マニアックとメイニアックはどちらが一般的に使われる語だろうか?
「マニアック」のウェブ検索結果
「メイニアック」のウェブ検索結果
ということでマニアックの「ヒット数」のほうが圧倒的に多い。
この「ヒット数」のことを文書頻度(document frequency)という。略してdf

「メイニアック」のようにdfの低い語のほうが、一般にはクエリターム(検索キーワード)として有用である。
つまり欲しい文書(個々の検索対象。例えば単一のウェブページ)を特定するのにより役立つ。
例えば、「検索」と「メイニアック」という2つのクエリタームで検索を行いたい場合、
「検索」のウェブ検索結果
を見るとわかるように、「検索」のほうはdfが大きすぎて所望の文書を探し出すのにあまり有効ではなさそうである。
なので、「検索」よりは「メイニアック」のほうを重視した検索が行いたい。

そこで出てくるのがidf(inverse document frequency)である。
これは、dfの逆数のようなもの、つまり、低いdfのクエリタームには高い重みを付与するものである。
先ほどの例だと、「検索」のidfは非常に低く、「メイニアック」のidfは非常に高くなる。

さて、検索対象の各文書に以下のようなスコアを与え、スコア順に並べてユーザに提示することを考えよう。

文書スコア=その文書が含むクエリタームの重みの和

このとき、上記の「重み」としてidfを採用することが考えられる。
こうすれば、「検索」だけを含む文書よりも、「メイニアック」だけを含む文書のスコアが高くなり、
さらに、両方を含む文書のスコアが最も高くなるだろう。

さらに、「検索」「メイニアック」をそれぞれ1回ずつ含む文書よりも、
例えば10回ずつ含む文書を優先して検索したいならば、
各クエリタームの(文書内)頻度情報、すなわちtf(term frequency)も加味して文書スコアを計算すればよい。
単純には、上記の「重み」としてtfとidfをかけたものを採用することが考えられる。
これがいわゆるtf-idfの基本である。

ここまでは、情報検索の教科書や、英語版Wikipediaのtf-idfの項にも書いてある。
しかし(研究者の間でも)意外と知られていないのは、
idfの概念を発明したのが私の英ケンブリッジ大学時代の恩師Karen Sparck Jonesであるということ。これが言いたかった。

情報検索の研究をこれからまじめにやってみたいと思っている人は、一度
The Sparck Jones / Robertson IDF page
を訪れることをお奨めする。idfの誕生と進化の過程がわかる。

上記ページの作成者Stephen Robertsonもまた私の英国での恩師。
二人とも情報検索研究の世界では超有名人である。
それもYodaMace Winduレベルである。
こういう体中脳みそで出来ている人達と喋っていると、
自分の小さな脳みそまで刺激され、頭蓋の中でカラカラ音をたてて精一杯回転する。
もちろん最終的にはオーバーヒートする。

検索界の偉人の話はまた別の機会に。

2007年04月01日

To infinity and beyond!

鮮度が売りのフレッシュアイの公式ブログを
10年以上前のネタで始めるのはなんとなく後ろめたいが、
最近、2歳の娘とよくToy Story 1作目と2作目のDVDを見ている。
Toy Storyと言えばNewsWatchの原点。
こう言ってピンと来る人は地球上に3人くらいしかいないかも知れない。

1995年12月。
その頃東芝の研究開発センターに在籍していた私を含む3人は、雪に包まれたBostonにいた。
現地のベンチャー企業に乗り込んで英語記事フィルタリング技術を移管してもらい、
日本語記事フィルタリングのジョイントベンチャー「ニューズウォッチ」を立ち上げるためである。
結局、「こりゃ東芝で検索システム作ったほうが早いな」という結論に達し、
早々に引き上げて、独自技術で無事翌年にニューズウォッチ社を立ち上げたのだが。

さて、当時のBostonにはいろいろ思い出がある。
まず第一に思い出すのはSamuel Adamsである。ビールである。うますぎる。
いろんな味がある。当時は毎日飲んでいた。
最近は日本のスーパーでも見かけるようになった。私には手が出ないが。
(...上記サイト、いきなり生年月日を入れないとだめなの?このチェックって効力あるの?)

そして第二に思い出すのがToy Storyである。訪問先のベンチャーの社員に薦められ、
暇つぶしにむさい男3人でBostonの映画館に見に行った。見て号泣した。
"This isn't flying. This is falling with style!"
(飛んでるんじゃない。かっこつけて落ちてるだけさ!)
というクライマックスのBuzzの台詞のところでは今でも泣ける。

さて、そのBuzz Lightyearの有名な決め台詞が"To infinity and beyond!"
(意味としてはTo infinity and beyond infinity、すなわち、無限へ、そしてその向こうへ!)
である。
訪問先のベンチャーの社長もいたくToy Storyを気に入っており、
会社のパーティーの乾杯の挨拶でこの台詞を使っていた。

その後、そのベンチャーは別の米企業に買収され、
社長も本当にinfinity and beyond行きとなってしまった。
とはいえ、"To infinity and beyond!"の精神、
自分で勝手に限界を設定して凝り固まったりせず無限の野望を持ち続ける精神は、
ベンチャーには必須であろう。

などと、約14年間大企業にいた私が言えた立場ではないが。

カレンダー

2007年04月 »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ

カテゴリー