« 2007年06月 | メイン | 2007年08月 »

2007年07月28日

帰りのフライトがキャンセルされて…

チェックアウトは12時なので、午前中もう少しだけ街を徘徊することにした。

朝9時にAnne Frankの家に行ってみたが、既に人がたくさん並んでいたのであっさり諦めた。
一度来たことがあるし。

Anne Frankの家の近くの風景↓。
amsterdam-boat.jpg

アムステルダムの家はちょっと前のめりに傾いていて、てっぺんにこんなものがついている↓。
amsterdam-hook.jpg
階段が狭くて急なので、荷物を上に運ぶ際は外から紐でつるすという噂あり。
でもあの窓からピアノやソファは入らないよな…


昨日、ディナーの写真を撮り損ねたので、しつこい性格の私はまた同じ店Oud Hollandを訪れた↓。
oud-holland.jpg
しかも昨日と同じテーブルに座った私を見て、店長もびっくり。

料理は昨日と全然違うものを注文したが、こちらのほうがおいしかった。
豆のスープ↓。
oud-holland-soup.jpg

鱈とムール貝のメイン↓。
oud-holland-codmussels.jpg
何を注文しても野菜たっぷりだし、高くないし、
メニューに少々日本語も書いてあるので日本人におすすめの店。


かなり早めに空港でチェックイン。
優雅に土産を買っていたら、ルフトハンザがいきなりフランクフルト行きの便をキャンセルした。
次の便ではフランクフルト発のANA便に間に合わないので、この時点でもう一泊することを覚悟した。
妻が携帯メイルで教えてくれた、今回の出張中に三歳の娘が発した言葉が頭をよぎる。

ままとふたりじゃくらせない、さんにんでくらしたい!

結局、一時間以上ルフトハンザのチケットカウンターに並ばされたのち、
当日のJALの成田直行便に振り替えてもらうことができた。
教訓:ANAが直行便をもたず、JALが直行便をもっている場合はJALを選ぶべし。

と思ったらJAL便は遅延。まあ少々の遅延なら許します。飛んでくれればいいんです。
飛行機の中では東京タワー ~オカンとボクと、時々、オトン~を鑑賞。
機内のパンフレットには男が泣く映画と書いてあったが、予めそう言われてしまうと泣けないものだ。
また妻にばかにされそうだが、Rocky Balboaのほうが泣けた
でも出てくる俳優はみんな良かった。
樹木希林は顔と喋り方が、オダギリジョーと松たか子は声が好き。
小学生のようなコメントになってしまった。

来年のSIGIRはSingapore、再来年はBostonである。
そろそろ研究を再開しないとなあ。それとダイエットも…

2007年07月27日

アムステルダムの鰐 ほか

Workshopの会場はホテルではなくアムステルダム大学の構内。
朝、大学まで歩いて行く途中少し写真をとった↓。
amsterdam-clock.jpg

有名なマヘレのはね橋↓。船が通る時にぱかっと開くらしい。
magere1.jpg

歩いて渡ってみた。写真右下にMAGERE BRUG(マヘレ橋)と書いてある↓。
magere2.jpg


Multimedia Information Retrievalのワークショップでは、
SIGIRで論文数が最近急激に増えているMicrosoft Research Asia(注1)のWei-Ying Maの基調講演を聴いた。
特に斬新な話はなかったが、Web上の大量画像検索に本腰を入れて取り組んでいることはわかった。
他の発表は、質が低いものもあったのでお昼に抜け出した。


(注1) Microsoft Research全体としてのSIGIRにおける存在感はすごい。
http://research.microsoft.com/displayArticle.aspx?id=1768によれば、
SIGIR 2007におけるMicrosoft Researchからの論文数は13件で、採録論文全体の15%を占めている。
うちMicrosoft Research Asiaから5件、米Redmondから5件。


ランチはご覧の通りトラディショナルなオランダ料理↓。
amsterdam-yamazato.jpg
いやいや、25ユーロの朝食を3回食べたら胃が破壊されたので、
今日は朝食を抜き、山里という日本料理屋に行きました。
オランダ人はフレンチフライにマヨネーズをつけて食べるのが好きだそうだが、
今の私がそんな真似をしたら死ぬかも知れない。


オランダに来たらひとつくらい見ておこうと思い風車を目指す。
アムステル川沿いにずんずん歩く。
川に浮かぶ、住居として使われている舟を横目に歩いていたら、海賊船が紛れ込んでいた↓。
えっ、これに住んでるの!?
amsterdam-pirate.jpg

河岸の家↓。
小さなバルコニーを花で綺麗に飾り、椅子を2つ出している。
アムステル川を眺めながらアムステル(ビール)を飲むのか。
実際、1階にはアムステルの看板が出ている。
amsterdam-balcony.jpg

「東公園」に到着↓。
amsterdam-oosterpark1.jpg

ヤギに乗った少年↓。
amsterdam-oosterpark2.jpg

そしてお目当ての風車↓。
amsterdam-windmill2.jpg


帰り道に動物園があったので寄り道。
アムステルダムの恐竜↓。
amsterdam-dinosaur.jpg

アムステルダムの鰐↓。
amsterdam-crocodiles.jpg

アムステルダムの…?↓。
amsterdam-strangelizzard.jpg

アムステルダムの…??↓。
amsterdam-anemone.jpg

園内の公園↓。
amsterdam-roses.jpg

さらに歩いて、ニューマルクト広場↓。
amsterdam-nieuwmarkt.jpg


晩飯はホテルの近くのOud Hollandという店でオランダ料理。
皿の上に豆がごろごろ載っていて、野菜がたっぷりで、今回の旅行で一番おいしかったし、
値段もリーズナブルだったのだが、写真が取れなかった。
デジカメは持参したのだが、SDカードをパソコン内に忘れてきた…

ほろ酔い気分でレストランを出る際に、別のテーブルに座っていた米国人に声をかけられた。
なんとChris Buckley・Ellen Voorhees夫妻と息子さんである。
う~む、できすぎている。
私は彼らに火あぶりにされる覚悟で今回のSIGIRに臨んだのである。
神が、Karenが、今後の建設的な議論への道筋を示してくれたのかもしれない。

2007年07月26日

スパーク・ジョーンズとヴァン・ゴッホ

今日でSIGIRの本会議は終了。
ACM Athena Lecturer Awardを受賞した故Karen Sparck Jonesのビデオ講演が上映された↓。
karen-video.jpg
収録時、Karenはもう自分の死期が近いことを知っていたのだ。
おそらく、亡くなる直前まで情報検索や自然言語処理の未来について考えていたのだろう。
Karenと70年代からずっと一緒に研究をやってきたSteve Robertsonは追悼スピーチで声をつまらせていた。
Karen、本当におめでとうございます。

「Evaluation 3」のセッションではGoogleが検索評価指標とユーザ満足度の相関について発表していた。
Googleも秘密主義の方針を転換し、発表が少しずつ増えてきたようである。

SIGIR Business Meetingのスライドより↓。今回の参加者は本会議だけでも599人。
sigir07registration.jpg

さて、私はSIGIRのRegional Representativeという役職に就くことになってしまった。
SIGIRのExecutive Committee (実行委員会)の補佐を務める「アジアの代表」ということらしい。
推薦・承認してくださった方々に感謝。
米国人が過大評価され、日本人その他が過小評価される傾向にある現状を徐々に変えていきたい。


最後のセッションだけさぼって、目指すはゴッホ美術館。
道中、思わずハイネケン醸造所に吸い込まれそうになった↓。
heineken.jpg

ゴッホ美術館は二度目だが、やはりゴッホをたっぷり見られるというのはいい。
ちなみにVincent van Goghは英語だと「便箋と番号」のように発音するのが一般的。
番号とは郵便番号か。

中には入らなかったが、ゴッホ美術館の近くの国立博物館↓。
amsterdam-museum.jpg


晩飯は、ライツェ広場というところの近くのレストランにふらりと。
日本語で「オランダ料理」と書いてあったので↓。
amsterdam-restaurant.jpg

25ユーロの朝食のせいで胃の調子が悪いので、極力ヘルシーそうな料理を選択した。
前菜は好物のsmoked salmonをパンに乗せたもの↓。
amsterdam-salmon.jpg

ジャガイモとローストビーフ。ご飯のように見えるのはカリフラワーのクリームソース和え↓。
amsterdam-beef.jpg
どれも味は素朴でみたまんま。


明日はMultimedia Information Retrievalのワークショップに参加予定。

2007年07月25日

アムステルダムの馬

ホテルKrasnapolskyの朝食はこんなところで食べる。
krasnabreakfast.jpg
しかし朝食ビュッフェ25ユーロ(1ユーロ170円くらい)という価格設定はやめてほしい。

たしかにホテルの立地条件は最高である。目の前はこのダム広場と王宮。
amsterdam-palace.jpg

アムステルダムの牛の店の前に、アムステルダムの馬登場。
amsterdam-horses1.jpg

と思ったらハイネケンを運ぶ馬! さすがオランダ。
amsterdam-horses2.jpg


SIGIRの出し物。映像を流しながらギターやベースを弾くマルチモーダルなソロアーティスト。
正体はブルース・ウィリスだと思うのだが、オランダ語で歌っていた。おもしろかった。
amsterdam-bruce1.jpg


SIGIRのbanquetの様子。
amsterdam-tango.jpg


さて、以下、検索メイニアック的レポート。

「Web IR 1」のセッションでは、グーグル、ヤフー、マイクロソフトの発表がこの順番で行われた。
座長のDavid Hawkingは「この発表順に特に意味はありません」と言っていた。
正直言ってグーグルの発表が一番おもしろくなかった。
Web検索における同一内容のページを判定する(duplicate detection)という比較的小さな話。
この直後にヤフーの発表者が、
We already solved the duplicate [detection] problem.
(うちの会社は同一ページ検出の問題なんて解決済だから、違う研究課題について話すよ)
とぼそっと言ったのがおもしろかった。


Banquetで得た情報。
過去30年間のSIGIRの論文(フルペイパーのみ)に関する統計情報がいろいろ紹介された。

過去30年間で、日本からの論文発表は25件しかないそうである。
うち私が関わった論文は
Jones/Sakai/Kajiura/Sumita SIGIR'98
Sakai/Sparck Jones SIGIR 2001
Sakai SIGIR 2006
Sakai SIGIR 2007
の4本。これとニューズウォッチ取締役の三池さんの論文
Miike/Itoh/Ono/Sumita SIGIR'94
を合わせると、日本のSIGIR論文の20%はニューズウォッチ関係ということになる。
以上自慢話。

過去5年間、フランスの論文がSIGIRに採録になったことはないそうである。

論文発表がダントツで多いのはもちろん米国だが、
中でもBruce Croft教授の名前が入っている論文の件数はなんと44本。
次点がJamie Callan教授の21本だそうだ。
優秀な研究者をばんばん輩出しているということ。
また中国も発表件数ががんがん増えているが、
北京にあるMicrosoft Research Asiaの貢献が大きい。

SIGIRの論文タイトルで使われている語彙を統計処理して「死語」を割り出したところ、
bibliographic, computer, database, recordなどが浮かび上がったそうだ。
反対に、トレンド語としてはclassification, TREC, question answering, cross-language, latent semanticなどが浮かび上がったというが…
最早トレンド語という感じではないなあ。


2007年07月24日

アムステルダムの牛

プラハには豚がいたが、アムステルダムには逆さ吊りの牛がいた。
店の天井に蝙蝠のようにぶらさがっているのがおわかりだろうか。
amsterdam-cows.jpg

ホテルの外観。天気が悪いが一応撮影した。私の部屋のある別館は写真右手の建物の中。
krasnaentrance.jpg
早朝、ホテル前の広場に出たとたんに黒人のおじいさんに金をせびられた。

本日のスケジュール。一番下に私の論文がある。
sigir07program.jpg
スポンサーにMicrosoft, Google, Yahooが入っているがPowersetが入っていないのが意外。
検索屋よりも自然言語屋が欲しいということ?

自分の発表は好評だった。
(PowerPointのバージョン違いのため
presentationの出来は悲惨だったが、
逆にうけたからよしとしよう。)
セッションが終わってからもいろいろな人にコメントをもらった。
こんなにいろんな人が寄って来たてのは初めてだ。
Bprefという検索評価指標の発明者、Chris Buckleyから個人的にコメントをもらえたのもありがたかった。
決して人を火あぶりにするような人ではない。

ランチはInformation RetrievalのEditorial Board meeting。
人数が多すぎて議論には直接参加できなかったが、
今後、大日本帝国をもっとアピールしていきたい。

午後の休憩時間に、The University of MelbourneのAlistair Moffat, Justin Zobel, William Webberに誘われて少しディスカッションをした。
オーストラリア人のギャグセンスは満点。私の上品なBritish Englishではついていけない感じ。

明日、急遽言語横断検索のセッション座長をやることになってしまった。
あらかじめ論文を読んでおかなければ…

2007年07月23日

アムステルダムに到着

フランクフルト経由でアムステルダムへ。
ANAは直行便をもっていないのだ。JALにすべきだったかな。
しかしフランクフルトまでの約11時間は隣に人がいなかったので
エコノミークラスでも比較的楽だった。
飛行機の中の映画鑑賞は邦画中心。
一番印象に残ったのは憑神
神様役の森迫永依ちゃん(フレッシュアイウィキペディアの憑神のエントリで初めて名前を知った)
と西田敏行がおもしろかった。
私はゲイではないが、妻夫木君は相変わらずかっこいいし。

アムステルダムの空港からタクシーでホテルKransapolskyへ。
50ユーロとられた(1ユーロ170円くらい)。ぼったくりだろう。
でも他の日本人に聞いたらもっととられたそうだ。

アムステルダム。黄昏。ホテルの小部屋。
krasnaroom1.jpg

そうそう、シャワーはこうでなくてはいけない。
krasnashower.jpg

私の部屋は別館にあり、窓の外はこんな不思議な風景。
kransaview1.jpg

2007年07月22日

SIGIRに旅立つ前に

月曜日から丸一週間、ACM SIGIRである。
上記エントリで書いたように、私は検索界の大御所にたてつく内容の論文を発表するので、
火あぶりにされるかも知れない。
みなさんこれまでいろいろお世話になりました。

と思ったら天の助け。
私の発表するセッションのchair(座長)は、わが英国の師匠Stephen Robertson!
彼がいればこわくない。
今回の論文もSteveに事前にみてもらっているし。

しかも、自分の発表は一番最初の論文セッションである。
(3セッション同時進行で、自分の出番はSession 3。)
自分の発表さえ終わればあとは気楽である。
あるいは、Steveが助け舟を出してくれず、
一日も観光できないままいきなり火あぶりにされたりして…

SIGIRの開催地アムステルダムは英国留学中に妻と一度遊びに行ったことがある。
その時はEurostarでブリュッセルとアムステルダムをはしごしたのだった。
ブリュッセルはビールが死ぬほどうまかったこと、
アムステルダムは飾り窓の娼婦のおねえさんに目配せをされたことが想い出である。

さて、口頭発表のスライドが完成したのでpdfファイルを載せておく。
PowerPoint 2007で作成し2000形式で保存したファイルをpdf化したので相変わらずレイアウトがおかしいが…

いざSIGIRへ。

2007年07月21日

Information Retrievalというジャーナル

国際論文誌Information Retrievalの編集委員を務めることになった。
来週Amsterdamで開催されるACM SIGIRの会期中、火曜日のランチタイムに編集委員会が開催されるので初参加する。

Information RetrievalのCall for Papers最新版
NewsWatch, Inc.の名前がちゃんと入っている。

情報検索関連の代表的な国際論文誌と言えば、
ACM TOIS (Transactions on Information Systems)
IPM (Information Processing and Management)
JASIST (Journal of the American Society for Information Science and Technology)
そしてInformation Retrievalが思い浮かぶが、この論文誌の水準はそんなに高くないのではないかと思っていた。
しかし、最近Impact Factor (論文誌に掲載されている論文が平均的にどれくらい引用されているか)でIPMを抜かしたという。

以下、Information Retrievalの現在の出版社であるSpringerによる詳細情報。
ACM TOISの2006年のimpact factorは5.059。
Information Retrievalは1.744。
JASISTは1.555。
IPMは1.546。

と言っても、Impact Factorはあくまで参考値である。
例えば、論文数自体が少ないと、ものすごく引用される論文が1本あるだけで値はどかんと変わる。
有効数字は実質一桁くらいで、TOIS以外はあまり変わらないといってよいだろう。

そのTOISだが、たいしたことのない論文が採録されていることもあるので、
私も2本同時に投稿してみたことがある。
結果:1本は不採録、もう1本は理不尽な条件つきの採録で、結局両方諦めた。
TOISでの論文発表は今後の課題。

ちなみに上記の2本の論文は今年9月発行の情報処理学会論文誌TOD(Transactions on Databases)に無事に採録されることになった。

負けないぞ。

2007年07月20日

親ばかタイム

最近何故か時間がなくてなかなかブログが書けないので、
今回は3歳になった娘に代役をお願いしよう。


彼女が書いたボーイフレンドの肖像である。
boyfriend.JPG
ちなみに、父親を書いてくれたことはまだない。


ウインナーちゃん。
sausage.JPG
嫌いな食べ物は豆腐だそうだ。


ついに「キルクちゃん」の写生を始めた。「キルクちゃん」という名前も彼女が考えた。
kilk.JPG
と、思ったら「キルクちゃんのともだちのキルコちゃん」だそうだ。失礼しました。


親ばかを英語で言うならdoting parent, indulgent parent, fond parentか。
ちなみに細木数子は、TVで親ばかぶりを発揮するWill Smithに、面と向かって

YOU ARE STUPID!
と言い放っていたっけ。おそろしや…

2007年07月18日

Q, Rの次はO, そしてP...

情報処理学会の会誌(「情報処理」) に
平成18年度論文賞の受賞にあたって執筆した記事が掲載された。
筆がすべって、フレッシュアイと検索メイニアック!の宣伝まで書いてしまった。

情報処理学会の著作権に関する規定を読んでみると、
自分で書いた論文や記事の「個人または所属Webサイトでの公開」は自由らしいので、
ここに載せておく。

酒井哲也:
Q, Rの次はO, そしてP...,
情報処理 Vol.48, No.7 (2007)

ついでに、MAPのエントリで紹介した

酒井哲也:
よりよい検索システム実現のために:正解の良し悪しを考慮した情報検索評価の動向,
情報処理 Vol.47 No.2 (2006)

と、AIRSのエントリで紹介した

酒井哲也:
The Atmosphere of AIRS: 情報検索の新しい国際会議の紹介,
情報処理 Vol.46 No.2 (2005)

も載せておこう。


とどめに、SIGIR向けに作成したNTCIR-7とEVIA2007のチラシも載せておこう。
これも、ヘッダの画像以外は私の作品。

2007年07月14日

AIRS(エアーズ)について

情報検索の国際会議最高峰といえばACM SIGIRだが、
アジア地域を主体とする情報検索の国際会議として
Asia Information Retrieval Symposium (AIRS)というのもある。

AIRSについては情報処理46巻2号(2005年2月)に書いた。
その1ページ目は、情報処理学会会員でなくても無料で閲覧できる。
(情報処理学会も、会議レポートくらい無料で配布すればよいのに…
こんなものを630円も払って買う人はいないだろうに。)
今読み返してみると、会議レポートなのに、関係のない英語のこじつけばかり書いているなあ。

私はAIRSのSteering Committee(運営委員会)および
Program Committee(プログラム委員会)のメンバである。
前者は会議の計画や運営をするもの、後者は主に論文の査読をするもので、
基本的には前者を包含している。

シンガポールで開催されたAIRS 2006は楽しかった。
このときのフルペイパー採択率は34/128=23%でかなりcompetitive(競争率が高かった)。
AIRS 2006については電子情報通信学会誌90巻3号(2007年3月)の国際会議の欄で少しだけ書いた。
(通信学会誌では1/3ページ、900文字しか書かせてもらえないのである。)
90巻3号の目次はこれ


さて最新情報を載せておこう。
AIRS 2007は中国ハルビンにて12月に開催される…予定だったが、
1月にHarbin Ice Festivalという有名な行事があるので、これに合わせて開催されることになった。
つまりAIRS 2007は消滅し、ひとつとばしてAIRS 2008となる。

私はAIRS 2004から毎回フルペイパー発表してきたし、
次回はproceedings(論文集)の出版を担当することになっているのだが、
おそらくハルビンには行かないだろう。
寒いのはいやだ…

2007年07月13日

傀儡師さん

傀儡師さんという方が私のCNETの記事や検索メイニアックを紹介しくださっていることに今頃気づいた。

「そういえば フレッシュアイ は、最近、まったく使ったことがない。たまには使ってみるかな。」
と書いてくださっているので、
「フレッシュアイはこれからこつこつ改善していきますのでどうぞよろしくお願いします」
とコメントを書き込もうとしたら、
「楽天ブログ(らくてんぶろぐ)へユーザ登録いただかないとコメントには記入できません。」
というエラーメッセージが出て力尽きた。

トラックバックでうまくつながるかしら、「傀儡師の館」と「検索メイニアック」。

2007年07月12日

世界初リーク:学会ネタ3つ

毎度メイニアックな内容で申し訳ないが…

(1)「言語処理学事典」というものの発行準備が進められている。
私はその中の「情報検索」という「中項目」を担当させていただくことになった。
年内に原稿を上げなければいけないらしい。
ページ数の制約や他の研究分野との調整も考えなければならないが、今のところ以下の「小項目」を考えている。
・ブール検索
・ランキング検索
・言語横断検索
・Web検索
・検索インタフェース
・検索評価方法

(2)2008年1月21-22日に、情報処理学会の自然言語処理研究会(NL研)情報学基礎研究会(FI研)の合同研究発表会が開催される(注1)
私はFI研の幹事としてこの発表会の運営を担当しており、21日にはNTCIR特別セッションを予定している。
このセッションはもともと今年9月のFIT2007でやるつもりだったのだが、企画が不採択になってしまったため。
(不採択理由: 期限外提出…)
NTCIR-6の総括、NTCIR-7の進捗報告、その他の議論を全て日本語で行う貴重な場になるだろう。
会場はおそらく国立情報学研究所(神保町・竹橋)。

注1: NLはNatural Language、FIはFundamental Informaticsの略。
ちなみにFI研はずっとFundamental Infologyという英文呼称だったが、最近このように改名した。
(提案者は私。)

(3)2008年12月に開催予定のNTCIR-7において、
The Second International Workshop on Evaluating Information Access (EVIA 2008)を開催予定。
チェアは前回にひきつづき英Sheffield大のMark Sandersonと私。
スケジュール暫定版は以下のとおり。

August 1, 2008: submissions due
October 1, 2008: notification of acceptance
November 1, 2008: final manuscripts due
December 2008: EVIA 2008 / NTCIR-7

以上、世界初リーク情報でした。

2007年07月08日

式部と政宗とシーモネーター

Pittsburghで買ったThomas HarrisのHannibal Risingを読み終えた。
Hannibal the Cannibal(人食いハンニバル)の人格形成の過程を描いた単純明快なストーリーで楽しめた。
Hannibalの出身地は、この間行ったチェコからそう遠くないリトアニアである。

しかし。

Hannibal少年に手を差し伸べようとする若く美しい日本人の叔母。
その名前がなんと「紫式部」である。
日本語訳では「紫夫人」で通しているようだが、原作ではHannibalへの置き手紙に「紫式部」と署名し、
訪ねてきた警察に対して「紫式部です」と堂々と名乗っている。ぷっ。
ちなみに20世紀の話である。

おまけに、彼女の祖先には「伊達政宗」という武将がいる。
Hannibalは「政宗殿」の刀を借りて犯行に及ぶのである。ぷぷっ。

日本人のアドバイスを受けながら書いたらしいが、もう少し勉強して欲しかった。

関係ないがHannibalの母親の名前はSimonetta。シモネッタ。
シモネタと言えば、「紫式部」はパリの市場で、日本人女性に対する根本的な誤解に基づくシモネタ被害を受ける。
シーモネーターの私でもちょっとここには書けない内容である。
日本人女性は美しく従順で献身的で謎に満ちているというイメージをもつ西洋人は今も多い。

日本人男性のイメージはどうかというと、冗談が通じない、主体性がない、七三分けで黒縁眼鏡で首からカメラをぶら下げている。
欧米では徹頭徹尾もてない。私だけか。

2007年07月03日

FIT2007査読者への反論

第6回情報科学技術フォーラム(Forum on Information Technology)の査読つき論文部門に投稿していた論文が採録決定となった。

が、評価は、査読者2名とも
6=Strong Accept
5=Accept 
4=Weak Accept
3=Weak Reject
2=Reject
1=Strong Reject
の6段階評価のうち4。「しぶしぶ採録」。厳しいなあ。
論文誌とは違い、国際・国内会議では査読者に反論する機会がないので、少しだけここに書いておこう。


私の論文は、Web検索のように再現率を考慮した評価があまり意味をなさない検索シーンにおいて、
適合性のなるべく高い文書をひとつだけ検索する場合に適した評価指標を扱っている。
この評価指標について、査読者の一人は以下のように批判的である。

・ そもそも目的は、ひとつの正解を見つけるということですが、その評価の際に部分 正解(B, Aも?)を使うのは非現実的のように思います。まず、そもそも部分正解がない ような検索要求も多いのではないでしょうか?「日本で一番高い山は?」に部分正解は あるのでしょうか?また、ひとつの正解を見つけるという目的でシステムを構築する際、 部分正解をあえて上位にランキングしないシステムも考えられます(もちろん、部分正 解かどうかをシステムがあらかじめ判断することは困難ですが不可能ではありませ ん)。部分正解を落とせば正解がその分上位に上がるので間接的には問題ないのかもし れませんが、部分正解という想定外の情報を評価尺度に直接に取り込むのは危ういと 思います。

この査読者は、もしかすると「質問の答えとなる事実がひとつか否か」と文書の適合レベルを混同しているのではないだろうか。
たしかに、「日本で一番高い山は?」に対する正解は「富士山」であり、それ以外はちょっと考えられない。
しかし、私がこの論文で議論しているのは文書検索である。
例えば「日本で一番高い山は?」でWeb検索をすると、
答えが富士山であることがひと目でわかる簡潔なページもあれば、
不必要な情報をたくさん含んでおり、さんざんスクロールした結果やっとわかるページもあるだろう。
評価の際にこれらのページを区別したければ、前者を高適合文書、後者を部分適合文書として扱うことは自然だろう。
また、適合レベルを信頼性の観点から定義することも考えられる。
例えば、非常にいんちきくさいブログに
「日本で一番高い山は富士山かもよ~(笑)」(注1)
と書いてある場合と、安倍首相が
「美しい国、日本で一番高い富士山は…」
と政府の公式ページで語っている場合である。
(えっ、いんちきくさいのはどちらかって?)
さらに、もしなるべく見た目がきれいで読みやすいページをシステムに検索して欲しいならば、
読みやすさの観点から適合レベルを定義することも可能かも知れない。
さらにさらに、情報の新鮮度という観点もありうる。
「世界で一番高いビルは?」という質問を考えれば明らかだろう。

もちろん、私の言う部分適合文書を全て不適合文書とみなして評価を行うという立場もあるだろう。
しかしこうすると、「日本で一番高い山は?」に対して何一つ有用なページを検索できないシステムと、
頑張ってスクロールすれば正解が見つかるページを検索できるシステムとの判別は不可能になる。
さらに、適合文書数を減らすと、評価実験全体が不安定になり結果の信頼性が低くなる。


注1: この「(笑)」はあくまでブログテキストの例の一部であり、検索メイニアックの本文ではないことを念のためお断りしておく。


ときに、FITの査読は昨年までは7段階評価だった。
7=Strong Accept 
6=Accept 
5=Weak Accept
4=Average
3=Weak Reject  
2=Reject 
1=Strong Reject
しかし、私が情報学基礎研究会を通して
「査読者はacceptするかrejectするか明確に示し、自分の意見に責任をもつべき。Averageは廃止すべき」
と主張したところ、これが採用され今年から6段階になったのだ。
(ちなみに、査読の信頼性を高めるために査読者を3名に増やすという提案は採用されなかった。
査読側の負荷が大きすぎるという判断だろう。)

7段階だったら、私の今回の論文には"Average"がついていたのかも知れない。
いずれにしても研究者は自分の信念を貫けばよいのだ。
たまに人の話にも耳を傾けるふりをしながら。

2007年07月01日

「ウェブ社会をどう生きるか」からの引用

西垣通「ウェブ社会をどう生きるか」岩波新書1074
を読んだ。米国流の考え方を一神教と結びつけていて興味深かった。
印象に残ったくだりをノーコメントで書き写しておく。

八〇年代と現在の相違点は、一台のコンピュータのメモリー内の知識の代わりに、 ウェブに蓄えられた知識をベースにできる、というだけです。 むろん、知識(機械情報)の量は桁外れに増えるわけですが、 知識が増えれば検索エンジンが知能をもつという発想は、 八〇年代のCYCの発想と基本的に全然変わりがありません。
- 西垣通「ウェブ社会をどう生きるか」岩波新書1074, p.88
Cyc(サイク)については例えばこちらをどうぞ。
シャノン情報理論は「客観的世界」を前提として組み立てられています。 そして世界中の情報の検索をめざすウェブ2・0の考え方が、 このシャノン情報理論のモデルを拡大解釈したものであることは明らかです。
- 西垣通「ウェブ社会をどう生きるか」岩波新書1074, p.126
グーグルの創業者であるラリー・ペイジやセルゲイ・ブリンはともに名門スタンフォード大学大学院計算機科学科の出身ですし、グーグルはいわゆる「ベスト・アンド・ブライテスト」を尊重する会社です。 つまり優秀な精鋭で固めようというわけです。 こういうエリート指向は、グーグルのみならず、ウェブ2・0関連の米国企業に共通しています。 そして、日本のウェブ礼賛論者たちの本音は、巨利を得ている彼らのお仲間に入れてもらうこと、 できればお裾分けにあずかることではないのでしょうか。
- 西垣通「ウェブ社会をどう生きるか」岩波新書1074, pp.169-170
ウェブ情報検索機能は一般ユーザーにとって非常に便利だが、 すべての情報が検索サービス業者に集中的に管理されてしまう。 また、検索エンジンに頼りきりになると、人間の思考力や想像力が衰えていく恐れもある。 検索エンジンには人間にとって重要な情報を選別することなどできないので、 機械的に集合知が得られるという主張は楽観的すぎる。 リンク数によってサイトの重要度を定めるアルゴリズムのもとでは、 民主的討論ではなく大衆的な同調作用が起きてしまうのである。
- 西垣通「ウェブ社会をどう生きるか」岩波新書1074, p.174

カレンダー

« 2007年07月 »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ