« 2007年07月 | メイン | 2007年09月 »

2007年08月31日

アジア新記録、FIT 2007の発表資料

男子400mリレー、アジア新記録どうもおめでとうございます。
それにしても、レース直前のTBSのコメンテイター(?)の台詞には衝撃を受けた。
「アメリカなり、バトンのヘタクソなチームがミスしていただけると有難いなと思います」
スポーツなのだから、そういうことを全国ネットで言わないように。
皆の心の中で強く念じるだけにしましょう。へんな敬語もやめましょう。


来週(9/5)はFIT 2007の「情報検索」セッションで学会発表。
同日「データ探索・情報検索」セッションの座長も務める。
http://www.ipsj.or.jp/10jigyo/fit/fit2007/fit2007program/html/program/d_index.html
ということで急いで発表資料を作成した。内容はこの間のSIGIR論文の続編。
ここでもちらっと述べたが、
SIGIR論文が「なるべくたくさんの適合文書を検索する」タスクに関するものであったのに対し、
今回の発表は「適合文書をひとつ検索する」タスクに関するもの。
FIT 2007の発表資料


今週は、フレッシュアイの新サービスに向けた仕事もやりつつ、
久々に情報検索評価指標の評価実験を再開した。
これまたSIGIRの追試のようなしつこい内容だが、
来年1/21のNL・FI研におけるNTCIR特別セッションで発表しようと考えている。
ちなみにこのセッションでは情報検索評価方法のチュートリアルも担当することになりそうだ。

年内に言語処理学事典の執筆もあるし、いろいろ勉強しなければならない。
とにかく時間が足りない。

2007年08月28日

娘は背中で語る

先程、娘の背中をせっせと掻きながら、
「もっと上とか、もっと下とか、言ってね」
と囁いた私に娘が返した言葉は、
「もっと上とか、もっと下とか!」

以下、英語ネタとしてはちょっと簡単すぎるが…

例えば自分のためにお酒を注いでくれている人に、
"Say when."
と言われたらどのように答えるか?

上記の文の意味は、要するに
"Say when you want me to stop."(もういいというところでストップかけてね)
ということなので、
"That's fine."
"That's enough."
"Stop, please."
など、相手を止めさせる表現なら基本的になんでもよい。

しかし、大正解は
"When."
である。

"Say when"をふざけて「Whenと言いなさい」と解釈するわけである。
「文字通りに受け取って"When"なんて答えたらばかにされる」というのはデマ。
英語ではこの一捻りある答え方は極めて一般的である。

こちらのエントリでも紹介したように、
娘はこの手の言葉遊びがうまい。終始、親バカ。

2007年08月23日

ミニライブとミニスシ

先月、妻と銀座の山野楽器に行ってLisa OnoのSoul & Bossaを購入した際
(1階の邦楽フロアで売られていたのには違和感あり)、
妻がキャンペーンのくじを引いたら一等の「ミニライブご招待」が当たった。
当然自分も行けるのだろうと思っていたら、なんと招待券は一枚。
そういうわけで昨日、私は娘とお留守番だった。


悔しいので近くの寿司屋で豪遊することにした。
もちろん回る寿司である。
おそらく娘は寿司屋と言えば回るものだと思っている。
娘とカウンターに座ってイカのサビ抜きを注文したら、
お兄さんが気を利かせて食べやすいミニ寿司を作ってくれた。
写真のように、通常の回転寿司の皿に小さいのが6つ載っていた。
minisushi.jpg
娘は大喜び。寿司屋はちょっとした水族館としても使えるし。


さて、Soul & Bossaはソウルの名曲を一流ボサノバミュージシャンが
カバーするという企画なので、悪いわけがない。
ハイライトはOtis Reddingのカバー(Sittin' On) The Dock of the Bay。
寂しさを噛みしめ、何もしないで海を見ているという素晴らしい歌詞に、
力の抜けたボサノバボーカルが非常にマッチする。
次点はStevie Wonderの大傑作バラードOverjoyedのカバー。
それから、同じくStevie WonderのLatelyのカバーは、ボサノバのほうがむしろ良い。

「ミニライブ」を4列目でエンジョイして帰ってきた妻によれば、
これはavexによるDVDのプロモーション企画だったらしい。
招待券が一枚だったのは、夫婦をペア招待してもDVDは一枚しか買ってもらえないからだろうか。

最近の娘の口調を借りてコメントするなら、「いいもーん。DVD欲しくないもーん」

2007年08月22日

親ばかリターンズ

ついに娘が私の絵を描いてくれた。
ただし、「パパの赤ちゃん」つまり私が赤ちゃんだった頃の絵。そっくりである。
babyfather.JPG
背景には「A」「B」「C」と書かれている。
ただし、彼女の場合、例えば「A」という字は2文字で表記されるため、合計6文字が空に浮かんでいる。
ちなみにアラビア語のように右から左に読むのである。

彼女はキルクちゃんと自分の絵も描いた。
(キルクちゃんは何故かヤマちゃんという名前に変わっていた。
というか、ヤマ・キルク・サカイという名前らしい。ミドルネーム?)
彼女は怒っていて、キルクちゃんを部屋に入れてあげないそうだ。
daughterkilk.JPG

あまりに酷似しているのでここには載せないが、妻の絵も描いた。
何故か耳が黒く塗ってあった。

2007年08月20日

検索評価指標の感度、栗原恵、高橋みゆき

日本にとってのバレーボール・ワールドグランプリが終わってしまった。
しかし日本の選手は美しく強かった。
実は負け越しだが、諸外国の強豪とフルセットで競り合うなど、見ごたえはあった。

負けても見ごたえがある一因として、バレーボールのスコアの粒度の細かさがあると思う。
僅差のチーム同士だと、25対23などということになって、
結果的に負けても、チームがどれくらい頑張ったかが定量的に評価できる。
(え、かわいい娘に甘いって? 当たり前じゃないか。)

スコアの粒度が粗いチーム競技の代表といえばサッカーか。
例えば1対0で負ける。
0点のほうは、健闘したのかも知れないし、全然だめだったのかも知れない。
本当はかなり健闘したのだとしてもスコアには反映されないので、観客は「全然だめ」と主観的に判断し、フーリガンと化す。
さらに、粒度が粗いスコア方式では「まぐれ」が起こる確率も高い。
勝つはずのチームが負けると、サポータはフーリガンと化す。


サッカーのルールもあまりよくわかっていない私のこのいい加減な議論は、
私が研究をしてきた情報検索の評価指標の感度(判別能力)に関する議論と似ている。
例えば10種類の検索エンジンがあったとき、その組み合わせの数は
10*9/2=45通りあるが、各組み合わせについて個別に(注1)統計的検定を行った場合、
いくつの組み合わせについて有意差が得られるかを判別能力と定義し、
同条件のもとで(第一種の誤りの確率を固定した下で)複数の評価指標の判別能力を比較し、
同時に、平均的にどれくらいの絶対差があれば統計的に有意となるかを推定する、
という地味な研究の話である。

(注1) 個別でなく、まとめて統計的検定をやる方法もある。

このような取り組みに対し、「感度が高いイコール良い評価指標とは限らない。
ユーザの主観的判断はもっと粒度が粗いはず」という人もいる。
しかし、システムの最適化を効率よく行うには、
ユーザの主観判断と高い相関を示し、かつ、感度のよい評価指標を用いることが望ましい。
なぜなら、例えば{0,1}の2つの値しかとらない評価指標を使ってシステムをチューニングしようとしても、
0と評価されたシステムが健闘しているのか、全然だめなのか全くわからず、改良のしようがないからである。
欲しいのは、どんな局面にあっても、システムを正しい方向に優しく導いてくれる指標である。
ちなみに、統計的有意差が実際に役に立つための十分条件であるなんて誰も言っていない。


サッカーで、ゴールの大きさを2倍にする、あるいは、おしくもはずれたシュートには0.5点あげる、
などというルールの改変を行っても、フーリガンは減らないものだろうか。
得点したときのあの幸福感が損なわれる分、得点しなかったときの不満が緩和されたりしないだろうか。
ううむ、パブでのサッカー観戦が盛り上がらなくなりそうだなあ。

やはり私は栗原恵高橋みゆき達について行こう。

2007年08月18日

日仏異業種コラボレイション

今更ながら、2003年公開の映画
INTERSTELLA 5555: THE 5TORY OF THE 5ECRET 5TAR 5YSTEM
を鑑賞した。
フランスのロボット音楽家Daft Punk松本零士のコラボレイションである。
フランス人にはキャプテンハーロックのファンが多いらしい。
たしか私の知り合いにもいた。

見てみると、私が英国留学時代さんざん聴いていたDaft Punkの名盤Discoveryを最初の曲から最後の曲までずっと流しっぱなしのビデオで、台詞もなんにもない。
松本零士とDaft Punkのいずれかを好きな人でなければ全然おもしろくないかも知れない。
幸い私は両方好きなので結構楽しめた。
(私が昔から好きな英国のバンドDepeche Modeがいなかったら、Daft Punkの音楽はこうなっていなかったと思う。)

さて、私の最も敬愛する人(個人的な知り合いを除く)を、ジャンル別に選ぶならば
・宮沢賢治
・Paul McCartney
・手塚治虫
・志村けん
だが、手塚治虫はアニメイション映画の名手とは言えなかったと思う。
小学生の頃、手塚治虫ファンクラブに所属し、将来手塚治虫のような漫画家になりたいと公言していた私だが、手塚治虫のアニメイション映画は、彼の原作と比べるとあまりにつまらなかった。

これに対し、松本零士の漫画は、アニメイション映画にすると魅力が倍増することがある。
そういうわけで、INTERSTELLA 5555を見ていると、森雪や、メーテルや、クイーン・エメラルダスや、槇原敬之が頭の中を駆け巡る。

ときに、「帰らざる時の物語」という松本零士の漫画を知っていますか?
あまりに淫靡で、子供の頃かなり衝撃を受けました。

2007年08月16日

50年前の情報検索の論文

情報検索入門シリーズ。
検索のための文書のスコア付け手法として最も基本的なtf-idfの、
idf(inverse document frequency)の部分の考案者がKaren Sparck Jonesであることについては
以前述べた。ではtf(term frequency)の考案者は?

答えはベクトル空間モデルの発明者Gerard Salton、ではなくて、H.P. Luhnだろう。
ちょうど半世紀前に書かれた文献[1]にこんな文が出てくる。

There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essence of his overall idea.
要するに、文書中で頻度の高い概念(および概念の組み合わせ)ほど 著者の述べたい中心的な事柄であり、重要度が高いだろうということ。 ただし、この論文におけるtfの利用目的は文書のスコア付けではなく、 後の検索のために文書のインデクスタームを(人手ではなく)自動で付与すること。

またLuhnは翌年、情報検索ではなくテキスト要約(正確には、重要文抽出=sentence extraction, sentence selection)に関する論文[2]でこう書いている。

It is here proposed that the frequency of word occurrence in an article furnishes a useful measurement of word significance.
とどのつまり、tfは(重要文抽出の前段階としての)重要語抽出の尺度として有用だろうということ。

さらに、文献[3]では、単純な頻度のカウントではなく、
文書に出現した全ての語の頻度による正規化にも言及し、
文書スコア計算方法も具体的に示している。

If frequency of occurrence is an indication of the significance of certain words used by an author, the machine can readily rank such words by frequency or can weigh each word by its relative frequency with respect to all the words of a given text.

この論文で実際に示されている文書X,Y間の類似度s(X,Y)
(検索要求Xに対する文書Yのスコアと考えて差し支えない)は以下の通りである。
s(X,Y)=∑i min(Fi, Gi)
ここで、
∑は文書XとYに共通な語に関する和、
Fi, Giは第i共通語のそれぞれ文書X,Y内の相対頻度(前述の「正規化された頻度」)である。


それでもって、LuhnのtfとSparck Jonesのidfを掛け合わせてtf-idfにしたのがGerard Saltonである。
…と書いてしまうと、まるで故Saltonが掛け算しかやっていなかったみたいで申し訳ないので、
またの機会にベクトル空間モデルについて触れたい。


[1] Luhn, H.P.:
A Statistical Approach to Mechanized Encoding and
Searching of Literary Information,
IBM Journal of Research and Development (1957)

[2] Luhn, H.P.:
The Automatic creation of Literature Abstracts,
IBM Journal of Research and Development (1958)

[3] Luhn, H.P.:
The Automatic Derivation of Information Retrieval Encodements from Machine-Readable Texts,
Information Retrieval and Machine Translation, Vol.3, Pt 2, pp.1021-1028,
Interscience Publication (1961)

2007年08月13日

フレッシュアイAG

暑いので軽井沢に行ってワインを買ってきた。
気持ちだけでも涼しくなりたくて、ワインの箱でペンギンの親子を作った。
娘によれば、彼らの名はアロマチックとエンバチック。
penguins.JPG

コンタクトレンズ使用者にはかかせない洗眼薬。
思わずフレッシュアイAGを買ってしまう。
AGって何の略?
fresheye.JPG


だめだ、もう書けない。AG(暑くてギブアップ)。

2007年08月08日

技術とコンテンツの融合体:フレッシュアイ。

上記のキャッチコピーはいかがでしょう。も踏んでるし。

フレッシュアイのトップページがだいぶんすっきりしました
私は何も貢献していませんが。
(入社して半年たったので、さすがにそろそろ社外から見える貢献をしないと、
何もやっていないと思われそうだなあ。)
これに伴い、フレッシュアイのトップページにあった
「検索メイニアック」のバナーが右下から左下に引っ越しました。
いやほんと、だいぶん使いやすくなりましたね。

そういえば昨日、フランスの会社からフレッシュアイに対する売り込みの電話がかかって来ました。
知名度向上・機能向上、今後もがんがん行きましょう。

フレッシュ愛と、新しい恋。

2007年08月06日

ヒロシマとSIGIR 2001

今日はヒロシマについて、ヒロシマで亡くなった方々について、
被爆して未だに苦しんでいる方々について考える日である。

報道ステーションで松岡修造がヒロシマナガサキという映画について紹介していた。
見てみたい。

それにしても、日本にも例えばFahrenheit 9/11 (華氏911)を作ったMichael Mooreのように強い主張をもち、
かつプレゼンテイションのうまい映画監督はいないものか。
「米国は原爆投下について謝罪せよ」という政治家はいないものか。

おっと、筆が右に滑ってしまった。
私は別に謝罪して欲しいと思っているわけではない。
「悪かった」と思ってもいない人に謝ってもらっても意味がない。
「謝れ」の応酬も不毛だ。

検索メイニアックの立場に戻り、SIGIR 2001を思い出そう。

2001年9月11日、私は米国にいた。
World Trade Centerの結構近くであった。
と言っても、New OrleansのWorld Trade Centerである。

事件が起こったのはSIGIRの真っ最中であった。
このために、多くの学会参加者の帰国フライトがキャンセルされた。
(私はもともとSIGIRのあとにDUC(Document Understanding Conferences)
というテキスト要約のワークショップでも学会発表をすることになっていたため、
奇跡的に影響を受けなかった。)

ホテルのTVで飛行機がWorld Trade Centerに衝突するのを何度も何度も見た。
しかし、あのシーンより強烈に印象に残っているのは、事件の直後にTVでインタビューを受けた
米国人の小さな男の子の発言である。
インタビューアに「テロリストはどうして米国を攻撃したのだと思う?」
と聞かれた男の子は、

They're just jealous! (ぼくたち米国人に嫉妬してるからさ!)
と言ったのだ。

おそらく父親の台詞の受け売りだろう。
しかし、米国人がいかに「わかっていないか」を端的に表しているように思えて、当時は青ざめたものだ。
もちろん米国人にもいろいろな人がいる。
9/11後、もっと「わかろう」とした人も増えただろう。
原爆についても、「必要悪」などと思っている人ばかりではないだろう。

いずれにしても、原爆について語り継いだり、国際的な場で自分の立場を主張したりするために、
日本人はコミュニケイション能力(英語力ではない)、プレゼンテイション能力をもっとつけるべきだと思う。
私も日本特有の沈黙の文化は好きである。しかしこれは国際的な場では通用しない場合が多い。

理想を言うなら、映画ヒロシマナガサキも、全て日本人の手で作って欲しかった。

2007年08月01日

傀儡師さん Episode II

このたび、以前検索メイニアックを取り上げてくださった
傀儡師さんのブログ「傀儡師の館」とのトラックバック関係がめでたく成立した。
これに伴い、傀儡師さんの新しいエントリサイトナビに関するつっこみをいただいた。

社内で調査してもらったところ、社外のサイトナビのお客様対応を最優先しているため、
自社サイトのサイトナビのメインテナンスをしばらく怠っていたということがわかった。
フレッシュアイは最近猛スピードでリニューアルしているのに、設定が古いままになってしまっているという話。
こういうのを紺屋の白袴という?

傀儡師さんすみません、なるべく早く直します。
ご指摘大変ありがとうございます。
小さい会社ですので、なかなか手が回らない点も多いのですが、
今後も是非忌憚のないご意見をいただければ幸いです。

でも、先週の国際会議で、外国人に「ちっぽけな会社です」と謙遜して言ったら、
「successful ventureとしてはちょうどよい大きさなんじゃない?」とお世辞を言われて少し嬉しかった。
あとはsuccessfulになれば問題なし。

カレンダー

« 2007年08月 »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ