« 2007年05月 | メイン | 2007年07月 »

2007年06月30日

Paulは死なず

Paul McCartneyの最新アルバムMemory Almost Fullを聴いている。
結構よい。特に最初の3曲。
3曲目のSee Your Sunshineのベイスラインとメロディーだけでもご飯が一杯いける。
とうていお爺さんが作って歌っているとは思えない。
それにしても、Rockin' Onを立ち読みしたところ、相変わらず「こんな大傑作を何年も待っていた!」という主旨のことが書いてあった。
日本の洋楽雑誌は(と言ってもRockin' Onくらいしか読んだことないが)、何が発売されてもそのたびに「最高傑作!」などと言う。
本当に聴いて書いているのか。

Paul McCartneyの90年代以降の最高傑作と言えば、前作Chaos and Creation in the Backyardだろう。
The Beatles時代に匹敵する曲だって入っている。
例えばEnglish Tea。
For No Oneに曲調が似ているが、個人的にはこちらのほうが好きだ。
ブリティッシュな歌詞も秀逸。直後に同じキーGでToo Much Rainが続くのも泣ける。
そしてPromise To You Girl, This Never Happened Before, Anywayのバラード3連発が圧巻。
プロデューサのNigel Godrichが曲を厳選し、全ての楽器をPaulに演奏させたのがよかったのだろう。
このNigelという若者、Paulのあの名盤Tug of War(注1)も持っていないらしいのだが。

さてMemory Almost Fullに戻るが、The End of the Endという曲の中で、自分が死ぬ日について言及しているのが気になる。
まだまだこれからもよい曲を作り続けて欲しい。

ただし再婚はもうやめましょう。
曲作りのインスピレイションが欲しければ、多くの刹那的な恋をして下さい。
Paulなら誰も文句は言いません。


(注1) 名盤Tug Of Warが1982年に出た当時の、英国の音楽雑誌Smash Hitsのこのアルバムに対する評価が手元に残っている。(当時私はロンドンに住んでいたので。)超辛口で、10段階評価で4となっている。曰く、
"60s McCartney was pure genius; the '80s version is sadly mediocre."
(60年代のマッカートニーは天才そのものだったが、80年代のマッカートニーは悲しいほど凡庸である。)
間違った評価だとは思うが、日本人の音楽評論家もこれくらいの勇気をもってはどうか。

2007年06月29日

プラハの豚

経由地のフランクフルトから約11時間、エコノミークラスの席で隣の日本人女性の腋臭に苦しめられたが、無事帰国。
米国出張の場合、一番おいしい食事が全日空の機内食ということもあるが、欧州はやはり食べ物がおいしい国が多い。

空港に向かう前に、プラハ街中の市民会館の地下にあるPlzenska Restauraceで最後の食事。前菜↓。
acl07-plzenska-app.JPG

メインはチェコ伝統のカモ料理↓。申し訳ありません、めちゃくちゃおいしかったです。
acl07-plzenska-main.JPG
北京ダックよりもうまいかも。しかも値段もリーズナブル。
ただ、狩猟民族仕様なので我々農耕民族には肉の量が多すぎる。
途中から自分がはじめ人間ギャートルズになったような気がしてきた。

市民会館前の広場で「飛び込む豚」を目撃↓。
acl07-pig.JPG

豚といえば、この間の米国出張後5kg減量を宣言し、その後とりあえず2kgだけ減らしたのだが、今回の出張は体重には全く影響がなかった。
結論:全ては米国が悪い。

2007年06月27日

東Powerset西Google

今回の旅行、ではなく動向調査の最大の収穫は、今日PowersetのCEOの招待講演を聴けたこと。
(主要スポンサーだと自動的に招待講演をやらせてもらえるのだろう。)
ユーザが常に自然言語クエリを入力できるという前提で話をしており、
「ディレクトリ型検索が過去のものとなったように、近い将来キーワード検索も過去のものとなるのでは」
などと言っていたが納得できず。
ユーザが自分の情報要求を簡潔な一文の自然言語クエリにできるのはごく限られた状況だと思うのだが。
対話を通してユーザの要求を明確にしていくという話もなかったし。
スライドの中で、守備範囲の言語として英語、フランス語、日本語、ドイツ語、中国語、ノルウェー語をこの順番で挙げていたのが少し気になったが(日本市場を重要視している?)、
「お、この会社なら本当にこれから成功するかも?」
と感じさせるところはなかった。

Wikipediaを知識源とした自然言語検索に力をいれており、講演の中でも自社の検索結果とGoogleのWikipedia検索結果を左右に並べた「比較広告」をしていた。
米国人ってこういうの好きだよな。
ちなみに質問は"Who did IBM acquire in 2003?"だった。
(一般ユーザがそんなspecificな質問するか?)
一応Powersetの想定している質問の例が載ったスライドを写真に撮ったので載せておく↓。
(ときに、今まで載せていた写真のほとんどは大きすぎて右側が切れていることが判明。
ショック。これからは小さくします。)

acl07-23-powersetNL.jpg

Powerset(左)とGoogle(右)のスポンサーブースがにらみ合い↓。はっけよい。
双方ともデモくらいやって欲しかった。
acl07-22-powerset.jpg


あまり興味のないセッションの時間帯を利用して再びGPS持参の取材に出かけた。
街中ではなく、ホテルの最寄駅Chodovから6駅のVysehrad(プラハ旧城)。
観光客が格段に少なくてよかった。

これは聖マルティン教会のロトゥンダというものらしい↓。
acl07-25-rotunda.jpg

これはおそらく聖ペテロ聖パウロ教会↓。
acl07-26-church.jpg

見下ろすとこんな感じ↓。
acl07-27-visehrad.jpg

さらにこんな感じ↓。
acl07-28-visehradview.jpg


晩飯。
どういうわけか約15人の中国人を私がプラハ中心部のレストランまで引率することになった。
食事中の会話は90%中国語。
なるべくレストランの雰囲気を壊さないように気を遣ったが、無駄だった。
出された料理はパンとソーセージと肉だけ。野菜はないという。
意味がわからないが、食費はKampaparkのちょうど10分の1だった。

私のテーブルの正面に座った3人↓。
acl07-29-dinner.jpg

このレストランのジャズミュージシャン↓。
acl07-30-jazz.jpg


明日のフライトは夕方なので、日中はホテルで仕事をするつもり。
現在、来月のSIGIRの発表資料をじっくり作成中。
会社でも家でもなかなか落ち着いてやる暇がないので…

2007年06月26日

まじめにACL2007

ホテルの最寄り駅にある大きなショッピングセンターまでてくてく20分歩いて買い物をした。
とりあえずチェコの人気者クルテクを購入↓。
日本でいうとドラえもんだろうか。
acl07-19-krtek.jpg


まじめにACLのことを書くんだった。

なんと今回のACLの参加者は千人を超えたそうである。
英Cambridge大留学時代の友人たちや東芝時代の元上司の平川さん(現在ロンドン勤務)をはじめ、多くの懐かしい人々と再会。

昼休みには、言語処理学会が出版予定の辞書の構成に関して関根聡先生奥村学先生乾健太郎先生徳永健伸先生と急遽ディスカッションをした。


暗くて申し訳ないが、これはACL lifetime achievement award授賞式の様子↓。
故Karen Sparck Jonesもこの賞を2004年に受賞している。
Googleだけでなく、自然言語検索のPowersetが今回のACLの主要スポンサーになっているのがおわかりだろう。
参加者に配布されるバッグにもGoogleとPowersetのちらしが入っており、PowersetのちらしはもろにGoogleに喧嘩を売っていておもしろい。
acl07-18-powerset.jpg

これも暗いがプラハの市民会館(といっても歴史ある立派な観光名所)のbanquet会場の様子↓。
味わい深い建築とPCのプロジェクタがあまりにミスマッチ。
acl07-20-banquet.jpg

同会場の天井はこんな感じ↓。
acl07-21-glass.jpg


なお今日聴いた発表の中では、Sentiment (Analysis)のセッションの、Googleによる発表(珍しい!)
McDonald et al.: Structured Models for Fine-to-Coarse Sentiment Analysis
と、その直後のUniversity of Pennsylvaniaの発表
Blitzer, Dredze and Pereira: Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification
が印象に残った。後者はプレゼンテイションが素晴らしかった。


ほうらちゃんと仕事してるでしょう。


2007年06月25日

プラハの変人

プラハに観光に、いやACLという自然言語処理の国際会議の動向調査のために来た。
初めての東欧。
ホテルのインターネット環境が悪いためブログ投稿が遅れた。

技術スタッフN氏からGPSを預かったので月曜日は「取材」に徹し、現在位置をピコピコ認識させながらプラハの街の写真を撮った。
あとで写真と地図をマッシュアップするためらしい。
以下写真集。


24日。学会会場のホテルに到着↓。
プラハの街中に遊びに行くには徒歩20分+地下鉄で20分。
もう少し便利なホテルでやって欲しかったが、そうすると誰も会議に参加しなくなるのだろうな。
acl07-1-tophotel.jpg

ホテルの部屋↓。味気ない。
acl07-2-hotelroom.jpg

何度でも言うが、これでどこをどう洗えと言うのか↓。
acl07-3-shower.jpg

ホテルの周囲の風景↓。月が出ていた。
acl07-4-fountain.jpg

偶然また三田村先生とNyberg先生と一緒にホテルのレストランで晩御飯を食べることに。
写っているビールこそ、元祖ピルスナー↓。うまし。
acl07-5-dinner1.jpg


25日。ホテルから地下鉄の駅に歩いて行く途中で見つけた↓。
acl07-6-sculpture.jpg

プラハ城から街を見下ろす↓。
acl07-7-view.jpg

プラハ城にある大聖堂↓。
acl07-8-cathedral.jpg

河岸のレストラン、Kampaparkから撮ったカレル橋↓。
acl07-9-karluv.jpg

Kampaparkで食べた前菜↓。
皿はでかいがこれだけ!? めちゃくちゃ高いぞ。
acl07-10-kampapark1.jpg

Kampaparkで食べたメインディッシュ↓。
ああ高い。でもすいません、おいしかったです。
ピルスナーも生のほうがうまい。
acl07-11-kampapark2.jpg

カレル橋から城を見上げる↓。
空に写っているのはゴミではなく鳥です。
acl07-12-castle.jpg

カレル橋↓。観光客だらけ。
acl07-13-karluv2.jpg

ティーン教会↓。
手前に写っているハンバーガーはレストランの看板の一部。
acl07-14-church.jpg

天文時計↓。
acl07-15-clock.jpg

旧市街広場の馬車↓。
acl07-16-horses.jpg

ホテルの中の、昨夜とは別のレストランで食べた晩飯↓。
こういうビュッフェ料理はもううんざりなのだが、コーゼルという黒ビールの生が飲めたのはよかった。
メロンのような風味。
acl07-17-kozel.jpg


26日からまじめに動向調査します。

2007年06月22日

SIGIR過去30年分の論文をグラフィカルに検索!

情報検索の国際会議最高峰ACM SIGIRの今年のwebsiteはおもしろい。
たとえばこのページでは、今年(SIGIR07)を含む過去30年分のSIGIRの論文(regular paperのみ)のタイトルをもとに、
研究者ネットワーク検索や論文の地理的分布検索ができる。

これは、"evaluation"で研究者ネットワーク検索(expert search/graphical output)した結果↓。
自分のSIGIR 2006の論文がヒットするが、孤立している感じがよく出ている。
sigirgraph-evaluation.png

同様に"summaries"の検索結果↓。
SIGIR 2001のSakai/Sparck Jonesの論文がヒットする。
Karenとつながっていると心強い。
sigirgraph-summaries.png

同様に"abstracts"の検索結果↓。
ニューズウォッチの取締役、三池さんのSIGIR '94の論文がヒットする。
sigirgraph-abstracts.png

同様に"bpref"の検索結果↓。
私が7月にSIGIR 2007で発表する論文がヒットするが、メイニアックすぎてネットワークにならない。
sigirgraph-bpref.png


これは"evaluation"で地理的分布検索(geographical search)した結果↓。
黄土色の地域のほうが緑色の地域よりも発表件数が多い。
geo-evaluation.png

同様に"summaries"の検索結果↓。
赤は黄土色よりもさらに件数が多いという意味。
geo-summaries.png

頑張れ日本!

2007年06月19日

怖い検索クエリ、怖いBig Brother

職業柄、Web検索エンジンのクエリログ(入力された検索キーワードの履歴)の分析をやってみたいと思っている。
昨日偶然見つけたのが、米ユタ州の政府系Webポータルのクエリログを調べた下記の文献。怖い。

Chau, M., Fang, X. and Sheng, O. R. L.: What Are People Searching on Government Web Sites? Communications of the ACM, Volume 50, Number 4, April 2007, pp.87-92.

クエリログから、以下のような物騒なクエリが見つかったというのだ。
radioactive waste storage (放射性廃棄物貯蔵庫)
nuclear waste transportation route map (核廃棄物輸送ルート地図)
他にも、
nuclear AND map
pipeline AND map
などというブール式もある。怖い。
もちろんwater systemやanthraxなど、よりグレイな(善良な市民が入力したかも知れない)クエリならもっとたくさんある。

日本の検索エンジンのログも常にモニターすれば、オウムのようなテロを防げるだろうか。

などと言いはじめると、Big Brotherの世界(George Orwellの小説Ninety Eighty-Four (1984年)の中の、市民の行動が徹底的に監視されている世界。)へ踏み出すことになりかねないが。

え、もう踏み出しているって?
そう、検索エンジンの裏側にはBig Brotherがいる。

例えば、会社で極秘のプロジェクトを始めるにあたり、市場動向調査をする場合。
極秘プロジェクトなので、社内で作成する文書類は厳重に管理している。
ところがその一方で、市場動向調査には某大手検索エンジンを使いまくる。(だって便利なんだもん。)
このため、検索エンジンの裏側にいるBig Brotherは、入力された一連のクエリおよびクリックされたページを観測し、
「はは~ん、ここは最近こんなビジネスを考えているんだな」と推測できてしまうかも知れないのである。
Big Brotherを意識せずに検索エンジンを利用するのは、非常にまずい。

私自身はどうしているかというと、もちろんデフォルトでは自社のフレッシュアイを利用。
使い込みなくして改革なし。
海外の文献を探す場合や、Big Brotherに情報を与えても差し支えないと判断した場合のみ、
悔し涙を流しながら某大手検索エンジン(名前は忘れたが、確かアルファベットのGから始まる)を利用している。

2007年06月17日

シーモネーター

Thomas HarrisのRed Dragonを読み終わった。
特にスリラー好きというわけではないのだがなかなかおもしろかった。
おもしろい英文を見つけたので書きとめておこう。
主人公と奥さんが再会するシーン。二人は身長が同じくらい。

A level kiss in public carries a pleasant jolt, possibly because level kisses usually are exchanged in bed.

- Thomas Harris: Red Dragon, Chapter 52.

"level kiss"は顔が同じ高さにある状態でするキス。
"kiss in public"はいわゆる「路チュー」。
"pleasant jolt"は心地よい驚きといったところか。
いい加減に訳せば、
「背が同じくらいの二人が公共の場で交わすキスは心地よい動揺をもたらす。
同じ高さのキスは、通常ベッドで交わされるものだからかも知れない。」
うまくこなれないなあ。
翻訳家ならもっと大胆に意訳するんだろうな。

ちなみにRed Dragonも原作と映画は結構違う。

<ネタばれ注意>
映画の中で主人公は、目の前で殺人鬼にナイフをつきつけられ小便を漏らしている自分の愛する息子に対して、わざと次のようなひどい言葉を投げかける。
これは、殺人鬼が幼少時に祖母に言われた台詞であり、殺人鬼を動揺させるためである。

Do you want me to cut it off?

原作ではこんなやりとりは存在しない。
そもそも原作で出てくるのは奥さんの連れ子である。
</ネタばれ注意>

さて、上記の息子に対する台詞のitは何を指しているか?
もちろん「息子」である。失礼。

2007年06月16日

転職して一体何をやっているのか

転職してから4ヶ月以上たった。
私は自然言語処理研究室というところに所属しているが一体何をやっているのか。
社内でも知らない人が多いと思う。

研究半分、実サービス向けの仕事半分ということでニューズウォッチに入社した。
短期的な利益につながらなくても将来的には役に立つ基礎研究をして、学会発表などを地道に積み重ねて会社の知名度を高め、顧客や優れた社員の増強につなげる。
これが50%。
一方、会社自体がつぶれては仕方ないので、実サービスを短期的にどのように向上させるか考え、開発を行う。
これも50%。

研究半分・サービス半分という環境が研究者にとってどうかと言えば、恵まれていると思う。
例えば、大学の先生は学生の指導や大学の運営に多大な時間を費やしていると聞く。
以前、オランダの大学で先生をしている友人に、研究に何%くらい時間を使えるか聞いたところ、
彼は30%と答え、"That's not bad."と爽やかに言った。
実際、彼は情報検索の分野で非常に優れた研究成果をあげているのだが。

研究半分というのが東芝の研究所にいたころと比べてどうかと言うと、基本的に変わらない。
東芝のように比較的安定した大企業であっても、一般には関連カンパニーから依頼をもらって(研究ではなく)開発を行ったり、
たまに天からよくわからない仕事が降ってきたりするわけで、決して好き勝手な基礎研究ばかりできるわけではない。
(ただし私に限ってはかなり自由にやらせていただいた。知識メディアラボラトリの上司と同僚のおかげです。)
違いは、今のほうが楽しいということだ。

では、具体的に何をやっているのか。
研究のほうは、今はちょっと新規テーマ立ち上げの時期なので、普段のように計算機をぶん回して実験したりしていないのがちょっと寂しい。
しかし、NTCIRの運営に関わったり、東芝時代に書きためた論文を国際会議で発表したり、新しい共同研究者とディスカッションを始めたりしている。
現時点では会社生活の50%を研究に費やしているとは言えないが、それは早くフレッシュアイ上で自分の実績を作りたいからである。
(いやいやいや、これまで遊んでいたわけではなく、フレッシュアイ以外の仕事では実績が少しあります。少し。)

実サービス面では、主にフレッシュアイ向けの新しいサービスコンセプト作りなどをしている。
またこれらを実現するために社内外のいろいろな方々と交渉している。
それでいてアルゴリズムを実装したりもしている。

ちなみに、自然言語処理研究室といっても部屋があるわけではない。
私の机は金田社長の机と直角にぴったりくっついて置かれているので、社長とのディスカッションがとてもやりやすい。
周囲には営業の人達。電話をたくさんかけて頑張っている。
そういえば最近、私は技術部兼務ということになったのだが、技術部の人たちの席は相変わらず遠いなあ。
友達募集。

あ、そうそう、自然言語処理研究室の研究員募集。

2007年06月11日

Kim Jong Ill?

Is Kim Jong so ill he needs surgery? (金正日は手術が要るくらい重態なのか?)
うまいヘッドラインだ。
言うまでもなく、Kim Jong IlのIlと病気のillをかけている。座布団一枚。

Reduce, Reuse, Recyleを「リデュース、リユース、リサイクル」と言っている最近のTVコマーシャル。
名詞ならリユースでよいが、ここでは動詞を並べているのだからリユーが正解。座布団マイナス一枚。
ニューウォッチ。病的なこだわり。

とはいえ、英語は、発音は適当でもアクセントさえある程度ちゃんとしていればほぼ完璧に通じる。
問題:recordはどのように発音しますか?
答え:動詞なら、リコード(コにアクセント)。名詞なら、レコード(レにアクセント。レカドに近い発音も可)。

と書いてみたが、発音もできるにこしたことはない。
今読んでいるThomas HarrisのRed Dragon(レッド・ドラゴン)におもしろい台詞を発見。
連続殺人犯が、怖がって震えている男に言う。
"You owe me awe." (ユー・オウ・ミー・オー。)
お前が私に対して抱くべき感情は(恐怖ではなく)畏敬の念だ、という意味。映画にも出てきた。
aweは口を縦にちょっと大きめに開き、唇を動かさずに発音する。
oweとawe、lowとlaw。
普段から「ロウ」「ロー」のように意識することをお勧めする。

Lawと韻を踏む語にdrawがあるが、映画Toy Storyで、主役のカウボーイ人形Woodyが
"Draw!" (銃を)抜け!
と言うと、お絵描きおもちゃが銃の絵をささっと描く(draw)というギャグがあった。座布団二枚。

2007年06月05日

米国生活とオートマトン

Pittsburghに4泊しただけで、体重がこれまで踏み込んだことのない領域に突入した。
食事にはわりと気をつけていたのだが、やっぱり米国は米国。
自動的に豚になるようになっている。これぞオートマ豚
太っているとギャグもさえない。
ただいまよりダイエット開始。
5kg痩せるまでちゃんこの量を減らすべし。

それでいて、体脂肪率は何故か4%減った。誤差?
Pittsburghの街中をひたすら歩き回っていたから?


帰りの飛行機では以下の映画を鑑賞した。


  • Music and Lyrics (ラブソングができるまで)
  • Ghost Rider (ゴーストライダー)
  • どろろ

Music and Lyricsは、80年代英国ポップ黄金時代に心を置いてきた、かつ作詞作曲をたしなむ私のために作られたような映画。
このネタであれば、さらにもっとおもしろい映画にする余地もあったのではないかと思うが、まあそれでもかなりおもしろかった。
英語で韻を踏んで歌詞を作る楽しみがわかる。
平凡な音楽も、極めて正しい。

Ghost Riderは…あまりにつまらなくて途中で一回寝てしまった。
The Shadow (シャドー、これまたアメリカンコミックスもの)の次くらいにつまらない。
モト冬樹よ、じゃなかったNicolas Cageよ、わざわざ増毛して臨むなら映画を選ぶべし。
(でもこの人、芸名をアメリカンコミックスからとっている。好きなんだな…)
アメリカンコミックスものでもSpider-Man (スパイダーマン)などは充分おもしろいと思いますが。

どろろ。手塚治虫ファンとしては一応見ておこうと思ったのだが、時間切れで最後のほうが見られなかった。
スケジューリング失敗。でも妻夫木君すてき。
原作だと、どろろは途中で女の子だと発覚するのだが、柴咲コウはいきなり女だと見破られていた。
そりゃそうか。


ちなみにダイエットはしますが、ビールはやめません。

2007年06月01日

RIAO2007(Pittsburgh)旅行記その3をとばして4

CNET JapanにNTCIRについて語ったコラムを載せてもらった。
http://japan.cnet.com/column/pers/story/0,2000055923,20349376,00.htm
ビジネス感覚のない研究者がこういうところに書いてもよいのかという話はあるが、
ニューズウォッチの国内での知名度向上に少しは役立つだろうか。
今回のような国際会議でもNewsWatchとFreshEyeの名前だけはばんばん宣伝しているのだが、今のところサービスが日本語だしな…

それにしても この写真、頭が禿げているのか、ちょんまげなのか、全然わからないトリミングだな。


ここで、今日もまた米国人に道を聞かれた↓。もう少し旅行者オーラを出さないとだめかな。
riao07dino.JPG


本屋に行って、これらの本を購入↓。
riao07books.JPG
この間ケーブルテレビで見たRed Dragon (レッド・ドラゴン)がおもしろかったので。
ちなみに映画をノベライズしたものではなく原作である。
The Silence of the Lambs (羊たちの沈黙)とHannibal (ハンニバル)は前に読んだ。
Hannibalは映画を見るより前に原作を読んだが、たしか結末がだいぶん違ったと思う。
Hannibal Rising (ハンニバル・ライジング)も原作を読むのが先になりそうだ。


RIAOが終わった後、NTCIR-7の質問応答関係のオーガナイザをされるCMUの三田村先生Nyberg先生とディスカッションをし、その後Japanese restaurantに連れて行っていただいた。
初日にGinzaに行ったといったら同情された。おかげさまでPittsburghに来て初めておいしいディナーを経験できた↓。
riao07teruko-eric.JPG
お酒を出せないお店なので外でビールを買ってきて持ち込み。地ビールうまし↓。
riao07eric.JPG


明日は5:30amにホテルを出て空港に向かうために車を手配。
タクシーだと明日にならないと呼んでもらえないし、料金は10ドルくらいしか違わないので。
寝坊注意。

カレンダー

« 2007年06月 »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ