« 2007年11月 | メイン | 2008年01月 »

2007年12月31日

さよなら2007

ニューズウォッチに入社して11ヶ月が過ぎた。
ウルフルズ風に言えば「あっちゅーま」。古い。
そして検索メイニアック!をスタートして9ヶ月が過ぎた。
下のグラフは、開設以来の月別ポスト数の推移である。
コツコツと継続するのが苦手な私にしてはよく続いている。

maniac2007.JPG


来年の抱負は、まず体重を3キロ減らすこと。
現状は、ユニコーン風に言えば「この脂身をどうすりゃいいの 誰が僕を救ってくれるの」。古い。
正月休み明けの体重をベースライン(*)とするなら、5キロ減らすのが妥当かも知れない。

(*)下記論文のp.7参照
酒井哲也: チュートリアル: 情報検索テストコレクションと評価指標 (pdf, 417KB),
情報処理学会研究報告 2008-FI-89 / 2008-NL-183 (2008)

それと、ここにも書いたように学会関係の雑用を減らすこと。
今回の正月休みはSIGIR論文執筆と雑用で終わってしまいそうだ。

新年を迎えるにあたり、穴が開きまくった障子をついに張り替えた。
別に「太陽の季節」ごっこをやっていたわけではない。
娘の友達が遊びに来た回数が刻まれているだけだ。
最近の障子紙はアイロンで貼れるのか。さすが日本。


メイニアック読者の皆様、今年は本当にお世話になりました。
2008年もどうぞよろしくお願いいたします。

2007年12月27日

人工知能つき検索システム

本日の日経新聞社会面より。

検索サイト「グーグル」で厚生労働省など一部の検索結果が正しく表示されない問題で、グーグル日本法人は二十六日、原因について「検索システムの人工知能の学習不足」との
調査結果を明らかにした。検索結果を第三者が不正に操作した可能性は低いという。

ほほう。グーグルともなると、不具合とかバグとか言わずに人工知能(artificial intelligence)を持ち出すか。
この口実を聞いて「へぇ~なるほど~」と感心する人は…いるんだろうな。

ということで、今後、使わせていただきます。

Q: ワンページ検索βの「つながルート」は、人名の場合しか表示されないようですが…
A: 仕様です。じゃなかった、人工知能の学習不足です。

Q: テレビ・フォアキャストワードで、ごくたまに語の切り出し方がおかしい場合があるようですが…
A: 文字の種類を見て適当に切っているからです。じゃなかった、人工知能の学習不足です。

Q: あと数ヶ月で40歳になるというのに、未だに二日酔いになるまで飲むのはナゼ?
A: バカだからです。

だめだ、使いこなせない。
大学時代、AI研(Artificial Intelligence研究会)というのに所属していたが、宴会ばかりやっていたもんな。

2007年12月24日

Wonderful Christmastime

クリスマスに聴きたい音楽と言えば、
Yoko Onoが絶叫するHappy Xmas (War Is Over)ではなく、PaulのWonderful Christmastime。

先日は代休をとって、友人の勤める大学の保育室のクリスマス会で
White ChristmasとSanta Claus Is Coming To Townを歌った。
といっても主役は妻のバイオリンと娘のダンス。
ちなみに義父はプロのバイオリン製作者。勉強しまっせバイオリンのアライ

なんとか締切までに1月の検索評価チュートリアルの原稿を仕上げて投稿した。
酒井哲也: チュートリアル: 情報検索テストコレクションと評価指標 (pdf, 417KB),
情報処理学会研究報告 2008-FI-89 / 2008-NL-183 (2008)

NHKがサンタクロースの故郷フィンランドに関する番組をやっている。
私もSIGIR 2002でフィンランドのタンペレに行った。
木が多くてムーミントロールがたくさんいそうでいい国だった。
ちなみにトロール(トロル)はトトロの語源ですぞ。
フィンランド人も日本人同様、家の中では靴を脱ぐ。
知り合いのフィンランド人検索研究者にコメントを求めると、"Shoes are dirty!"と叫んだっけ。
親近感。また行きたい。

そういうわけでSIGIR 2008に論文を投稿する決意を固めた。まだ原稿は書き始めたばかり。
締切は1/28だが、本来SIGIRは推敲に一ヶ月くらいかけないと通らない。(かけても通らない…)
こんなに余裕がないのは初めてだ。年末年始頑張るしかない。
明日12/25も代休。論文執筆に励もう。問題は娘の「遊んで」攻撃をかわすことができるかどうか。
サンタさんからもらったプレゼントで一日遊んでいてくれればよいのだが…

Merry Christmas!

2007年12月13日

さらばメルボン

メルボルンはメルボンと発音する。誰だメルボルンなんて言ったのは。


メルボン最後の夜は、Williamとイングリッシュパブに行った。
これはBeez Neezという蜂蜜入りのビール。
beezneez.JPG

シーフードというキーワードに釣られて注文したら、こんなものが。全部揚げ物。
さすがイングリッシュ。半分くらい残した。
melbourne-fries.JPG


帰りはシドニー経由でめんどくさかったが、
見た映画の中で泣けたのは日本未公開のResurrecting the Champ。
小さな子供がいる人なら泣けるはず。
元ボクサーのホームレスを演じるSamuel L. Jacksonもさすがにうまい。

邦画の「犯人に告ぐ」も見た。脇役の悪い刑事たちの役に、もっと深みのある俳優を起用してほしかった。

The Bourne Ultimatum(ボーン・アルティメイタム)も見たが、前2作も見ていないし、
主役のMatt Damonは相変わらずジミー大西に似ているし、あまりピンと来なかった。


さあback to work。12/21締切の論文、まだほとんど書いていない。どうしよう…

2007年12月12日

オーストラリア人との議論2

オーストラリア人はジョーク好き。それも、相手を侮辱するジョークが好きである。
私の考案した検索評価指標Q-measureも、Justin Zobelに言わせれば"the stupid Q thing"である。
本ブログに"Australians are rude!"と書いてやるぞとJuntinに言ったが、彼は実は英国人なのだそうだ。


昨夜食べたピザ。見た目も味もひどかった。
melbourne-pizza.jpg


大学の周辺はこんな感じ。
melbourne-usquare.jpg

melbourne-purpleflowers.jpg


ランチ。海老のリゾットを食べた。なかなか美味。赤いチョッキ(死語?)はAlistair Moffat。
melbourne-lunch.jpg


よく喋るオーストラリア人と渡り合うのは大変だったが、ディスカッションも無事終了。
明日、早朝にホテルを出てシドニー経由で帰国する。金曜日は会社。いやーん。

2007年12月11日

オーストラリア人との議論1

私を招待してくれたThe University of Melbourneとは別に、
MelbourneにはRMIT Universityというのもあって、こちらでも情報検索の研究をやっている。
研究グループとしてはこちらのほうが大きいらしい。(そして就職先はマイクロソフトが多いらしい。)
午前中はこちらのゼミに呼んでもらって参加した。
このゼミでは私の論文を取り上げてくれたことがあるそうだ。恐縮です。

ゼミはこんな感じ。私と同様、部外者のはずのWilliamが何故か熱く語っている。
RMITseminar.jpg

午後はMelbourne大にてWilliam Webber、Alistair Moffat、Justin Zobelとディスカッション。
彼らはRBPという評価指標の提案者で、私はQという評価指標の提案者。
3対1で形勢は不利だが、勉強にはなる。

私のためにこんなオフィスを用意してくれた。英ケンブリッジ留学時代を思い出した。
ホテルではラウンジでしかインターネットができず、かつ有料なので、ここでブログを投稿して帰ろう。
melbourne-office.jpg

2007年12月10日

Keynote無事終了

Keynote(基調講演)と言っても聴衆は40名弱で、ほとんどオーストラリア人だった。楽勝。
情報処理学会の研究会のような雰囲気。違うのは、オーストラリア人が常に冗談を言っているところ。
オーストラリア土産に南半球が上になっている「逆さの世界地図」があると聞いていたので、
私のスライドもこのように一枚目を逆さにしてみた。
「赤道を越えたとたんスライドが全部逆さになっちゃいました」というベタなギャグで、つかみはOK。古い。
なお、つながルートはオーストラリア人にも結構好評だった。

今回のADCSでは、私を招待してくれたWilliam WebberとAlistair MoffatがそれぞれBest Student Paperと
Best Paper Awardを受賞した。さすが。これはWilliamのスライド。美しい。
william-slide.jpg

会場は動物園の中の小さなホールだったので、昼休みに駆け足で動物を見学した。こんな感じ。
melbourne-zoo.jpg

kanga.jpg

kanga2.jpg

koala.jpg

turtle.jpg

講演のお礼にものすごく重い本をもらった。australia-book.jpg
日本に持って帰るのが大変なので、Thank you for the check-in luggage
(空港でチェックインが必要なお荷物をどうも)とお礼を言った。

2007年12月09日

水着のサンタ?

豪州のサンタは、サングラスをかけ水着姿でサーフィンしながらやってくる。
39年間そう信じて生きてきたが、これが嘘だと今日初めて知った。

Melbourneを案内してくれたWilliam Webberによれば、
オーストラリアのサンタの見かけは欧米のサンタと変わらないという。
夏にあの格好は辛いと思うのだが。

証拠写真。たしかにスタンダードなサンタの衣装だ。得意げなWilliam。
melb5.jpg

これもサンタ。この写真だと顔がわからないが、コスチュームはたしかに普通だ。
melb9.jpg

ちゃんとクリスマスツリーも飾られている。写真中央。
melb4.jpg

これは蜂かも知れないが、Melbourneは蠅がやたら多い。
「五月蠅い」という当て字を思い出す。12月なのだが気候は「寒めの春」。
melb6.jpg

虫といえば、Moreton Bay bugというシャコのようなエビのようなものが入ったスパゲティを食べた。
melb7.jpg
味は普通だったが、料理名にbugという単語を入れるとは…
「ごちそうさま」の代わりにI've finished debugging(虫除去/デバッグ完了)と言ってみた。

以下、その他の写真。半日付き合ってくれたWilliamに感謝。
melb1.jpg

melb2.jpg

melb8.jpg

melb11.jpg


2007年12月08日

豪Melbourneに到着

Qantas AirwaysとJALのコードシェア直行便でメルボルンへ。
エコノミークラスのはずが、overbookingのためビジネスクラスに座らせてもらえた。
10時間、至福の時を過ごした。20時間くらい乗っていたかった。

飛行機の中でまずはDie Hard 4.0 (Live Free Or Die Hard)を見た。
Bruce Willis、つるつるですね。 > 技術スタッフNさん

次にThe Invasionを見た。
Nicole Kidmanが相変わらずめちゃめちゃ美人だが、
Daniel Craigは顔が好きじゃないなあ。これは007の顔ではないと思うが…
それにしても、この映画は私が幼少時に衝撃を受けた
Invasion of the Body Snatchers (1978年)のリメイクではないか。
と、思ったら、これ自体1956年版のリメイクだったのか。

そのあとTransformersを見ていたら、寝てしまった。

先方が手配してくれたホテルはIbisなのでぼろいが、部屋は広い。
ibis-melbourne.jpg

これから少し観光に連れて行ってもらいます。

2007年12月07日

いざ豪州へ

そういうわけで明日から豪州メルボルン。
一時間の基調講演の発表資料もなんとか完成した。
Sakai, T.:
How to Evaluate Information Retrieval: Why is it Receiving Attention Now? (Keynote),
12th Australasian Document Computing Symposium (ADCS 2007)
December 10, 2007, Melbourne, Australia
pdf (2.24MB)

15ページ目にはなんと「ワンページ検索」の未公開バージョンが載っていたりする。
「つながルート」も「ツナガリツリー」だったりする。マニア垂涎。
実は、当初「ツナガリツリー」で商標登録しようと思ったのだが、
同分野で「つながり」が既に登録されていたため急遽名称を変更したのである。
一般名詞で商標をとりまくるのはやめて欲しい…

それでは皆様おたっしゃで。

2007年12月06日

本邦初公開:2008年1月NL研・FI研プログラム

情報処理学会NL研の乾先生と一緒に来年1/21-22の合同研究発表会プログラムを作成した。
NTCIR特別セッションでは自ら検索評価のチュートリアルをやることになったが、まだ何も書いていない。
原稿締切は12/21。明日から豪州だしな。間に合うのかな。


情報処理学会 第183回自然言語処理研究会 第89回 情報学基礎研究会 合同研究発表会

会場:NII 12階1208+1210会議室
日程:平成20年1月21日・22日
会場:国立情報学研究所 12階1208+1210会議室
http://www.nii.ac.jp/introduce/access1-j.shtml
交通手段:東京メトロ半蔵門線/都営地下鉄三田線・新宿線「神保町」A8出口
東京メトロ東西線「竹橋」1b出口
徒歩3~5分

テーマ:言語処理・言語情報アクセス技術の評価 および一般

##### 21日

9:30-11:30 【情報アクセス・予測】

1. 感染症発生動向調査:小児感染症の地域における
短・長期流行予測のアルゴリズムの検討
○長谷川 伸作(北海道立衛生研究所),井上 仁(鳥取大学総合メディア
基盤センター),陶山 昭彦(放射線影響研究所)
インフルエンザ・小児科定点把握の小児感染症について,地域における短期
(1-4週間)・長期的(1年間)の流行予測アルゴリズムを検討した.短期は
現況把握の計測に基づき,また長期は時系列解析により流行予測を行った.

2. Using English for Queries: An Approach to Implementing an Intelligent
Web Search Tool
○Vitaly Klyuev (University of Aizu)
The retrieval efficiency of the presently used search tools cannot be
significantly improved: A "bag of words" interpretation causes loosing
semantics of texts. The functional approach to present English texts in
the memory of computers makes it possible to keep semantic relations
between words and use ordinary English sentences as queries. The
prototype of the system utilizing this approach is presented.

3. 特許文書の多観点分類について
○田中一成(富士通研究所)
特許文書を対象に,発明の対象や目的・課題といった観点で自動分
類を行う技術を開発したので報告する.

4. Web検索エンジンを用いたWhy型質問応答システムに関する研究
○田村元秀,村上仁一,徳久雅人,池原悟(鳥取大)
質問応答技術に関して,インターネット上のWeb検索エンジンを利
用することによりWhy型質問に回答するシステムを提案・評価する

11:30-13:00 <昼休み90分(NL研・FI研運営委員会)>

13:00-17:40 【NTCIR特別セッション】

13:00-13:40
5. チュートリアル:情報検索テストコレクションと評価指標
○酒井哲也 (ニューズウォッチ)
情報検索テストコレクションや情報検索評価指標について概説し,
情報検索研究における適切な評価方法について論じる.

13:40-14:30
6. 情報アクセス技術の性能評価のための研究基盤NTCIR:
言語横断検索の創成と展開 
○神門 典子(国立情報学研究所),岸田和明(慶應義塾大学),
栗山和子(白百合女子大学),
KH Chen (National Taiwan University),
HH Chen (National Taiwan University),
Sung Hyon Myaeng (International Communication University),
Sukhoon Lee (National Chungnam University)
情報検索と自然言語処理が融合した情報アクセス技術の研究促進を
めざしてきたNTCIR-1から-6までの活動を,言語横断を中心に概観し,
展望を述べる.

14:40-15:30
7. 特許情報処理を指向したテストコレクションの構築:
情報検索と自然言語処理の融合を目指して
○藤井 敦(筑波大学),○難波 英嗣(広島市立大学),
岩山 真(東京工業大学/日立製作所),
神門 典子(国立情報学研究所),内山 将夫(情報通信研究機構),
山本 幹雄(筑波大学),宇津呂 武仁(筑波大学),
橋本 泰一(東京工業大学)
NTCIRの特許情報テストコレクションについて,検索,分類,機械翻訳,
マイニングの観点から解説し,今後の展望について述べる.

15:30-16:00
8. 観点に着目した特許分類手法の高精度化の提案 
○水本浩司,湯川高志(長岡技大)
NTCIR6の特許分類タスクにおいて提案した,カイ自乗統計量を用
いた分類手法の速度的優位性を保ったままで,精度を向上させる手法を
提案する.本手法は,Fタームの観点を強調するものであり,3%程度の
精度向上を得た.

16:10-17:00
9. NTCIRにおける質問応答技術の評価と今後の展望
○森 辰則 (横浜国立大学),福本 淳一 (立命館大学),
加藤 恒昭 (東京大学),桝井 文人 (三重大学),
佐々木裕 (The University of Manchester),
Hsin-Hsi Chen (National Taiwan University),
Kuang-hua Chen (National Taiwan University),
Chuan-Jie Lin (National Taiwan Ocean University),
三田村 照子 (Carnegie Mellon University),
Eric Nyberg (Carnegie Mellon University),
神門 典子 (国立情報学研究所)
NTCIRにおいて実施された質問応答技術の評価について解説をするとともに,
現在進行中の言語横断情報アクセス技術に関する新しい評価の枠組である
ACLIA(Advanced Cross-lingual Information Access)について述べ,情報
アクセス技術の評価に関する今後を展望する.

17:00-17:40
10. 多言語意見分析タスク:ニュースとブログ
○関 洋平(豊橋技術科学大学),David Kirk Evans(国立情報学研究所),
Hsin-Hsi Chen(国立台湾大学),Lun-Wei Ku(国立台湾大学),
神門 典子(国立情報学研究所)
日英中3ヶ国語の新聞記事を対象として,意見性,極性,ホルダなどの抽出技術
について評価を行い,6カ国12チームからの参加があったNTCIR-6意見分析タスク
の成果概要と,NTCIR-7のプランを報告する.

##### 22日

9:30-11:30 【Web情報アクセス】

11. blog分類のための半教師有り学習
○池田大介,高村大也,奥村学(東京工大)
各blogのスタイルや内容といった情報を利用した,blog分類のため
の半教師あり学習手法を提案する.

12. 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報クラスタリン
グシステムの構築
○馬場康夫,新里圭司.黒橋禎夫(京都大)
検索エンジンTSUBAKIを使って検索されたページを,ページに含ま
れる複合名詞に注目して自動分類するシステムについて述べる.

13. 事態抽出のための事実性解析
○原一夫,乾健太郎(奈良先端大)
言語で書かれた事態の事実性について,時間・極性・ムードの観点
から解析する枠組みを提案し,blogを対象とする実験結果を報告す
る.

14. blogを対象とした薬剤服用情報抽出手法
○高橋美佳,荒木健治(北海道大)
blogを対象として薬剤に関する経験談の抽出を行う情報収集支援シ
ステムを作成し,その評価実験を行った結果について報告する.

11:30-12:45 <昼休み75分>

12:45-15:15 【語彙・意味】

15. 用語クラスタリングに基づく部分研究領域推定と用語分類
○小山照夫(国立情報学研究所),竹内孔一(岡山大)
論文抄録コーパスに出現する用語性の高い形態素を,サ変名詞との
共起に基づきクラスタリングを行うことにより部分研究領域を推定
するとともに,用語侯補を部分領域に分類する試みに付いて発表す
る.

16. Web情報を利用した確率モデルによる略語推定
○村山紀文,奥村学(東京工大)
与えられた語に対する略語推定を行う,Noisy-Channel modelと
Webからの情報を組み合わせた統計モデルを提案する.

17. 枝分かれ同時確率モデルを用いた「AのB」の意味分類
○森山健太,但馬康宏(東京農工大),藤本浩司(テンソル・コン
サルティング),小谷善行(東京農工大)
2単語の概念共起確率を,各概念の上位概念を用いて近似すること
により,文中の「AのB」の意味を分類した.

18. 単語の概念関係を用いた段落一貫性評価指標の有効性
○板倉由知,白井治彦,黒岩丈介,小高知宏,小倉久和(福井大)
EDR概念辞書を用い単語間の意味類似性から,段落の一貫性を評価
するための指標を提案し,その有効性を示す.

19. 辞書に依存しない文章間類似度の比較評価手法
○村上智哉,中谷直司,厚井裕司(岩手大),後沢忍(三菱電機)
文章中における特定の文字列に着目することで,改変前と改変後の
文章間に類似点を見出す手法の提案

15:30-17:30 【翻訳・応用】

20. 結合価パターンを用いた日中機械翻訳システムの構築
○楊鵬,池原悟,村上仁一,徳久雅人(鳥取大)
日中機械翻訳の一つの方法として,結合価パターンを使用し,機械
翻訳システムを試作する.

21. 学習型機械翻訳手法における省略可能性を用いた翻訳ルールの自動
獲得とその有効性
○寺島涼(北大),越前谷博(北海学園大),荒木健治(北大)
翻訳例から翻訳ルールを自動獲得する学習型機械翻訳手法におい
て,翻訳例中の省略可能な部分に着目することで効率よく汎用的な
翻訳ルールを獲得する手法を提案する.

22. 科学技術白書の計量的分析による科学技術政策の可視化
○石塚隆男(亜細亜大)
過去20年間の科学技術白書の目次情報と新聞の科学技術関係記事
を用い,情報量の変化により政策の変化を追跡する.

23. Web文書を活用したn-gramモデルによる手書き自由記述アンケート
の自動認識法
○泉谷達庸,松本章代,鈴木雅人(東京工業高専)
Web文書を活用し,コーパスを動的に再構築することで,手書き自
由記述アンケートの誤認識訂正を行う.

2007年12月05日

論文誌Information Retrievalの表紙

…あまりにもメイニアックなタイトルだなあ。

論文誌Information Retrievalが自宅に送られてくるようになった。
Editorial Board(編集委員会)のメンバは無料で購読できるのだ!
日頃、吐きそうになりながら論文査読をしている人間にとっては非常に有難いご褒美である。
一応、表紙にも名前を載せてもらっているし。
irfrontpage.jpg

もちろん、通常の論文査読にご褒美などない。ただひたすら世のため人のため。
科学技術の発展のため。涙隠して論文を斬る。

2007年12月01日

学会関係の仕事でアップアップ

ベンチャー企業の社員にしては、ものすごく学会関係の仕事をしていると自分では思う。

11/30(金)はNTCIR-7 Cluster Coordinator Meetingに参加、途中退席。

1/21-22日のNL+FI研(NTCIR特別セッション含む)のプログラム案をNL研側幹事の乾先生と調整中。
応募はFI研が8件、NL研が15研だったが、
NTCIR特別セッションへの申込はオーガナイザ分の5件を除くと1件だけ。寂しい限りである。
昨年の情処全国大会でNTCIRに関するパネル「オーガナイザ・参加者間の壁を壊す」を企画した際も、
聴衆が少なく寂しい思いをした。
日本では、CFP(Call for Papers / Participation)を流しっぱなしにするのではなく、
「是非ご参加ください」と個別に依頼するなど、より低姿勢なアプローチが必要なのだろう。
「根回し」が嫌いな私には、こういうイベント企画は向いていないようだ。

ACM TALIP Special Issue on NTCIR-6の査読者選定が難航している。
既に候補として挙がっている各論文につき3名ずつ、
TALIP編集長と各ゲストエディタで思い思いに査読者候補を挙げているのだが、
同じような有名どころの名前ばかり挙がってくるのだ。
査読期間が短いので、一人に複数の論文の査読をお願いするのは避けなければならない。

12/3(月)は「情処学会第70回全国大会プログラム編成WG」にFI研幹事として出席する。10時から15時まで
「作業内容:各ご専門分野を中心とした大会講演申込のセッション割と座長候補の選定」
というのを延々とやるらしい。
なお今回の発表申込件数は、通常1,100件のところ1,536件と過去最高。
15時に終わるのかな…

学会関係TODO immediately:
国際論文誌Information Retrievalの第二回査読
・情処論文誌(ジャーナル)の査読者割当
・情処論文誌(TOD)でも何かやるべきことがあったはずだが、何だっけ

にも書いたが、年が明けたらAIRSの論文集をLNCS (Lecture Notes in Computer Science)
という本の体裁に纏め上げなければならない。

任期は二年なのに何故か三年目を担当している電子情報通信学会誌編集委員会に至っては、
最近は幽霊会員のようになってしまっている。

来年度はもう少し負荷を減らそう。A new year's resolution (新年の抱負)。

カレンダー

« 2007年12月 »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ