« 2007年12月 | メイン | 2008年02月 »

2008年01月31日

エレベータ・トーク

Elevator talkという英語のフレーズをご存知だろうか。
エレベータにたった30秒間乗り合わせた人に対しても有効なくらいに、
相手の気持ちを惹きつけるような極めて簡潔かつわかりやすいプレゼンテーションをすること。
俳句の国に住む日本人には、コツさえつかめば得意なタスクなのではないだろうか。

最近はエレベータ自体も喋ったりする。
私がよく行く国立情報学研究所のエレベータに夕方乗ったら、
「お仕事、ご苦労様でした」と言われたことがある。
「おまえは俺の上司か!」とその場でつっこみを入れたが、どこのメーカだっけ。

英国ではエレベータのことをliftというが、
幼少時ロンドンの地下鉄のliftでひどい目にあったことがある。
Liftを降りたところが改札なので、liftのドアが開いた瞬間に
財布から定期券(passではなくseason ticketという詩的な名前がついていたっけ…)
を取り出したのだが、手元が狂って手裏剣のよう放り投げてしまった。
そして、私の定期券は、エレベータとフロアとの間のわずかな隙間に、吸い込まれるように、
ゆっくりと、落ちていったのだった…
英国に移り住んで間もない頃だったので、
何故定期も切符ももっていないのかを駅員に英語で説明するのに死ぬほど苦労したっけ。

さて、ニューズウォッチのオフィスがある銀座東芝ビルのエレベータもちょっと変。
こんなへんな英語が書いてある。レストラン・ショッピング街の宣伝らしいが、
2008_0124_041.jpg
"It eats."
そいつは喰らう? どいつが? なんか怖いぞ。

2008_0124_042.jpg
"It enjoys it."
誰か、頼むから最初のitと最後のitが何を指しているのか教えて欲しい。
エレベータに乗るたびに頭痛がする。

以上エレベータ・トーク。

2008年01月30日

横浜でルー大柴とトゥゲザー

何もかも放り出して横浜へ。
主目的は横浜アンパンマンこどもミュージアム。
初期のアンパンマンはこんな感じ。
originalanpanman.JPG

横浜たそがれホテルの小部屋。
yokohamadaughter.JPG

yokohamanight.JPG

中華街で、ルー大柴が肉まんをもってなんかの撮影してました。マイクの下にいる白い襟の人。
lou.JPG

さあ、現実逃避はこのへんでやめよう。仕事仕事。

2008年01月26日

カレイなる発見

本日(1/26)の日経新聞朝刊より。

「魚にも感謝します」15年前の手紙 差出人に戻る

千葉県犬吠埼の沖合から水揚げされたサメガレイの表面にくっついた状態で見つかった
十五年近く前の手紙が二十五日、銚子漁港を訪れた「差出人」の早稲田大二年の
白髭奈津実さん(21)=川崎市宮前区=の元に戻った。
手紙は白髭さんが川崎市立宮崎小一年のときに学校行事で風船につけて飛ばした。
発見者の底引き網船「第八大徳丸」の船主、君野喜好さん(51)から手紙を受け取り
「見つけてくれた人にもカレイにも感謝します」と笑みを浮かべた。(以下略)


君野さん?白髭さん?こういう情景?
kimino.JPG
実際の白髭さんはかわいらしい女性だが、
どうしてもわが師Stephen Robertsonのような人を想像してしまう。
15年もたてばふつう歳もとるし。

ちなみに上記カレイはふつうに出荷されてしまったそうな。
特赦にしてあげてよ…

2008年01月24日

検索・ラット・ダイエット

本日は文献引用を二つほど。

Gregory Conti: Could Googling Take Down A President?
Communications of the ACM, Volume 51, Number 1 (2008)
からの引用:

... if we are to be members of the Internet-enabled society,
we have no other option but to rely on the powerful tools we have at our disposal
(such as those provided by major search engines).
Like rats forced to endure electric shocks to aquire food,
we must use these tools to acquire information and communicate.

おおまかな意味は「インターネット社会で暮らすなら、
(信頼性や安全性の保証がないと知っていても)
検索エンジンなどが提供する強力なツール群を使わざるを得ない。
電気ショックに耐えてでも食べ物を得ようとするネズミのように。 」
検索エンジンを使うことの怖さについてはここでも触れた。


大庭史榔:「朝2分」ダイエット、三笠書房 (2007)
「はじめに」からの引用:

1 女性なら、1カ月に4キロ、男性なら8キロは簡単に落ちます
2 ちゃんと食べながら下腹、太もも、お尻スッキリ、バストはアップ
3 リバウンドしない体になる
4 免疫力アップ、代謝アップ、便秘解消、肌がつるつるになる
5 頭がよくなる、心が軽くなる

本当だろうな。1カ月後の体重グラフに注目!

2008年01月22日

AIRS 2009は10月札幌でやりまっせ

「明日の研究会ではひどい目にあいませんように」と昨日書いたが、
今日は昨日の数倍ひどい目にあった。頭髪が二千本くらい抜けたに違いない。
まあでもNTCIR特別セッションを企画したおかげで参加者が100名を超えたのは良かった。

AIRS 2009は10月札幌で決定。
ホスト役の北海道大吉岡先生と私がConference Co-Chairを務めることになった。
さあ大変だ。しかし日本語でホストと書くと変な感じだな。

今日はもう書けません。アルコール摂取して爆睡します。

2008年01月21日

NTCIR特別セッションと新フレッシュアイラボ

いやー検索評価チュートリアルは楽勝だったが研究会幹事としては疲弊した。ひどい目にあった。
どんな目にあったかはちょっとブログに書けないので、気になる方は個人的に聞いてください。

NTCIRについて説明するNII神門先生。
kando173.JPG
NTCIR-7の参加登録チーム数はなんと過去最高の173!
中国本土からの参加が多いという。
問題はゴールまで辿り着ける(ちゃんと結果を提出する)のが何チームか。
年末にはこの数が青い棒グラフとして表示されるはず。


さて、会社に行かずに学会活動をやっている間に、新フレッシュアイラボの所長に就任してしまった。
テレビ・フォアキャストも少しテレビらしくなった。

それから、狙い通り、このエントリフレッシュアイオピニオンの環境ページに載った!

penguin-opinion.JPG
でも環境のことなんて書いていないのでかえって迷惑?


明日の研究会ではひどい目にあいませんように…

2008年01月20日

誤訳に関する考察: One Less Bell To Answer

Burt BacharachとHal Davidの名作One Less Bell To Answer。
邦題は「悲しみは鐘の音とともに」となっている。ちょっとWeb検索してみたところ
誤訳がごろごろ出てきたので、この歌詞の正しい意味について解説する。

One less bell to answer
One less egg to fry
One less man to pick up after -
I should be happy, but all I do is cry…

まず「悲しみは鐘の音とともに」の「鐘」ってなんだ。
たしか村上春樹は昔、bellを鐘と訳すのは誤りで、
正しくは電話のベルである、というようなことを何かに書いていたが、これも間違い。

正解はドアベルである。
家の玄関のドアの外から「ジジジジ」とか「キンコーン」とか鳴らしているのである。
日本でいう「ピンポーン」である。
Answer the bellはanswer the doorとほぼ同義。
電話であればanswer the phoneとかanswer the call であろう。
例えこの違いを知らなくても、もう少し歌詞を読み進めれば

Each time the doorbell rings I still run
とちゃんと書いてあるのだが。この文の意味についても後ほど解説する。

手元にBacharachのOne Amazing NightというCDがある。
この歌詞カードについている日本語訳を見てみると、やはりおかしい。

返事の鐘の音がひとつ少ない
焼く卵の数がひとつ少ない
恋の相手がひとり少ない
幸せなはずなのに、ただ泣くだけのわたし

訳として正しいのは二行目と四行目のみ。
一行目「返事の鐘の音がひとつ少ない」ってどういう意味?
One less bell to answerの本当の意味は、
「応えなければいけないドアベルがひとつ少ない」
言わば
「訪ねてくる人が一人減って楽になったわ」ということ。
One less egg to fryは
「目玉焼きも二つ作らずに済むわ」ということ。
さて、上記の訳で誤魔化されているOne less man to pick up afterはお分かりだろうか。
「迎えに行かなきゃならない人が一人減っていいわ」
は残念ながら不正解。正解は、
「散らかす人がいなくなって、後片付けの手間が省けていいわ」。
Pick up after someone = 誰々の後片付けをする
である。

要するに、最初の三行で、
愛する人が出て行ってしまったことを
一生懸命ポジティブに見ようとしているわけである。
それで四行目で、
「せいせいしたはずよ。だのに何故泣いてばかりなの私?」
となるわけである。

それから、先程のEach time the doorbell rings I still run
の意味も一応解説しておくと、
「今でも、ドアベルが鳴るたびに
(あなたが戻ってきたのかと思って)玄関までいそいそと走っていくの」
ということ。くれぐれもrunを「逃げる」などと訳さぬように。

最後に、Webで見つけた誤訳をいくつか載せておこう。

恋人に去られたけれど電話のベルが鳴るのが減っただけさ
ベルが鳴った(着信があった)のに、わたしは答えなかった。それが最後のベル。
答えに1つ少ないベル
ひとつ目はbellの解釈以外は正しい。残りは見事な迷訳だなあ…

2008年01月19日

ペングインの話

とある事情により、会社の同僚に「環境問題についてブログに書いて欲しい」と言われた。
実は前回も書こうと思ったのだが、何故かタイツの話になってしまった。今日こそは。
昨日(1/18)の日経新聞朝刊より:

ペンギンも眼科検診 オゾン層破壊、南極で影響調査

…生物・紫外線研究チームは、南極上空のオゾン層破壊で地上に届く、
有害紫外線によるアデリーペンギンへの影響を調べている。
 …
 ペンギンにストレスを与えぬよう、主に目視と撮影で観察した。
白内障の疑いがあるペンギンがいた場合は捕獲して検査する予定だったが、
異常は認められなかった。…

これで思い出したのが何故か、あのTwin PeaksのAgent Cooper (Kyle MacLachlan)が
その昔放ったジョーク。

Two penguins were walking across an iceberg.
One penguin turned to the second penguin and said,
"You look like you're wearing a tuxedo."
And the second penguin said, "Maybe I am."

ペンギンが二羽、氷山の上を歩いていました。
一羽が振り返ってもう一羽に曰く、
「おぬし、まるでタキシードを着てるみたいじゃの。」
もう一羽の言うことにゃ、「着てるんだなこれが。」

なにがおもろいねん。

そういえば昨年11月に発売されたTwin Peaks: Fire Walk With Meの廉価版DVDを買った。
この間Mulholland Dr.を久々に鑑賞したら改めておもしろいと思ったので。

AIRSに参加されている北海道大学の吉岡先生によれば、
ハルビンの現在の気温はマイナス28度くらいだそうだ。
私ならタイツを穿いても即死だろう。
南極もまっぴらごめんだ。ペンギンには会いたいが。

どうしても環境問題の話にならないなあ。

2008年01月17日

熊川哲也と地球温暖化

久々にバカネタを書くぞ。

1995年12月。ニューズウォッチ立ち上げのために摂氏マイナス9度のボストンに赴任した際、
母さんが、木枯らし吹いちゃ冷たかろうて、タイツを買ってくれた。

それ以来、私は日本の冬もタイツで過ごすようになった。
もちろん、上からズボンを穿くのでnobody knows but me。
だーれもしらない しられちゃいけーないー

断っておくが、父さんが愛用していたあの駱駝色の「股引」ではなく、
紺色のタイトでセクシーなタイツである。
熊川哲也を想像していただければよろしい。華麗にジャンプもこなす。

ところが、この冬はまだ一度もタイツを穿いていない。

地球温暖化
のせいかと思ったが、よく考えてみると、
転職して勤務地が川崎から銀座に変わったことが大きいようだ。
東芝の研究開発センターは駅から遠く、雪の中バスが来るのを長時間待った記憶もあるが、
今は地下鉄の銀座駅から地上に出ずに東芝ビルに行けるので、タイツも不用なのである。
新しいオフィスになったら復活するかもしれないが。

さて、今年の抱負を実行に移し、熊川哲也ボディになるために、
一年間の体重と体脂肪率の推移を視覚化することにした。
今日は結果が良かったのでグラフを載せちゃおうっと。
fat080117.JPG


2008年01月16日

検索評価チュートリアルのスライド、NL+FI研プログラムまたもや変更

1/21 NL+FI研@NIIの「チュートリアル:情報検索テストコレクションと評価指標」のスライドが完成。
pdf (940KB)
当日の時間割が再度変更になり、私の発表は10時スタートとなった。

正月休みに書いたSIGIR論文の投稿も完了。
月末の締切まで論文ファイルのアップロードは何度でもやりなおせるが、
そんな余裕はなさそうだ。

そういうわけで1/21-22 NL+FI研の最終プログラムは以下の通り。

プログラム:
-------------------------------------------------------------------
1月21日(月) 10:00-17:30
10:00-10:40 チュートリアル〔1件〕
10:40-11:40 特許分類・質問応答〔2件〕
13:00-17:30 NTCIR特別セッション〔5件〕

1月22日(火) 9:30-17:30
9:30-11:30 Web情報アクセス〔4件〕
12:45-15:15 語彙・意味〔5件〕
15:30-17:30 翻訳・応用 〔4件〕
-------------------------------------------------------------------

■1月21日(月)10:00~17:30

10:00-10:40 【チュートリアル】

1. チュートリアル:情報検索テストコレクションと評価指標
○酒井哲也 (ニューズウォッチ)
情報検索テストコレクションや情報検索評価指標について概説し,
情報検索研究における適切な評価方法について論じる.
原稿 pdf (417KB)


10:40-11:40 【特許分類・質問応答】

2. 特許文書の多観点分類について
○田中一成(富士通研究所)
特許文書を対象に,発明の対象や目的・課題といった観点で自動分
類を行う技術を開発したので報告する.

3. Web検索エンジンを用いたWhy型質問応答システムに関する研究
○田村元秀,村上仁一,徳久雅人,池原悟(鳥取大)
質問応答技術に関して,インターネット上のWeb検索エンジンを利
用することによりWhy型質問に回答するシステムを提案・評価する

11:40-13:00 <昼休み80分(NL研・FI研運営委員会)>

13:00-17:30 【NTCIR特別セッション】

13:00-14:20
4. 情報アクセス技術の性能評価のための研究基盤NTCIR:
言語横断検索の創成と展開 
○神門 典子(国立情報学研究所),岸田和明(慶應義塾大学),
栗山和子(白百合女子大学),
KH Chen (National Taiwan University),
HH Chen (National Taiwan University),
Sung Hyon Myaeng (International Communication University),
Sukhoon Lee (National Chungnam University)
情報検索と自然言語処理が融合した情報アクセス技術の研究促進を
めざしてきたNTCIR-1から-6までの活動を,言語横断を中心に概観し,
展望を述べる.

14:20-15:10
5. 特許情報処理を指向したテストコレクションの構築:
情報検索と自然言語処理の融合を目指して
○藤井 敦(筑波大学),○難波 英嗣(広島市立大学),
岩山 真(東京工業大学/日立製作所),
神門 典子(国立情報学研究所),内山 将夫(情報通信研究機構),
山本 幹雄(筑波大学),宇津呂 武仁(筑波大学),
橋本 泰一(東京工業大学)
NTCIRの特許情報テストコレクションについて,検索,分類,機械
翻訳,マイニングの観点から解説し,今後の展望について述べる.

15:20-15:50
6. 観点に着目した特許分類手法の高精度化の提案 
○水本浩司,湯川高志(長岡技大)
NTCIR6の特許分類タスクにおいて提案した,カイ自乗統計量を用
いた分類手法の速度的優位性を保ったままで,精度を向上させる手法を
提案する.本手法は,Fタームの観点を強調するものであり,3%程度の
精度向上を得た.

15:50-16:40
7. NTCIRにおける質問応答技術の評価と今後の展望
○森 辰則 (横浜国立大学),福本 淳一 (立命館大学),
加藤 恒昭 (東京大学),桝井 文人(三重大学),
佐々木裕 (The University of Manchester),
Hsin-Hsi Chen (National Taiwan University),
Kuang-hua Chen (National Taiwan University),
Chuan-Jie Lin (National Taiwan Ocean University),
三田村 照子 (Carnegie Mellon University),
Eric Nyberg (Carnegie Mellon University),
神門 典子 (国立情報学研究所)
NTCIRにおいて実施された質問応答技術の評価について解説をする
とともに,現在進行中の言語横断情報アクセス技術に関する新しい
評価の枠組であるACLIA(Advanced Cross-lingual Information
Access)について述べ,情報アクセス技術の評価に関する今後を展
望する.

16:40-17:30
8. 多言語意見分析タスク:ニュースとブログ
○関 洋平(豊橋技術科学大学),David Kirk
Evans(国立情報学研究所),
Hsin-Hsi Chen(国立台湾大学),Lun-Wei Ku(国立台湾大学),
神門 典子(国立情報学研究所)
日英中3ヶ国語の新聞記事を対象として,意見性,極性,ホ
ルダなどの抽出技術について評価を行い,6カ国12チームから
の参加があったNTCIR-6意見分析タスクの成果概要と,NTCIR-7の
プランを報告する.


■1月22日(火)9:30~17:30

9:30-11:30 【Web情報アクセス】

9. blog分類のための半教師有り学習
○池田大介,高村大也,奥村学(東京工大)
各blogのスタイルや内容といった情報を利用した,blog
分類のための半教師あり学習手法を提案する.

10. 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報ク
ラスタリングシステムの構築
○馬場康夫,新里圭司.黒橋禎夫(京都大)
検索エンジンTSUBAKIを使って検索されたページを,ページに含ま
れる複合名詞に注目して自動分類するシステムについて述べる.

11. 事態抽出のための事実性解析
○原一夫,乾健太郎(奈良先端大)
言語で書かれた事態の事実性について,時間・極性・ムードの観点
から解析する枠組みを提案し,blogを対象とする実験結果を報告す
る.

12. blogを対象とした薬剤服用情報抽出手法
○高橋美佳,荒木健治(北海道大)
blogを対象として薬剤に関する経験談の抽出を行う情報収集支援シ
ステムを作成し,その評価実験を行った結果について報告する.

11:30-12:45 <昼休み75分>

12:45-15:15 【語彙・意味】

13. 用語クラスタリングに基づく部分研究領域推定と用語分類
○小山照夫(国立情報学研究所),竹内孔一(岡山大)
論文抄録コーパスに出現する用語性の高い形態素を,サ変名詞との
共起に基づきクラスタリングを行うことにより部分研究領域を推定
するとともに,用語侯補を部分領域に分類する試みに付いて発表す
る.

14. Web情報を利用した確率モデルによる略語推定
○村山紀文,奥村学(東京工大)
与えられた語に対する略語推定を行う,Noisy-Channel modelと
Webからの情報を組み合わせた統計モデルを提案する.

15. 枝分かれ同時確率モデルを用いた「AのB」の意味分類
○森山健太,但馬康宏(東京農工大),藤本浩司(テンソル・コン
サルティング),小谷善行(東京農工大)
2単語の概念共起確率を,各概念の上位概念を用いて近似すること
により,文中の「AのB」の意味を分類した.

16. 単語の概念関係を用いた段落一貫性評価指標の有効性
○板倉由知,白井治彦,黒岩丈介,小高知宏,小倉久和(福井大)
EDR概念辞書を用い単語間の意味類似性から,段落の一貫性を評価
するための指標を提案し,その有効性を示す.

17. 辞書に依存しない文章間類似度の比較評価手法
○村上智哉,中谷直司,厚井裕司(岩手大),後沢忍(三菱電機)
文章中における特定の文字列に着目することで,改変前と改変後の
文章間に類似点を見出す手法の提案

15:30-17:30 【翻訳・応用】

18. 結合価パターンを用いた日中機械翻訳システムの構築
○楊鵬,池原悟,村上仁一,徳久雅人(鳥取大)
日中機械翻訳の一つの方法として,結合価パターンを使用し,機械
翻訳システムを試作する.

19. 学習型機械翻訳手法における省略可能性を用いた翻訳ルールの自動
獲得とその有効性
○寺島涼(北大),越前谷博(北海学園大),荒木健治(北大)
翻訳例から翻訳ルールを自動獲得する学習型機械翻訳手法におい
て,翻訳例中の省略可能な部分に着目することで効率よく汎用的な
翻訳ルールを獲得する手法を提案する.

20. 科学技術白書の計量的分析による科学技術政策の可視化
○石塚隆男(亜細亜大)
過去20年間の科学技術白書の目次情報と新聞の科学技術関係記事
を用い,情報量の変化により政策の変化を追跡する.

21. Web文書を活用したn-gramモデルによる手書き自由記述
アンケート
の自動認識法
○泉谷達庸,松本章代,鈴木雅人(東京工業高専)
Web文書を活用し,コーパスを動的に再構築することで,手書き自
由記述アンケートの誤認識訂正を行う.

以上

2008年01月15日

大仁田厚の検索ワークショップ

今年12月16~19日にはNTCIR-7が開催されるが、
12月12~14日には多言語国家インドで新しい言語横断検索ワークショップが開催される。
その名もファイヤー!超激辛。
日程をNTCIRの直前にもってきたのは、欧米人に両方参加してもらいたいからである。

私はFIREの国際アドバイザリ委員会のメンバなので、
NTCIRの直前にインドに行って様子を見てくるつもり。
ちゃんと仕事しないとFIREされてしまうもんな。ひねりがないな。

FIRE
(Forum for Information Retrieval Evaluation)
Workshop
Kolkata, India
12-14th December 2008

http://www.isical.ac.in/~fire

The success of TREC, CLEF, and NTCIR has clearly established
the importance of building reusable, large-scale standard
test collections in Information Access research. The aim of
FIRE is to encourage research in Indian language Information
Access by creating a similar platform for Indian languages
that provides the data and a common forum for comparing
models and techniques.

The Tasks:
==========
1) Ad-hoc monolingual document retrieval in six Indian
languages viz. Hindi, Bangla, Marathi, Tamil, Telugu, Punjabi.

2) Ad-hoc cross-lingual document retrieval
a) from Hindi, Bangla, Marathi, Tamil, Telugu, Punjabi to
English and Hindi.
b) from English to any of the six Indian languages
(Hindi, Bangla, Marathi, Tamil, Telugu, Punjabi).

The Time Line:
==============
Training data released May 31 2008
Test data released July 1 2008
Ad-Hoc monolingual run submission September 15 2008
Ad-hoc cross-lingual run submission September 15 2008
Relevance judgements released December 1 2008
Workshop December 12-14 2008

Task Co-ordinators: (mono- and cross-lingual)
===================
Hindi: Pushpak Bhattacharyya (pb@cse.iitb.ac.in)
Bangla: Mandar Mitra (mandar@isical.ac.in)
Marathi: Om Damani (damani@cse.iitb.ac.in)
Tamil: L. Sobha (sobha@au-kbc.org)
Telugu: Vasudev Verma (vv@iiit.ac.in)
Punjabi: Karunesh Arora (karunesharora@cdacnoida.in)

Overall co-ordinators:
Mandar Mitra, Prasenjit Majumder
Indian Statistical Institute, Kolkata
{mandar,prasenjit_t}
at isical.ac.in

International Advisory Committee for FIRE:
Ricardo Baeza-Yates, Yahoo! Research Labs, Spain
Hsin-Hsi Chen, National Taiwan University, Taipei, Taiwan
Tat-Seng Chua, National University of Singapore, Singapore
Christian Fluhr, CEA, France
Norbert Fuhr, University of Duisburg, Germany
Donna Harman, National Institute of Standards and Technology, USA
Noriko Kando, National Institute of Informatics, Tokyo, Japan
Krishna Kummamuru, IBM Research Lab, India
Mun Kew Leong, Institute for Infocomm Research, Singapore
Paul McNamee, Johns Hopkins University, USA
Sung Hyon Myaeng, Information and Communications University, South Korea
Hwee Tou Ng, National University of Singapore, Singapore
Doug Oard, University of Maryland, USA
Iadh Ounis, University of Glasgow, UK
Lim Ee Peng, Nanyang Technological University, Singapore
Carol Peters, ISTI-CNR, Italy
Stephen Robertson, Microsoft Research, Cambridge, UK
Tetsuya Sakai, NewsWatch Inc., Japan
Mark Sanderson, University Of Sheffield, UK
Jacques Savoy, University of Neuchatel, Switzerland
Fabrizio Sebastiani, ISTI-CNR, Italy
Amit Singhal, Google Fellow, USA
Ian Soboroff, National Institute of Standards and Technology, USA
Ellen Voorhees, National Institute of Standards and Technology, USA

2008年01月14日

AIRSあれこれ

最近、余裕がなくてメイニアックなことしか書けない。

明日から、アジア主体の情報検索に関する国際会議AIRS 2008が中国ハルビンにて開催される。

これは本来2007年12月に開催されるはずだったAIRS 2007に相当するもの
このため、2008年中にもう一度AIRSを日本で開催する可能性が浮上している。
名前はどうするのか。AIRS 2008 Episode IIか。AIRS 2008 Reloadedか。
まあ素直に2009年にやればすっきりするのだが。

九州で開催される可能性はほぼなくなった。
代わりに北海道でやる案が急浮上。第2案は東京。

さて、AIRS 2008 (Episode Iのほう)の論文をLNCS (Lecture Notes in Computer Science)
という本の体裁に仕上げる編集作業
にとりかかった。
全部で約700ページある。おええ。今日90ページくらいまで進めた。
大文字小文字の間違いや簡単な綴り間違いなどを直す地道な作業。
アジアの研究者の論文が殆どなので英語がおかしいものもいっぱいあるが、
いちいち直してはいられない。タダではそんなことはやらない。時間がない。
簡単に直せるものだけ直している。

中国人の論文にPRCと書いてあるから
People's Republic of China (中華人民共和国)のことかと思ったら
Precision-Recall Curve (精度-再現率曲線)のことだった。

なんでも今回の投稿数は144件で、regular paper採択数39本(27%)、
short paper採択数45本(31%)。前回のAIRS 2006の投稿数は148件で、
regular paper採択数34本(23%)、poster採択数24本(16%)だから、
だいぶん門戸が広げられた感がある。水準は下げたくないのだが。

次回はあまり寒くない時に札幌でやりたいな。

酒井哲也:
The Atmosphere of AIRS: 情報検索の新しい国際会議の紹介 (pdf, 392KB),
情報処理 Vol.46 No.2 (2005)

2008年01月10日

1/21-22 NL+FI研プログラム改訂版

幹事を担当している1/21-22のNL研・FI研@NIIの発表キャンセルが2件もあったため、
プログラムを急遽変更した。
自分のチュートリアルは朝一に。スライド作らないと…

プログラム:
-------------------------------------------------------------------
1月21日(月) 9:30-17:30
9:30-10:30 チュートリアル〔1件〕
10:30-11:30 特許分類・質問応答〔2件〕
13:00-17:30 NTCIR特別セッション〔5件〕

1月22日(火) 9:30-17:30
9:30-11:30 Web情報アクセス〔4件〕
12:45-15:15 語彙・意味〔5件〕
15:30-17:30 翻訳・応用 〔4件〕
-------------------------------------------------------------------

■1月21日(月)9:30~17:30


9:30-10:30 【チュートリアル】
1. チュートリアル:情報検索テストコレクションと評価指標
○酒井哲也 (ニューズウォッチ)
情報検索テストコレクションや情報検索評価指標について概説し,
情報検索研究における適切な評価方法について論じる.
原稿 pdf (417KB)

10:30-11:30 【特許分類・質問応答】

2. 特許文書の多観点分類について
○田中一成(富士通研究所)
特許文書を対象に,発明の対象や目的・課題といった観点で自動分
類を行う技術を開発したので報告する.

3. Web検索エンジンを用いたWhy型質問応答システムに関する研究
○田村元秀,村上仁一,徳久雅人,池原悟(鳥取大)
質問応答技術に関して,インターネット上のWeb検索エンジンを利
用することによりWhy型質問に回答するシステムを提案・評価する

11:30-13:00 <昼休み90分(NL研・FI研運営委員会)>

13:00-17:30 【NTCIR特別セッション】

13:00-14:20
4. 情報アクセス技術の性能評価のための研究基盤NTCIR:
言語横断検索の創成と展開 
○神門 典子(国立情報学研究所),岸田和明(慶應義塾大学),
栗山和子(白百合女子大学),
KH Chen (National Taiwan University),
HH Chen (National Taiwan University),
Sung Hyon Myaeng (International Communication University),
Sukhoon Lee (National Chungnam University)
情報検索と自然言語処理が融合した情報アクセス技術の研究促進を
めざしてきたNTCIR-1から-6までの活動を,言語横断を中心に概観し,
展望を述べる.

14:20-15:10
5. 特許情報処理を指向したテストコレクションの構築:
情報検索と自然言語処理の融合を目指して
○藤井 敦(筑波大学),○難波 英嗣(広島市立大学),
岩山 真(東京工業大学/日立製作所),
神門 典子(国立情報学研究所),内山 将夫(情報通信研究機構),
山本 幹雄(筑波大学),宇津呂 武仁(筑波大学),
橋本 泰一(東京工業大学)
NTCIRの特許情報テストコレクションについて,検索,分類,機械
翻訳,マイニングの観点から解説し,今後の展望について述べる.

15:20-15:50
6. 観点に着目した特許分類手法の高精度化の提案 
○水本浩司,湯川高志(長岡技大)
NTCIR6の特許分類タスクにおいて提案した,カイ自乗統計量を用
いた分類手法の速度的優位性を保ったままで,精度を向上させる手法を
提案する.本手法は,Fタームの観点を強調するものであり,3%程度の
精度向上を得た.

15:50-16:40
7. NTCIRにおける質問応答技術の評価と今後の展望
○森 辰則 (横浜国立大学),福本 淳一 (立命館大学),
加藤 恒昭 (東京大学),桝井 文人(三重大学),
佐々木裕 (The University of Manchester),
Hsin-Hsi Chen (National Taiwan University),
Kuang-hua Chen (National Taiwan University),
Chuan-Jie Lin (National Taiwan Ocean University),
三田村 照子 (Carnegie Mellon University),
Eric Nyberg (Carnegie Mellon University),
神門 典子 (国立情報学研究所)
NTCIRにおいて実施された質問応答技術の評価について解説をする
とともに,現在進行中の言語横断情報アクセス技術に関する新しい
評価の枠組であるACLIA(Advanced Cross-lingual Information
Access)について述べ,情報アクセス技術の評価に関する今後を展
望する.

16:40-17:30
8. 多言語意見分析タスク:ニュースとブログ
○関 洋平(豊橋技術科学大学),David Kirk
Evans(国立情報学研究所),
Hsin-Hsi Chen(国立台湾大学),Lun-Wei Ku(国立台湾大学),
神門 典子(国立情報学研究所)
日英中3ヶ国語の新聞記事を対象として,意見性,極性,ホ
ルダなどの抽出技術について評価を行い,6カ国12チームから
の参加があったNTCIR-6意見分析タスクの成果概要と,NTCIR-7の
プランを報告する.


■1月22日(火)9:30~17:30

9:30-11:30 【Web情報アクセス】

9. blog分類のための半教師有り学習
○池田大介,高村大也,奥村学(東京工大)
各blogのスタイルや内容といった情報を利用した,blog
分類のための半教師あり学習手法を提案する.

10. 検索エンジン基盤TSUBAKIを用いた大規模ウェブ情報ク
ラスタリングシステムの構築
○馬場康夫,新里圭司.黒橋禎夫(京都大)
検索エンジンTSUBAKIを使って検索されたページを,ページに含ま
れる複合名詞に注目して自動分類するシステムについて述べる.

11. 事態抽出のための事実性解析
○原一夫,乾健太郎(奈良先端大)
言語で書かれた事態の事実性について,時間・極性・ムードの観点
から解析する枠組みを提案し,blogを対象とする実験結果を報告す
る.

12. blogを対象とした薬剤服用情報抽出手法
○高橋美佳,荒木健治(北海道大)
blogを対象として薬剤に関する経験談の抽出を行う情報収集支援シ
ステムを作成し,その評価実験を行った結果について報告する.

11:30-12:45 <昼休み75分>

12:45-15:15 【語彙・意味】

13. 用語クラスタリングに基づく部分研究領域推定と用語分類
○小山照夫(国立情報学研究所),竹内孔一(岡山大)
論文抄録コーパスに出現する用語性の高い形態素を,サ変名詞との
共起に基づきクラスタリングを行うことにより部分研究領域を推定
するとともに,用語侯補を部分領域に分類する試みに付いて発表す
る.

14. Web情報を利用した確率モデルによる略語推定
○村山紀文,奥村学(東京工大)
与えられた語に対する略語推定を行う,Noisy-Channel modelと
Webからの情報を組み合わせた統計モデルを提案する.

15. 枝分かれ同時確率モデルを用いた「AのB」の意味分類
○森山健太,但馬康宏(東京農工大),藤本浩司(テンソル・コン
サルティング),小谷善行(東京農工大)
2単語の概念共起確率を,各概念の上位概念を用いて近似すること
により,文中の「AのB」の意味を分類した.

16. 単語の概念関係を用いた段落一貫性評価指標の有効性
○板倉由知,白井治彦,黒岩丈介,小高知宏,小倉久和(福井大)
EDR概念辞書を用い単語間の意味類似性から,段落の一貫性を評価
するための指標を提案し,その有効性を示す.

17. 辞書に依存しない文章間類似度の比較評価手法
○村上智哉,中谷直司,厚井裕司(岩手大),後沢忍(三菱電機)
文章中における特定の文字列に着目することで,改変前と改変後の
文章間に類似点を見出す手法の提案

15:30-17:30 【翻訳・応用】

18. 結合価パターンを用いた日中機械翻訳システムの構築
○楊鵬,池原悟,村上仁一,徳久雅人(鳥取大)
日中機械翻訳の一つの方法として,結合価パターンを使用し,機械
翻訳システムを試作する.

19. 学習型機械翻訳手法における省略可能性を用いた翻訳ルールの自動
獲得とその有効性
○寺島涼(北大),越前谷博(北海学園大),荒木健治(北大)
翻訳例から翻訳ルールを自動獲得する学習型機械翻訳手法におい
て,翻訳例中の省略可能な部分に着目することで効率よく汎用的な
翻訳ルールを獲得する手法を提案する.

20. 科学技術白書の計量的分析による科学技術政策の可視化
○石塚隆男(亜細亜大)
過去20年間の科学技術白書の目次情報と新聞の科学技術関係記事
を用い,情報量の変化により政策の変化を追跡する.

21. Web文書を活用したn-gramモデルによる手書き自由記述
アンケート
の自動認識法
○泉谷達庸,松本章代,鈴木雅人(東京工業高専)
Web文書を活用し,コーパスを動的に再構築することで,手書き自
由記述アンケートの誤認識訂正を行う.

以上

2008年01月06日

あけまして2008

大晦日も元日もSIGIRの論文を書いていた。
娘にぱぱはしごとのせかいにすんでいると言われた。
おかげでなんとか論文1本(8ページ)+ポスター1本(2ページ)の第一稿ができた。
あとは1/28の論文締切までひたすら推敲である。

AIRS 2008の論文集の編集作業に着手。
今回のAIRSは参加登録者数が少ないそうだ。ハルビンは寒いもんな。
日本からの発表は論文1本とポスター1本のみ。相変わらず寂しい。
なおAIRS 2009を九州でやろうという案が出ている。

ACM TALIP NTCIR-6特集号は査読者選定が大変だった。
実はオーストラリアでもやっていた。
1/18に上がってくる査読結果を見て、
1/25に第一回採否通知を出さなければいけないのでまた忙しくなる。

言語処理学会編「言語処理学事典」の正式な原稿執筆依頼が来た。
3.2 情報検索
3.2.1 インデクシング
3.2.2 ブール検索
3.2.3 ランキング検索
3.2.4 言語横断検索
3.2.7 検索評価方法
について書かなければならないが手がついていない。3月末脱稿。

明後日1/8にはNTCIR-7のACLIAの会議がある。
途中で抜けて情処論文誌編集委員会に参加予定。

1/21-22の情処学会NL+FI研@NIIの運営の準備をしなければならない。
そういえば検索評価チュートリアルの発表資料も作らなければならない。

NTCIR-7の初日に開催予定のEVIA 2008は、
Mark Sandersonと相談して下記のように締切を一ヶ月遅らせることにした。
> September 1, 2008 Submissions due
> October 10, 2008 Notification of acceptance
> November 1, 2008 Final manuscripts due
> December 16, 2008 EVIA 2008

ときにこのエントリ、まるでスプログのようだな。
(スプログじゃん!なんて言わないで…)

ということで今年の抱負は結局3つ。
(a) 体重を5kg減らす。(とりあえず新しい体重計を購入した。)
(b) 学会の仕事を減らす。
(c) 毎月サウンドルームに入って声を出す。

(a)(b)はchallengingだなあ。今年もよろしくお願いいたします。

カレンダー

« 2008年01月 »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ