« 2007年10月 | メイン | 2007年12月 »

2007年11月30日

ACL 2008:HLT call for papers

プラハのACL 2007は良かったが、ACL 2008は
"June 15-20 near Ohio State University in Columbus, Ohio"?
魅力ないなあ。どこか他の国際会議に遊びに行こうかな。
以下、検索研究者用CFP (Call for Papers)。

I would like to call the IR research community's attention to the "ACL
2008: HLT" conference. This year ACL is making a concerted effort to
attract excellent Information Retrieval research papers. I am serving
as PC co-chair for IR, and am helped by Noriko Kando, David Carmel, and
Elizabeth Liddy, who are serving as "area chairs" for IR. We are
putting together a group of reviewers who have solid experience in IR,
both to ensure that good IR research is recognized and to prevent poor
IR research from slipping through.

Please consider submitting your IR research to ACL:HLT this year. The
ACL connection means that there will be some bias toward papers that
touch on language technologies such as NLP, speech recognition, machine
translation, discourse, and so on. However, "general" IR papers are
entirely within scope, and areas with IR roots or connections are also
encouraged: text mining, filtering, recommendation systems, question
answering, classification, clustering, sentiment analysis, etc.

The submission deadline for ACL:HLT is January 10, 2008. ACL will be
held June 15-20 near Ohio State University in Columbus, Ohio. (The
discount airline Skybus flies there from a large number of places around
the US, and guarantees 10 seats for $10 each on every flight. Of
course, they're probably already taken, but it's nice to contemplate.)

If you're considering SIGIR instead or in addition, its submission
deadline is January 28th [abstract due a week earlier]. SIGIR will be
held July 20-24 in Singapore. SIGIR's acceptance rate has been running
slightly below 20% lately.

The complete call for papers as well as other useful information is
available at http://acl2008.org.

2007年11月27日

ブログウォッチャーのためいき/ムーンウォッチャーのひらめき

今朝の日経新聞の一面「著作権攻防 新ルールを探して 上」
というコラムにブログウォッチャーが出ている。
東工大の奥村先生の会社なので私も「ウォッチ」しているのだが、羨ましいなあ。

ニューズウォッチという社名を考えたとき、
実はニューズウォッチャーという候補もあがっていたが、
当時の米国パートナー企業と相談の上、没にした。
もちろん今では、ニュースだけでなく、ブログやウェブやテレビなどもウォッチしているわけだが。

ブログウォッチャーとかニューズウォッチャーとか聞くと、
いつも連想するのはムーンウォッチャー(Moonwatcher)。ご存知だろうか。
2001年宇宙の旅の冒頭でモノリスから啓示を受けるあの「ひらめき猿」のことである。
類人猿なのだが一応「月を見てる人」という名前がついているわけだ。

それにしても、前述の日経新聞のコラムの書き出しはこうである:

「ブログを丸ごとコピーできれば早いのに……」。 口コミ情報活用を目指す、個人ブログ(日記風簡易型ホームページ)専門の 検索事業者、ブログウォッチャー(東京・中央)の羽野仁彦社長は嘆息する。
もうちょっと明るい話題の中で紹介してくれればいいのに…


明るい話題。東京ディズニーランドはもうすっかりクリスマス気分である。今日の写真。
TDLchristmastree.JPG

It's A Small Worldもサンタの帽子をかぶっていた。
TDLsmallworld.JPG

もちろん、ニューズウォッチとともに歩んできたToy StoryのWoodyたちにも挨拶してきた。
TDLwoody.JPG

仕事や研究や私を悩ませる諸問題から完璧に逃避して過ごした一日だった。
ん?明るい話題?


と、軽いボケで締めくくろうと思ったのだが、前述の日経新聞のコラムがどうしても気に入らない。

…文化庁も重い腰をあげ、十月の審議会の中間報告で「検索事業者の法的地位の安定性を確保する」とうたった。

 だが、一九九○年代半ばに登場した国内事業者は既に淘汰されてしまった。…


おーい。フレッシュアイはまだ生きてるぞー。

2007年11月21日

ワンページ検索βプレスリリースに対する世の中の反応

昨日(11/20)、ワンページ検索βを手直しして再リリースし、
同時にプレスリリース配信も行った。関係者の皆様お疲れ様でした。

以下、現時点での世の中の反応。

CNET Japan
http://japan.cnet.com/marketing/story/0,3800080523,20361454,00.htm

ITmedia News
http://www.itmedia.co.jp/news/articles/0711/20/news089.html

Internet Watch
http://internet.watch.impress.co.jp/cda/news/2007/11/20/17586.html

BroadBand Watch
http://bb.watch.impress.co.jp/cda/news/20145.html

Yahoo! JAPAN ニュース
http://headlines.yahoo.co.jp/hl?a=20071120-00000057-imp-sci

Webマーケティングガイド
http://www.e-research.biz/statistics/stasem/002586.html

電脳あざらしの泳ぎ
http://www.sea-dog.jp/blog/archives/2007/11/20/2356.php

チミンモラスイ?
http://mapz.exblog.jp/6890137/

Te2MODE.COM
http://www.te2mode.com/news/net/071121125756.html

hot.dyndns.tv SNS_generate for MIXI by new-age
http://hot.dyndns.tv/snsgen/item_364.html

El Baloncesto Digital Blog
http://el-baloncesto.sub.jp/blog/archives/2007/11/post_119.php


個別にお返事はできないかも知れませんが、引き続き忌憚のないご意見をお待ちしております。

2007年11月20日

マーライオンが待っている。SIGIR 2008 CFP

絶対行くぞ。でも今回は論文書く暇ないかな…

CALL FOR PAPERS
31st Annual International ACM SIGIR Conference
20-24 July 2008, Singapore

SIGIR is the major international forum for the presentation of new
research results and for the demonstration of new systems and
techniques in the broad field of information retrieval (IR). The
Conference and Program Chairs invite all those working in areas
related to IR to submit original papers, posters, and proposals for
tutorials, workshops, and demonstrations of systems. SIGIR 2008
welcomes contributions related to any aspect of IR, including:

FOUNDATIONS
o IR theory (Including: Formal models)
o IR architectures (Including: Centralized, Distributed, Federated,
Peer-to-peer)
o Content representation and Indexing for IR
(Including: Index compression)
o Ranked retrieval (Including: Content-based, Collaborative,
Relevance feedback, Result fusion, Combination of evidence)
o Interactive IR (Including: Interaction design, Interface design,
Visualization)
o IR evaluation (Including: Test collections, User studies,
Evaluation metrics, Experiment design, Analysis techniques)

TECHNIQUES
o Machine learning for IR (Including: Clustering, Classification,
Learning to rank, Topic detection)
o IR scalability and efficiency
o Adversarial IR (Including: Email spam filtering, Index spam,
Splog detection)
o User modeling for IR
o Information extraction for IR
o Citation analysis for IR
o Non-topical analysis for IR (Including: Genre detection,
Authorship attribution, Attitude detection)
o Preserving privacy in IR (Including: Annonymization, Index encryption)

CONTENT
o Text retrieval (Including: Cross-language retrieval,
Structured documents (e.g., XML))
o Language-specific IR (including Cross-language IR, Multilingual IR)
o Metadata-based IR (Including: Social tagging)
o Audio IR (Including: Music IR, Speech IR)
o Image IR
o Video IR

APPLICATIONS
o Web IR (Including: Link analysis, Query log analysis, Ad targeting)
o Question answering
o Enterprise search (Including: Intranet search)
o Filtering (including: Routing, Content-based filtering,
Adaptive filtering, Topic tracking, Collaborative filtering)
o Summarization
o Text mining (Including: Speech mining, Bibliometrics)
o Digital libraries
o Domain-specific IR (Examples: Genomic IR, Legal IR,
IR for software engineering, IR for chemical structures)
o Mobile IR applications

------------

Important Dates:
Sunday, 18 Nov 2007 Mentoring program deadline
Monday, 21 Jan 2008 Abstracts due for full research papers
Monday, 28 Jan 2008 Full research papers due
Sunday, 24 Feb 2008 Poster/demo/tutorial/workshop submissions due
Sunday, 2 Mar 2008 Doctoral consortium submissions due
Sunday, 6 Apr 2008 Notification for papers, posters, demos,
tutorials and workshops
20 - 24 Jul 2008 Conference in Singapore

Information on how to submit will be available at
http://www.sigir2008.org/ by mid-December, 2007.

------------

General Co-Chairs:
Tat-Seng Chua (National University of Singapore)
Mun-Kew Leong (Institute for Infocomm Research, Singapore)

Technical Program Co-Chairs:
Sung Hyon Myaeng (Information and Communications University, Korea)
Douglas W. Oard (University of Maryland, USA)
Fabrizio Sebastiani (National Research Council, Italy)

For other details, please see the conference web site.

2007年11月19日

親ばかギャラリー

月曜日から精神的に疲れているので今回も娘に代打をお願いする。

hand-in-hand.JPG

kitty-creampanda.JPG

もはや言葉は要らない。

2007年11月14日

野郎が書いた百科事典

このタイトルが何を指しているかおわかりだろうか。
そう、Wikipediaのことである。

Communications of the ACM 最新号(Volume 50, No. 11) pp.60-64に
What Motivates Wikipedians?というOded Nov氏による記事が載っている。
「ウィキペディアを書く人の動機は何?」ということ。

英語Wikipediaの熱心な執筆者(正確には個人ページを作った人)2,847人から370人を無作為抽出し、
アンケート調査への協力を依頼したところ151人の有効回答を得た。
うち140人(92.7%)が男だったというのだ。
ようするにWikipediaの熱心な執筆者には圧倒的に男性が多い。

女性執筆者のサンプルが11人と極端に少ないことを考慮しなければならないが、
男性執筆者と女性執筆者の違いとして以下の傾向があるという:
・女性のほうがWikipedia歴が浅い(男性2.34年に対し女性1.77年)
・女性のほうが執筆時間が長い(男性8.02時間/週に対し女性11.46時間/週)
ちなみにWikipedia歴と執筆時間の相関はなし。
つまり不慣れだから執筆時間が長いということではないという。

著者はこの結果をもとに、女性執筆者が今後増えれば
全体としての平均執筆時間も増えると言っている。

しかしみんなよく書くよなあ。
私自身はWikipedianではないしそうなる予定もない。
ご覧の通り自分でたいした文章を書けるわけでもないのだが、それでも自分の文章を見知らぬ人、
それも文才も知識レベルも未知数な人にいじられるのには抵抗がある。
逆に人の文章に手を入れるなどというしんどい作業もしたくない。
自分の信頼する人と連名で論文を書くのとは別次元の話である。

で、前述の記事のよれば、Wikipediaを書く人の最大の動機は
結局「楽しいから」ということのようだ。
おもしろい分析結果とは言えないが、
フレッシュアイもこういう奇特な方々のおかげで大変助かっています。

2007年11月11日

豪州基調講演まであとひと月

12/10の豪メルボルン動物園における基調講演まであとひと月。無事ビザも取れた。

国際会議ADCS (Australasian Document Computing Symposium) 2007の当日プログラムがこれ。
http://goanna.cs.rmit.edu.au/~aht/adcs2007/program.html
そう、この会議は私の講演で幕を開ける。大丈夫か。大丈夫なわけがない。

上記ページ中の私の演題
"How to Evaluate Information Retrieval: Why is it Receiving Attention Now?"
(情報検索の評価方法が何故今注目を集めているのか)
をクリックすると講演概要と自己紹介が出てくる。
http://goanna.cs.rmit.edu.au/~aht/adcs2007/ts.html

(1) フレッシュアイのテレビ・フォアキャストワンページ検索/つながルートの話
(2) 情報検索評価の基礎研究の話
(3) NTCIRとEVIAの宣伝
の三本立てにするつもり。まる一時間分の発表資料を作らなければならない。

メルボルンでの共同研究に先立ち、いくつか実験もやっておかなければならない。

それでいて、1/21のNL研・FI研NTCIR特別セッション
情報検索評価のチュートリアルを担当することになったので、
この原稿を12/21までに書き上げなければならない。

執筆関係では、言語処理学事典の「情報検索」という中項目のうち
「インデクシング」「ブール検索」「ランキング検索」「言語横断情報検索」「検索有効性の評価」
という小項目も担当しているのだが、この締切は3月に延びたので助かった。

この他に、年明けには編集の仕事が少なくとも2つ待っている。
ACM TALIPのNTCIR-6特集号と、
AIRS 2008のproceedingsのLecture Notes in Computer Science向け編集作業。
特に後者は本一冊分の編集だから大変そうだ。

「ああ12月の講演どうしよう」と家でつぶやいたら、娘に
「すべりだいのあるやつがいい」と言われた。これ本当。

2007年11月10日

強い日本(右翼じゃないのよ)

櫻井よし子の「日本よ、勁き国となれ」を読んだ。
中国人や韓国人の研究者友達が多い私としては、「はじめに」の
「中国の勢力拡大は巧みに進行する。特に日本に対する手法は狡猾かつ陰湿である。」
というくだりでいきなりのけぞってしまったのだが、非常に勉強にはなった。
櫻井よし子は海外経験が豊富なようで、中国人の友人もいないわけではないようだが、
こういうバックグラウンドの人がこういう考えをもつのだな。
まあたしかに個人レベルと国家レベルでは話は別である。

小林よしのりくらい極端になると、中国人は人を切り刻んで食べる人種だという偏見と、
「日本人が悪いことをするわけがない」という思い込みが思想の根底にあるようだ。
たくさん資料を調べ、危険を恐れず、漫画という媒体で優れたプレゼンテイションを行っている点は
すごいと思うが。

少なくとも、何も勉強しないで「よく知りませんがとりあえずすみませんでした」と謝ったり、
相手の理不尽な主張に反論もせずへらへら笑っているだけの人間にはなりたくない。
日本が過去にたくさん悪いことをしたのは本当だと信じているが、
具体的にどこまでが本当なのかは正直言ってよくわからない。
「他の国なんてもっと悪いことしたでしょ」などという幼稚な論理を展開するつもりもない。

当たり前だが、報道にせよ、書籍にせよ、教師の発言にせよ、Wikipediaにせよ、
コンピュータによる分析結果にせよ、
自分が得た情報を取捨選択し、俯瞰し、真実を見極めるのは個人の責任である。
どこかで読んだことや聞いたことをそのまま鵜呑みにしてはいけない。
例えば歴史教科書問題に関して言えば、
趣の異なる2つの教科書を読み比べるような授業だったら自分も受けてみたい。


全日本女子バレーがフルセットの末ポーランドを下した。これぞ日本の誇り。

2007年11月09日

NTCIR-7におけるスプログ問題について

本日のNTCIR-7説明会においてブログを対象としているCLIRB/MOATに関してコメントしたが、
各方面から誤解があるようなのでここに私の考えをまとめておく。

スプログ(splog)=ブログにおけるスパムのこと。
CLIRB (Cross-Lingual Information Retrieval for Blog Task)=ブログ記事を検索対象とした言語横断検索タスク。
MOAT (Multilingual Opinion Analysis Task)=多言語意見分析タスク。今年はCLIRBで得られた適合文書を対象としている。

私が指摘したのは、CLIRBで通常のプーリングによる適合性判定を行うと、
スプログの影響により適合文書セットの網羅性に影響が出る可能性があるということ。
スプログは通常の不適合文書とは異なり、意図的にたくさんの話題にマッチするように生成されているので、
たくさんの検索課題についてプールの上位を占めてしまう可能性があるためである。
つまり、スプログが邪魔をして適合文書がプールに入ってこない可能性がある!

そこで私が一案として述べたのは文書セットから予めスプログを除くことだが、
これはスプログ検出(splog detection)が情報検索の守備範囲外であるという意味ではない。
従来のテストコレクションと同等に網羅性の高い適合文書セットを作成し、
同時に、スプログ検出の問題をブログ検索タスクのサブタスクとして分離するというのが主旨である。
質問応答を扱うACLIAにおいてモジュール毎の評価をやろうとしていることに近い。

さて、実際、どうすべきだろうか?

(案1)オーガナイザが事前に、文書コレクション中の全文書にスプログか否かのフラグをつける。
(つまり最初にスプログ検出の問題を解くのはオーガナイザ。全部を人手でやるのは量的に無理。)
そして、スプログ込みデータセットとスプログ除去データセットの両方を配布し、
検索結果も両方について提出してもらう。
プーリングおよび適合性判定には、両方の検索結果を利用する。
(注:プールに、スプログの影響を受けない優等生的検索結果を大量に投入することを意味する。)
結果的に両方の検索結果の有効性がほぼ一致するチームは、スプログ対策がほぼできているチームと言える。

(案2)オーガナイザは事前には何もせずに、参加者から提出された検索結果から通常通りプールを作成し、
適合性判定に先立ち、このプールに対して人手でスプログか否かのフラグをつける。
そして、スプログの比率が一定値以上となった場合、
当該検索課題のpool depth(注)を大きくしてpoolを作り直す。
このほうがスプログ判定の件数も参加者の負担も少ないが、
厳密には上記繰り返し処理が停止する保証がない。
(例えば、提出された検索結果のほとんどがスプログだったら!?)

(注)昨日の発表資料のp.4参照

繰り返すが、私はスプログ検出が情報検索の範疇外であるなどとは言っていない。
むしろ、スプログを扱わないCLIRBだと、あまりおもしろくないなあと思っている。

2007年11月08日

FI研発表終了。テポドン

FI研/ディジタル図書館ワークショップで発表してきた。つくばエクスプレスに乗ってきた。
極めて普通の電車だが、PASMOも使えるし、たしかに格段に便利になった。
それだけに、FI研/ディジタル図書館ワークショップの参加者も昔よりは増えたようだ。

旅行気分でランチの写真。昔のつくばにはこんな洒落たものはなかったぞ。(失礼)
omelette.JPG
オムライスが来るまでひたすら自分の論文を推敲し、
帰りのつくばエクスプレスの中ではPCまで取り出して仕上げた。
今日発表した内容の国際論文誌バージョンである。

テポドン。
taepodong.JPG
などと書くと、巷の画像検索エンジンはこの画像をテポドンの検索結果として出すようになるに違いない。
ファイル名もtaepodongとしておいたし。さて実験結果はいかに。

明日はNTCIR-7説明会

2007年11月04日

親ばか宇宙

フィギュアスケート浅田・中野ワンツーフィニッシュおめでとうございます。
全日本女子バレーは本当に惜しかった。

本日、娘(○○ちゃん)がテーブルからものを落とした際の会話。

娘:「落としたのは○○ちゃんじゃないよ」
(普段、コップから水をこぼすと「水さんが勝手に降りていった。水さんひどい!」というような子なので)
私:「○○ちゃんじゃないよね。悪いのは重力だよね。地球が引っ張ったんだよね。」
娘:「チキュウ?」
私:「我々の住んでいるこの星。おおき~い星なんだよ。」
娘:「ぎ・ざ・ぎ・ざって感じ?」

娘が想像したのはこういう星らしい。
hugestar.JPG

私:「星ってね、本当は丸いんだよ。お月様も丸いでしょ。」

ちなみに娘には、三日月も本当は丸いのだとだいぶん前から吹き込んである。
こういう絵を見せると「月は丸いのだからこんなところに寝転べない」と言うかもしれない。
crescent.JPG

教育方針が間違っているだろうか。

2007年11月02日

ACM TALIPでNTCIR-6の特集号やります

娘の幼稚園入園が無事決定。入園手続きを済ませ、
家に戻って国際論文誌ACM TALIP (Transactions on Asian Language Information Processing)
Special Issue on NTCIR-6のinvitation lettersを送付。

本Special Issueのゲストエディタは
神門典子先生(NII)三田村照子先生(CMU)、そして酒井哲也(NewsWatch, Inc.)。
Invitationの対象は、ゲストエディタおよびNTCIR-6のタスクオーガナイザから推薦のあった研究機関。
急に持ち上がった話なので大変だった。来年6月発行予定。

TALIPのゲストエディタをやるのは二度目。
一度目はあの松本裕治先生と2005年にやらせていただいた
Special Issue on Recent Advances in Information Processing and Access for Japanese
日本おける言語処理・情報アクセス研究を海外に発信するための企画だったのだが、
このころのTALIPはまだ投稿・査読システムが導入されておらず、
論文や査読結果の添付メイルが交錯して大変だった。

なお、ACMの方針により、TALIPの対象とする論文はなんらかの形でアジア言語を扱うものに限定された。
以前はこんなに厳密ではなかったのだが。

全日本女子バレーも、まずは好スタート!

2007年11月01日

きっかけは叶姉妹

1並びの吉日。検索メイニアックの記念すべき100件目のエントリと同時に、
ついにあのワンページ検索βがリリースされた。長かった。
http://labs.fresheye.com/OnePage/
と言っても半年くらいでできたよな。
やっぱりベンチャー企業は身軽だ。
(それだけに吹けば飛んでしまうが)

ワンページ検索で個人的に思い入れがあるのがつながルート
ウィキペディア中の参照関係を視覚化したもの。
ユーザにクエリ入力なしでばんばん道草検索をやってもらうために考案した。
(考案しただけで、あとは扇子を振って同僚を応援していただけなのだが)

きっかけは、叶姉妹の報道。
実の妹に宝石を盗まれたとかなんだとかいう話があったが、
これを聞いて今年3月に書いた絵がこれ。つながルートの起源である。
kano.JPG

関係者の皆様、大変お疲れ様でした。引き続きよろしくお願いいたします。

カレンダー

« 2007年11月 »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ