« 2007年06月17日 | メイン | 2007年06月22日 »

2007年06月19日

怖い検索クエリ、怖いBig Brother

職業柄、Web検索エンジンのクエリログ(入力された検索キーワードの履歴)の分析をやってみたいと思っている。
昨日偶然見つけたのが、米ユタ州の政府系Webポータルのクエリログを調べた下記の文献。怖い。

Chau, M., Fang, X. and Sheng, O. R. L.: What Are People Searching on Government Web Sites? Communications of the ACM, Volume 50, Number 4, April 2007, pp.87-92.

クエリログから、以下のような物騒なクエリが見つかったというのだ。
radioactive waste storage (放射性廃棄物貯蔵庫)
nuclear waste transportation route map (核廃棄物輸送ルート地図)
他にも、
nuclear AND map
pipeline AND map
などというブール式もある。怖い。
もちろんwater systemやanthraxなど、よりグレイな(善良な市民が入力したかも知れない)クエリならもっとたくさんある。

日本の検索エンジンのログも常にモニターすれば、オウムのようなテロを防げるだろうか。

などと言いはじめると、Big Brotherの世界(George Orwellの小説Ninety Eighty-Four (1984年)の中の、市民の行動が徹底的に監視されている世界。)へ踏み出すことになりかねないが。

え、もう踏み出しているって?
そう、検索エンジンの裏側にはBig Brotherがいる。

例えば、会社で極秘のプロジェクトを始めるにあたり、市場動向調査をする場合。
極秘プロジェクトなので、社内で作成する文書類は厳重に管理している。
ところがその一方で、市場動向調査には某大手検索エンジンを使いまくる。(だって便利なんだもん。)
このため、検索エンジンの裏側にいるBig Brotherは、入力された一連のクエリおよびクリックされたページを観測し、
「はは~ん、ここは最近こんなビジネスを考えているんだな」と推測できてしまうかも知れないのである。
Big Brotherを意識せずに検索エンジンを利用するのは、非常にまずい。

私自身はどうしているかというと、もちろんデフォルトでは自社のフレッシュアイを利用。
使い込みなくして改革なし。
海外の文献を探す場合や、Big Brotherに情報を与えても差し支えないと判断した場合のみ、
悔し涙を流しながら某大手検索エンジン(名前は忘れたが、確かアルファベットのGから始まる)を利用している。

カレンダー

« 2007年06月 »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

プロフィール


「ニューズウォッチ」「フレッシュアイ」の名付け親。情報検索の研究者。工学博士。
2000年~2001年、英ケンブリッジ大学客員研究員。TOEICスコア985点。
2007年1月(株)東芝を退職。2月より(株)ニューズウォッチ自然言語処理研究室室長。
個人ホームページ
フレッシュアイ 社長ブログ