情報検索入門シリーズ。
検索のための文書のスコア付け手法として最も基本的なtf-idfの、
idf(inverse document frequency)の部分の考案者がKaren Sparck Jonesであることについては
以前述べた。ではtf(term frequency)の考案者は?
答えはベクトル空間モデルの発明者Gerard Salton、ではなくて、H.P. Luhnだろう。
ちょうど半世紀前に書かれた文献[1]にこんな文が出てくる。
There is also the probability that the more frequently a
notion and combination of notions occur, the more importance
the author attaches to them as reflecting the
essence of his overall idea.
要するに、文書中で頻度の高い概念(および概念の組み合わせ)ほど
著者の述べたい中心的な事柄であり、重要度が高いだろうということ。
ただし、この論文におけるtfの利用目的は文書のスコア付けではなく、
後の検索のために文書のインデクスタームを(人手ではなく)自動で付与すること。
またLuhnは翌年、情報検索ではなくテキスト要約(正確には、重要文抽出=sentence extraction, sentence selection)に関する論文[2]でこう書いている。
It is here proposed that the frequency
of word occurrence in an article furnishes a
useful measurement of word significance.
とどのつまり、tfは(重要文抽出の前段階としての)重要語抽出の尺度として有用だろうということ。
さらに、文献[3]では、単純な頻度のカウントではなく、
文書に出現した全ての語の頻度による正規化にも言及し、
文書スコア計算方法も具体的に示している。
If frequency of occurrence is an indication of the significance of certain words
used by an author, the machine can readily rank such words by frequency or
can weigh each word by its relative frequency with respect to all the words of a given text.
この論文で実際に示されている文書X,Y間の類似度s(X,Y)
(検索要求Xに対する文書Yのスコアと考えて差し支えない)は以下の通りである。
s(X,Y)=∑i min(Fi, Gi)
ここで、
∑は文書XとYに共通な語に関する和、
Fi, Giは第i共通語のそれぞれ文書X,Y内の相対頻度(前述の「正規化された頻度」)である。
それでもって、LuhnのtfとSparck Jonesのidfを掛け合わせてtf-idfにしたのがGerard Saltonである。
…と書いてしまうと、まるで故Saltonが掛け算しかやっていなかったみたいで申し訳ないので、
またの機会にベクトル空間モデルについて触れたい。
[1] Luhn, H.P.:
A Statistical Approach to Mechanized Encoding and
Searching of Literary Information,
IBM Journal of Research and Development (1957)
[2] Luhn, H.P.:
The Automatic creation of Literature Abstracts,
IBM Journal of Research and Development (1958)
[3] Luhn, H.P.:
The Automatic Derivation of Information Retrieval Encodements from Machine-Readable Texts,
Information Retrieval and Machine Translation, Vol.3, Pt 2, pp.1021-1028,
Interscience Publication (1961)