无毛美女视频,黄色美女视频尤物视频,蕾丝内衣美女视频

向量空間模型(VSM)在文檔相似度計算上的簡單介紹

pengx >《數(shù)據(jù)挖掘》

2013.03.31

關(guān)注

C#實現(xiàn)在：

http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx

向量空間模型（VSM：Vector space model）是最常用的相似度計算模型，在自然語言處理中有著廣泛的應(yīng)用，這里簡單介紹一下其在進行文檔間相似度計算時的原理。

假設(shè)共有十個詞：w₁，w₂，......，w₁₀，而共有三篇文章，d₁，d₂和d₃。統(tǒng)計所得的詞頻表（杜撰的，為了便于演示用法）如下：

	w₁	w₂	w₃	w₄	w₅	w₆	w₇	w₈	w₉	w₁₀
d₁	1	2		5		7		9
d₂		3		4		6	8
d₃	10		11		12			13	14	15

常用的向量空間公式見下圖：

假設(shè)計算d₁和d₂的相似度，那么a_i和b_i分別表示d₁和d₂中各個詞的詞頻，我們以Cosine為例：

（得數(shù)請讀者自己計算，各個數(shù)代表什么從上表中可以輕易看出）

為什么叫向量空間模型呢？其實我們可以把每個詞給看成一個維度，而詞的頻率看成其值（有向），即向量，這樣每篇文章的詞及其頻率就構(gòu)成了一個i維空間圖，兩個文檔的相似度就是兩個空間圖的接近度。假設(shè)文章只有兩維的話，那么空間圖就可以畫在一個平面直角坐標(biāo)系當(dāng)中，讀者可以假想兩篇只有兩個詞的文章畫圖進行理解。

我們看到，上面公式的計算量是很大的，尤其當(dāng)文檔中詞數(shù)量巨大時。那么怎么樣來提高運算的效率呢？我們可以采取降維的方法。其實只要理解了向量空間模型原理，就不難理解降維的概念。所謂降維，就是降低維度。具體到文檔相似度計算，就是減少詞語的數(shù)量。常見的可用于降維的詞以功能詞和停用詞為主（如："的"，"這"等），事實上，采取降維的策略在很多情況下不僅可以提高效率，還可以提高精度。這也不難理解，比如下面兩句話（可能舉地不是特別恰當(dāng)，見諒）：

這是我的飯。
那是你的飯。

如果把"這"、"那"、"你"、"我"、"是"、"的"都當(dāng)功能詞處理掉，那么相似度就是100%。如果都不去掉，相似度可能只有60%。而這兩句話的主題顯示是一樣的。

倒排詞頻平滑（Inverse Document Frequency）方法，就是用整個語料中所有詞語的詞頻來調(diào)整某篇語料中詞語的權(quán)重，可以理解為把某篇內(nèi)詞語的頻率與全局詞頻相乘后再代入公式（因為相似度是個相對值，所以只要保證它的值落在0和1之間即可）。

這是一個簡單的向量空間模型，實際應(yīng)用中使用的見《改進向量空間模型》。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

基于LDA模型的文本聚類研究

文本分類概述

詞權(quán)重計算及應(yīng)用

計算2篇文本的文本相似度（python實現(xiàn)）

從符號到嵌入：計算社會科學(xué)的兩種文本表示

探索主題模型可解釋性問題

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看