傳統(tǒng)向量空間模型的缺點:
1、它基于關(guān)鍵字的文檔處理方法,依據(jù)的是詞頻信息,兩個文檔的相似度取決于共同詞匯的數(shù)量,無法分辨自然語言的語義模糊性。
2、它假設(shè)詞與詞之間是相互獨立的,一個關(guān)鍵字唯一代表一個概念或語義單元,而實際情況是文檔存在很多的一詞多義和同義詞現(xiàn)象,因此這種假設(shè)很難滿足實際情況。
3、文檔中詞與詞往往存在一定的關(guān)聯(lián)性,信息檢索的本質(zhì)就是語義的檢索,孤立的用關(guān)鍵字來表示文檔內(nèi)容,通過簡單的詞匯模式匹配進(jìn)行檢索,忽視上下文語境的影響作用,會影響到信息檢索的結(jié)果的查準(zhǔn)率和查全率。