国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
文本關鍵詞提取算法

http://www.cnblogs.com/onlytiancai/archive/2008/05/11/1192780.html

1.TF-IDF

昨天給大家演示簡單的文本聚類,但要給每個聚類再提取一兩個關鍵詞用于表示該聚類。我們還是用TFIDF算法來做,因為這是比較簡單的提取特征算法,不過這里的TF是指某詞在本聚類內所有文章的詞頻,而不是本文章內出現(xiàn)的次數(shù),IDF還是在所有文章里出現(xiàn)的倒文檔頻率。
原理:1、先給本聚類內的所有文檔進行分詞,然后用一個字典保存每個詞出現(xiàn)的次數(shù)
2、遍歷每個詞,得到每個詞在所有文檔里的IDF值,和在本聚類內出現(xiàn)的次數(shù)(TF)相乘的值
3、用一個字典(key是詞,value是TF*IDF權重)來保存所有的詞信息,然后按value對字典排序,最后取權重排名靠前的幾個詞作為關鍵詞。


2.基于語義的統(tǒng)計語言模型

文章關鍵詞提取基礎件能夠在全面把握文章的中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語,相關結果可用于精化閱讀、語義查詢和快速匹配等。

采用基于語義的統(tǒng)計語言模型,所處理的文檔不受行業(yè)領域限制,且能夠識別出最新出現(xiàn)的新詞語,所輸出的詞語可以配以權重。

文章關鍵詞提取組件的主要特色在于:
1、速度快:可以處理海量規(guī)模的網絡文本數(shù)據,平均每小時處理至少50萬篇文檔;
2、處理精準:Top N的分析結果往往能反映出該篇文章的主干特征;
3、精準排序:關鍵詞按照影響權重排序,可以輸出權重值;
4、開放式接口:文章關鍵詞提取組件作為TextParser的一部分,采用靈活的開發(fā)接口,可以方便地融入到用戶的業(yè)務系統(tǒng)中,可以支持各種操作系統(tǒng),各類調用語言。

主要接口:
/*-----------------------------------------------------------------------
* 功能:初始化
* 參數(shù):sLicenseCode - 授權碼
* 返回:true - 成功;false - 失敗
* 備注:在進程中此函數(shù)必須在其他函數(shù)之前調用(只需執(zhí)行一次)
------------------------------------------------------------------------*/
KWEXTRACT_API bool KDT_Init(const char*sLicenseCode=0);

/*-----------------------------------------------------------------------
* 功能:分析文本內容
* 參數(shù):sText - [IN] 文本內容(以'\0'結束的字符串)
* nMaxCount - [IN] 最多抽取多少個關鍵詞
* bWeightFlag - [IN] 是否輸出權重
* 返回:特征詞字符串(以\t分隔,詞和權重間用空格分隔);出錯返回空串
* 備注:在進程中此函數(shù)可以在特征詞抽取之前執(zhí)行多次
------------------------------------------------------------------------*/
KWEXTRACT_API const char* KDT_ParseContent(constchar *sText, int nMaxCount, bool bWeightFlag=false);

//退出,釋放資源;進程結束前須調用它釋放所占用的內存資源
KWEXTRACT_API void KDT_Exit();

//獲得錯誤消息
KWEXTRACT_API const char* KDT_GetLastErrMsg();

下載地址:http://www.lingjoin.com/download/LJParser.rar 
參考地址:http://www.lingjoin.com/product/ljparser.html

3.TF-IWF文檔關鍵詞自動提取算法

針對現(xiàn)有TF-IWF的領域文檔關鍵詞快速提取算法.該算法使用簡單統(tǒng)計并考慮詞長、位置、詞性等啟發(fā)性知識計算詞權重,并通過文檔凈化、領域詞典分詞等方法提高了關鍵詞提取的速度及準確度.對523篇學生心理健康領域文檔的實驗結果表明,該算法提取的文檔關鍵詞質量優(yōu)于TF-IDF方法,且能在O(n)時間內完成.

4.基于分離模型的中文關鍵詞提取算法研究

關鍵詞提取在自動文摘、信息檢索、文本分類、文本聚類等方面具有十分重要的作用。通常所說的關鍵詞實際上有相當一部分是關鍵的短語和未登錄詞,而這部分關鍵詞的抽取是十分困難的問題。該文提出將關鍵詞提取分為兩個問題進行處理:關鍵單詞提取和關鍵詞串提取,設計了一種基于分離模型的中文關鍵詞提取算法。該算法并針對關鍵單詞提取和關鍵詞串提取這兩個問題設計了不同的特征以提高抽取的準確性。實驗表明,相對于傳統(tǒng)的關鍵詞提取算法,基于分離模型的中文關鍵詞提取算法效果更好。


5.基于高維聚類技術的中文關鍵詞提取算法
關鍵詞提取是中文信息處理技術的熱點和難點,基于統(tǒng)計信息的方法是其中一個重要分支。本文針對基于統(tǒng)計信息關鍵詞提取方法準確率低的問題,提出基于高維聚類技術的中文關鍵詞提取算法。算法通過依據小詞典的快速分詞、二次分詞、高維聚類及關鍵詞甄選四個步驟實現(xiàn)關鍵詞的提取。理論分析和實驗顯示,基于高維聚類技術的中文關鍵詞提取方法具備更好的穩(wěn)定性、更高的效率及更準確的結果。 

6.基于語義的中文文本關鍵詞提取(SKE)算法

為克服傳統(tǒng)關鍵詞提取算法局限于字面匹配、缺乏語義理解的缺點,提出一種基于語義的中文文本關鍵詞提取(SKE)算法。將詞語語義特征融入關鍵詞提取過程中,構建詞語語義相似度網絡并利用居間度密度度量詞語語義關鍵度。實驗結果表明,與基于統(tǒng)計特征的關鍵詞提取算法相比,SKE算法提取的關鍵詞能體現(xiàn)文檔的主題,更符合人們的感知邏輯,且算法性能較優(yōu)。

7.基于樸素貝葉斯模型的中文關鍵詞提取算法研究

提出了一種基于樸素貝葉斯模型的中文關鍵詞提取算法。該算法首先通過訓練過程獲得樸素貝葉斯模型中的各個參數(shù),然后以之為基礎,在測試過程完成關鍵詞提取。實驗表明,相對于傳統(tǒng)的if*idf方法,該算法可從小規(guī)模的文檔集中提取出更為準確的關鍵詞,而且可靈活地增加表征詞語重要性的特征項,因而具有更好的可擴展性。



本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
文本相似度算法
基于LDA模型的文本聚類研究
基于一種改進的Wide&Deep 文本分類在用戶身份識別上的實踐
詳述SEO的本質與向量空間模型
中文文本聚類(切詞以及Kmeans聚類)
視覺詞袋模型簡介
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服