国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
基于逆向最大化詞表中文分詞法。
 

    以前做知識(shí)管理系統(tǒng)的時(shí)候,由于需要建立全文檢索和統(tǒng)計(jì)詞頻,需要對(duì)中文文本進(jìn)行分詞。對(duì)于中文分詞,

國(guó)內(nèi)做到好的應(yīng)該是中科院自然研究所,但是相對(duì)比較復(fù)雜,我看了幾次沒(méi)有看明白. :)  ,由于平常我們的知識(shí)系統(tǒng)

對(duì)分詞的要求沒(méi)有這么高,所以 就選擇了最大化的詞表分詞法.  詞表選擇的是人民日?qǐng)?bào)97版的詞表.

實(shí)際效果可以達(dá)到90%以上,基本可以滿足需要。支持 Lucene.net分詞,詞表是啟動(dòng)時(shí)一次性載入;

   具體代碼如下:

  public sealed class LtWordTokenizer : Tokenizer
 {
  private String bufferText;
  private ArrayList wordArray; 
  private int  intIndex=0;  
  public static Hashtable hsDic=new Hashtable();  

  public LtWordTokenizer(TextReader _in)
  {
   input = _in;
   bufferText=input.ReadToEnd().ToLower();   
   wordArray=new ArrayList();   
   wordSegment(bufferText);  
   
  }  

  public void wordSegment(String Sentence)
  {
   int senLen = Sentence.Length;
   int i=0, j=0;
   int M=12;
   string word;    
   while(i < senLen)
   {
    int N= i+M<senLen ? i+M : senLen+1;
    bool bFind=false;
    for(j=N-1; j>i; j--)
    {
     word = Sentence.Substring(i, j-i).Trim();     
     if(hsDic.ContainsKey(word.Trim()))
     {
      wordArray.Add(new Token(word,i,i+word.Length));      
      bFind=true;
      i=j;
      break;
     }     
    }
    if(!bFind)
    {
     word = Sentence.Substring(i, 1).Trim();
     i=j+1;
     if(word.Trim()!="")
     {
      wordArray.Add(new Token(word,i,i+word.Length));     
     }     
    }
   } 
  }


 
  public override Token Next()
  { 
   
   if(intIndex<wordArray.Count)
   { 
    intIndex++;
    return (Token)(wordArray[intIndex-1]);           
   }
   else
    return null;   
  }
  
 }
}

下次可以在分詞的時(shí)候更改一下,不必先分好保存到arraylist,動(dòng)態(tài)速度更好。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
不規(guī)則動(dòng)詞表(原形過(guò)去式過(guò)去分詞)
關(guān)于大語(yǔ)言模型的11個(gè)應(yīng)用方向和16個(gè)挑戰(zhàn)總結(jié):來(lái)自來(lái)自倫敦大學(xué)、MetaAI等機(jī)構(gòu)合作的688篇參考文獻(xiàn)與業(yè)界實(shí)踐
一個(gè)模型解決兩種模態(tài),谷歌AudioPaLM一統(tǒng)「文本 音頻」:能說(shuō)還能聽(tīng)的大模型
序列數(shù)據(jù)和文本的深度學(xué)習(xí)
如何用狀態(tài)機(jī)簡(jiǎn)化代碼中復(fù)雜的 if else 邏輯
搜索引擎系統(tǒng)學(xué)習(xí)與開(kāi)發(fā)實(shí)踐總結(jié)
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服