日本美女黄色视频看,日本美女动态视频,郭德纲和柳岩说套的视频

基于逆向最大化詞表中文分詞法。

duduwolf >《編程》

2005.09.16

關(guān)注

以前做知識(shí)管理系統(tǒng)的時(shí)候,由于需要建立全文檢索和統(tǒng)計(jì)詞頻，需要對(duì)中文文本進(jìn)行分詞。對(duì)于中文分詞,

國(guó)內(nèi)做到好的應(yīng)該是中科院自然研究所,但是相對(duì)比較復(fù)雜,我看了幾次沒(méi)有看明白. :) ,由于平常我們的知識(shí)系統(tǒng)

對(duì)分詞的要求沒(méi)有這么高,所以就選擇了最大化的詞表分詞法. 詞表選擇的是人民日?qǐng)?bào)97版的詞表.

實(shí)際效果可以達(dá)到90%以上,基本可以滿足需要。支持 Lucene.net分詞，詞表是啟動(dòng)時(shí)一次性載入；

具體代碼如下:

public sealed class LtWordTokenizer : Tokenizer
{
  private String bufferText;
  private ArrayList wordArray;
  private int intIndex=0;
  public static Hashtable hsDic=new Hashtable();

  public LtWordTokenizer(TextReader _in)
  {
   input = _in;
   bufferText=input.ReadToEnd().ToLower();
   wordArray=new ArrayList();
   wordSegment(bufferText);

  }

  public void wordSegment(String Sentence)
  {
   int senLen = Sentence.Length;
   int i=0, j=0;
   int M=12;
   string word;
   while(i < senLen)
   {
    int N= i+M<senLen ? i+M : senLen+1;
    bool bFind=false;
    for(j=N-1; j>i; j--)
    {
     word = Sentence.Substring(i, j-i).Trim();
     if(hsDic.ContainsKey(word.Trim()))
     {
      wordArray.Add(new Token(word,i,i+word.Length));
      bFind=true;
      i=j;
      break;
     }
    }
    if(!bFind)
    {
     word = Sentence.Substring(i, 1).Trim();
     i=j+1;
     if(word.Trim()!="")
     {
      wordArray.Add(new Token(word,i,i+word.Length));
     }
    }
   }
  }

  public override Token Next()
  {

   if(intIndex<wordArray.Count)
   {
    intIndex++;
    return (Token)(wordArray[intIndex-1]);
   }
   else
    return null;
  }

}
}

下次可以在分詞的時(shí)候更改一下，不必先分好保存到arraylist,動(dòng)態(tài)速度更好。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

打開(kāi)APP，閱讀全文并永久保存查看更多類(lèi)似文章

不規(guī)則動(dòng)詞表（原形過(guò)去式過(guò)去分詞）

關(guān)于大語(yǔ)言模型的11個(gè)應(yīng)用方向和16個(gè)挑戰(zhàn)總結(jié)：來(lái)自來(lái)自倫敦大學(xué)、MetaAI等機(jī)構(gòu)合作的688篇參考文獻(xiàn)與業(yè)界實(shí)踐

一個(gè)模型解決兩種模態(tài)，谷歌AudioPaLM一統(tǒng)「文本音頻」：能說(shuō)還能聽(tīng)的大模型

序列數(shù)據(jù)和文本的深度學(xué)習(xí)

如何用狀態(tài)機(jī)簡(jiǎn)化代碼中復(fù)雜的 if else 邏輯

搜索引擎系統(tǒng)學(xué)習(xí)與開(kāi)發(fā)實(shí)踐總結(jié)

更多類(lèi)似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看