Sphinx
Sphinx Search 是由俄羅斯人Andrew Aksyonoff 開發(fā)的高性能全文搜索軟件包,在GPL與商業(yè)協(xié)議雙許可協(xié)議下發(fā)行。
Sphinx支持從多種數(shù)據(jù)源獲取待檢索的數(shù)據(jù),目前包括:
- MySQL數(shù)據(jù)庫
- PostgreSQL數(shù)據(jù)庫
- XML數(shù)據(jù)管道,允許索引其他用戶自定義格式
Sphinx的主要功能包括:
- 高速建立索引(可達10 MB/秒)
- 高性能搜索(在2-4 GB的文本上搜索,平均0.1秒內(nèi)獲得結(jié)果)
- 高擴展性(在單一CPU上,實測可對100GB的文本建立索引,單一索引可包括100M文件 )
- 支持分布式檢索
- 支持基于短語和基于統(tǒng)計的復合結(jié)果排序機制
- 支持任意數(shù)量的文件字段(數(shù)值屬性或全文檢索屬性)
- 支持不同的搜索模式( “完全匹配” , “短語匹配”和“任一匹配” )
- 支持作為Mysql的存儲引擎
Coreseek 在Sphinx的基礎(chǔ)上,對Sphinx 的中文支持進行增強,包括:
- 使用Python的可編程數(shù)據(jù)源
- 基于最大匹配算法的中文分詞模塊
- 支持GB18030編碼的數(shù)據(jù)源
下載:
- 基于復合最大匹配算法的中文分詞法 libmmseg 。該分詞庫在GPL協(xié)議下授權(quán)發(fā)布。
目前,Coreseek 不單獨提供補丁文件,有在Sphinx中啟用中文分詞的用戶,請直接下載 Coreseek 全文檢索服務器。