實(shí)用的免費(fèi)中文分詞服務(wù)
中文分詞對(duì)于大型網(wǎng)站的搜索及SEO優(yōu)化都是一個(gè)難點(diǎn),同時(shí)也是一個(gè)重點(diǎn)。很多人會(huì)使用Lucene中文分詞,但是想維護(hù)如此大的一個(gè)詞庫(kù)不是一件容易的事情,可行性值得考證。
在這種情況下為什么不使用他人提供的服務(wù)呢?
優(yōu)點(diǎn):
1、穩(wěn)定、速度快、分詞準(zhǔn)確
2、不用維護(hù)
缺點(diǎn):
1、他人的免費(fèi)服務(wù)始終不放心,萬(wàn)一停了怎么辦?
以下是百度熱門相關(guān)關(guān)鍵字和discuz標(biāo)簽功能提供的免費(fèi)ROA服務(wù)(php版函數(shù))
//根據(jù)標(biāo)題獲得百度熱門相關(guān)關(guān)鍵字,返回字符串
function baiduKeyword($title,$num=5,$charset="UTF-8"){
$title=iconv($charset, "GB2312", $title);
$w=file_get_contents('http://d.baidu.com/rs.php?q='.urlencode($title).'&tn=baidu');
//die($w);
//獲得列表部分
preg_match_all("|<div id=con>(.*)</div>|isU",$w,$con);
$list=$con[1][0];
//獲得具體內(nèi)容
preg_match_all("|<ul><li class=ls>(.*)</li><li class=kwc><a target=_blank href=(.*)>(.*)</a></li><li class=bar><img src=http://img.baidu.com/img/bar_1.gif height=6 width=(\d*) align=absmiddle vspace=5></li></ul>|isU",$list,$content);
//合并成數(shù)組,被搜索次數(shù)做為鍵值
$c=array_combine($content[4],$content[3]);
//排序
krsort($c);
//取前N條
$r=array_slice($c, 0, $num);
//轉(zhuǎn)換成字符串
$result=implode(",", $r);
$result=iconv("GB2312", $charset,$result);
return $result;
}
//通過(guò)discuz獲取文章關(guān)鍵字(標(biāo)簽),輸入標(biāo)題和內(nèi)容 即可返回5個(gè)關(guān)鍵字?jǐn)?shù)組
function getTags($title,$content){
$subjectenc = rawurlencode(strip_tags($title));
$messageenc = rawurlencode(strip_tags(preg_replace("/\[.+?\]/U", '',$content)));
$subjectenc =substr($subjectenc,0,60);
$messageenc=substr($messageenc,0,1200);
$data = @implode('', file("http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=utf-8&ocs=utf-8"));
$kws = array();
if($data) {
$parser = xml_parser_create();
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);
xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1);
xml_parse_into_struct($parser, $data, $values, $index);
xml_parser_free($parser);
foreach($values as $valuearray) {
if($valuearray['tag'] == 'kw' || $valuearray['tag'] == 'ekw') {
$kw =trim($valuearray['value']);
$kws[] =$kw ;
}
}
}
return $kws;
}
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。