动漫美女h黄动漫视频,高圆圆快乐大本营视频

Nutch 筆記（一）：Quick Start

2006.11.07

關(guān)鍵字: nutch

最近用到了nutch,目的是針對指定的一些網(wǎng)站抓取其內(nèi)容，然后做分析用。
nutch 筆記是我使用nutch過程一系列總結(jié)，寫下自己的學(xué)習(xí)經(jīng)過和大家一起分享，也希望能得到大家的指點(diǎn)

好了，廢話少說，言歸正傳，第一篇：Quick Start,我們的目標(biāo)是快速的能跑起來，能檢索出我們想要的結(jié)果。

首先要明白nutch是什么？
nutch是一個基于lucene的開源搜索引擎，它包括了所有你想要的東西，是一個完整的解決方案。

一：安裝JDK
如果你已經(jīng)安裝了JDK,并且已經(jīng)設(shè)置了JAVA_HOME，那么跳過這一步
安裝jdk

代碼

sudo apt-get install sun-java5-jdk

或者從sun公司網(wǎng)站下載bin文件執(zhí)行安裝

設(shè)置了JAVA_HOME

代碼

sudo vi ~/.bashrc

在最后面增加

代碼

export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun
export PATH=$PATH:$JAVA_HOME/bin

二：下載nutch的最新版本nutch0.8.1

代碼

wget http://apache.justdn.org/lucene/nutch/nutch-0.8.1.tar.gz

釋放下來即可

代碼

tar zxvf nutch-0.8.1.tar.gz

三：抓取頁面
增加url

代碼

cd nutch-0.8.1
mkdir urls
echo http://www.xici.net>>urls/xici

編輯conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME為

代碼

+^http://([a-z0-9]*\.)*xici.net/

修改conf/nutch-site.xml，增加http.agent.name值

代碼

<property>
<name>http.agent.name</name>
<value>test/unique</value>
</property>

執(zhí)行bin/nutch crawl開始抓取頁面

代碼

sudo bin/nutch crawl urls -dir crawl -depth 5 -topN 50&

這個過程需要等待一些時間

三：檢索
安裝tomcat,我們使用apache網(wǎng)站上的包

代碼

cd ..
wget http://mirror.vmmatrix.net/apache/tomcat/tomcat-5/v5.5.20/bin/apache-tomcat-5.5.20.tar.gz
tar zxvf apache-tomcat-5.5.20.tar.gz

將nutch自帶的war文件拷貝到webapps下面

代碼

rm -rf apache-tomcat-5.5.20/webapps/ROOT*
cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war

運(yùn)行tomcat,如果不設(shè)定nutch-site.xml的searcher.dir的值，則需要在crawl目錄下面執(zhí)行

代碼

sudo ${TOMCAT的目錄}/bin/startup.sh

我們也可以設(shè)定nutch-site.xml的searcher.dir的值

代碼

sudo vi ${TOMCAT的目錄}/webapps/ROOT/WEB-INF/classes/nutch-site.xml

增加

代碼

<property>
<name>searcher.dir</name>
<value>/home/martin/doc/nutch-0.8.1/crawl</value>
</property>

四:中文亂碼
修改tomcat的server.xml，在Connector的tag最后增加

代碼

URIEncoding="UTF-8"

五：截圖

-----------------------
nutch site:http://lucene.apache.org/nutch
nutch wiki:http://wiki.apache.org/nutch/

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

打開APP，閱讀全文并永久保存查看更多類似文章

Jenkins與Docker的自動化CI/CD實(shí)戰(zhàn)

ubuntu7.10 按裝tomcat 6.0 詳解

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看