最近用到了nutch,目的是針對指定的一些網(wǎng)站抓取其內(nèi)容,然后做分析用。 nutch 筆記是我使用nutch過程一系列總結(jié),寫下自己的學(xué)習(xí)經(jīng)過和大家一起分享,也希望能得到大家的指點(diǎn) 好了,廢話少說,言歸正傳,第一篇:Quick Start,我們的目標(biāo)是快速的能跑起來,能檢索出我們想要的結(jié)果。 首先要明白nutch是什么? nutch是一個基于lucene的開源搜索引擎,它包括了所有你想要的東西,是一個完整的解決方案 。 一:安裝JDK 如果你已經(jīng)安裝了JDK,并且已經(jīng)設(shè)置了JAVA_HOME,那么跳過這一步 安裝jdk 代碼 - sudo apt-get install sun-java5-jdk
或者從sun公司網(wǎng)站下載bin文件執(zhí)行安裝 設(shè)置了JAVA_HOME 代碼 在最后面增加 代碼 - export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun
- export PATH=$PATH:$JAVA_HOME/bin
二:下載nutch的最新版本nutch0.8.1 代碼 釋放下來即可 代碼 - tar zxvf nutch-0.8.1.tar.gz
三:抓取頁面 增加url 代碼 - cd nutch-0.8.1
- mkdir urls
- echo http:
編輯conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME為 代碼 修改conf/nutch-site.xml,增加http.agent.name值 代碼 - <property>
- <name>http.agent.name</name>
- <value>test/unique</value>
- </property>
執(zhí)行bin/nutch crawl開始抓取頁面 代碼 - sudo bin/nutch crawl urls -dir crawl -depth 5 -topN 50&
這個過程需要等待一些時間 三:檢索 安裝tomcat,我們使用apache網(wǎng)站上的包 代碼 - cd ..
- wget http:
- tar zxvf apache-tomcat-5.5.20.tar.gz
將nutch自帶的war文件拷貝到webapps下面 代碼 - rm -rf apache-tomcat-5.5.20/webapps/ROOT*
- cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war
運(yùn)行tomcat,如果不設(shè)定nutch-site.xml的searcher.dir的值,則需要在crawl目錄下面執(zhí)行 代碼 - sudo ${TOMCAT的目錄}/bin/startup.sh
我們也可以設(shè)定nutch-site.xml的searcher.dir的值 代碼 - sudo vi ${TOMCAT的目錄}/webapps/ROOT/WEB-INF/classes/nutch-site.xml
增加 代碼 - <property>
- <name>searcher.dir</name>
- <value>/home/martin/doc/nutch-0.8.1/crawl</value>
- </property>
四:中文亂碼 修改tomcat的server.xml,在Connector的tag最后增加 代碼 五:截圖
----------------------- nutch site:http://lucene.apache.org/nutch nutch wiki:http://wiki.apache.org/nutch/ |