国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Nutch 筆記(一):Quick Start
關(guān)鍵字:   nutch    

最近用到了nutch,目的是針對指定的一些網(wǎng)站抓取其內(nèi)容,然后做分析用。
nutch 筆記是我使用nutch過程一系列總結(jié),寫下自己的學(xué)習(xí)經(jīng)過和大家一起分享,也希望能得到大家的指點(diǎn)

好了,廢話少說,言歸正傳,第一篇:Quick Start,我們的目標(biāo)是快速的能跑起來,能檢索出我們想要的結(jié)果。

首先要明白nutch是什么?
nutch是一個基于lucene的開源搜索引擎,它包括了所有你想要的東西,是一個完整的解決方案 。

一:安裝JDK
如果你已經(jīng)安裝了JDK,并且已經(jīng)設(shè)置了JAVA_HOME,那么跳過這一步
安裝jdk

代碼
  1. sudo apt-get install sun-java5-jdk  

或者從sun公司網(wǎng)站下載bin文件執(zhí)行安裝

 

設(shè)置了JAVA_HOME

代碼
  1. sudo vi ~/.bashrc  

在最后面增加
代碼
  1. export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun   
  2. export PATH=$PATH:$JAVA_HOME/bin   

 

二:下載nutch的最新版本nutch0.8.1

代碼
  1. wget http://apache.justdn.org/lucene/nutch/nutch-0.8.1.tar.gz  

 

釋放下來即可

代碼
  1. tar zxvf nutch-0.8.1.tar.gz  

 

三:抓取頁面
增加url

代碼
  1. cd nutch-0.8.1  
  2. mkdir urls   
  3. echo http://www.xici.net>>urls/xici   

 

編輯conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME為

代碼
  1. +^http://([a-z0-9]*\.)*xici.net/   

 

修改conf/nutch-site.xml,增加http.agent.name值

代碼
  1. <property>  
  2.    <name>http.agent.name</name>  
  3.    <value>test/unique</value>  
  4. </property>  

 

執(zhí)行bin/nutch crawl開始抓取頁面

代碼
  1. sudo bin/nutch crawl urls -dir crawl -depth 5 -topN 50&   

 

這個過程需要等待一些時間

三:檢索
安裝tomcat,我們使用apache網(wǎng)站上的包

代碼
  1. cd ..   
  2. wget http://mirror.vmmatrix.net/apache/tomcat/tomcat-5/v5.5.20/bin/apache-tomcat-5.5.20.tar.gz   
  3. tar zxvf apache-tomcat-5.5.20.tar.gz   

 

將nutch自帶的war文件拷貝到webapps下面

代碼
  1. rm -rf apache-tomcat-5.5.20/webapps/ROOT*   
  2. cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war  

 

運(yùn)行tomcat,如果不設(shè)定nutch-site.xml的searcher.dir的值,則需要在crawl目錄下面執(zhí)行

代碼
  1. sudo ${TOMCAT的目錄}/bin/startup.sh  

 

我們也可以設(shè)定nutch-site.xml的searcher.dir的值

代碼
  1. sudo vi ${TOMCAT的目錄}/webapps/ROOT/WEB-INF/classes/nutch-site.xml   

 

增加

代碼
  1. <property>  
  2.   <name>searcher.dir</name>  
  3.   <value>/home/martin/doc/nutch-0.8.1/crawl</value>  
  4. </property>  

 

四:中文亂碼
修改tomcat的server.xml,在Connector的tag最后增加

代碼
  1. URIEncoding="UTF-8"  

 

五:截圖

-----------------------
nutch site:http://lucene.apache.org/nutch
nutch wiki:http://wiki.apache.org/nutch/

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
pinpoint的安裝部署
slor
Linux下Tomcat的安裝配置
Centos查找Tomcat路徑并重啟
Jenkins與Docker的自動化CI/CD實(shí)戰(zhàn)
ubuntu7.10 按裝tomcat 6.0 詳解
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服