現(xiàn)在所有網(wǎng)站都考慮seo,所謂seo就是優(yōu)化網(wǎng)站對這些搜索引擎的友好度,讓自己的網(wǎng)站更容易通過搜索引擎被訪問到。然而,Robot程序抓你的網(wǎng)站頁面時,有時會因為頻率太高而影響你的服務(wù)器,所以,合理的設(shè)置robots.txt(注意,是robots)很重要。
若要控制爬網(wǎng)你的網(wǎng)站的時間和方式,請在網(wǎng)站的頂層(根)目錄創(chuàng)建 robots.txt 文件。在 robots.txt 中,可以指定允許或阻止哪些爬網(wǎng)軟件。大部分爬蟲程序都遵循robots.txt的規(guī)范。
robots.txt是一個純文本文件,通過在這個文件中聲明該網(wǎng)站中不想被robots訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。
當(dāng)一個搜索機器人訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果找到,搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍,如果該文件不存在,那么搜索機器人就沿著鏈接抓取。
robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。
下面是一些robots.txt基本的用法:
l 禁止所有搜索引擎訪問網(wǎng)站的任何部分:
User-agent: *
Disallow: /
l 允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件 “/robots.txt” file
l 禁止所有搜索引擎訪問網(wǎng)站的幾個部分(下例中的cgi-bin、tmp、private目錄)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
l 禁止某個搜索引擎的訪問(下例中的BadBot)
User-agent: BadBot
Disallow: /
l 只允許某個搜索引擎的訪問(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
l 所有的搜索引擎抓取間隔設(shè)置(20意味著20秒):
User-agent:*
Disallow:
Crawl-delay:20
3、 常見搜索引擎機器人Robots名字
名稱 搜索引擎
Baiduspider http://www.baidu.com
Scooter http://www.altavista.com
ia_archiver http://www.alexa.com
Googlebot http://www.google.com
FAST-WebCrawler http://www.alltheweb.com
Slurp http://www.inktomi.com
MSNBOT http://search.msn.com
發(fā)現(xiàn)一個生成robots.txt的工具網(wǎng)站,與各位朋友分享。
http://www.mcanerin.com/EN/search-engine/robots-txt.asp
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=1102882