韩国美女视频一区二区三区,韩国美女激情视频

seo的雙刃劍--robots.txt簡介

2007.01.02

有時你會莫名其妙地發(fā)現(xiàn)你的主頁的內(nèi)容在一個搜索引擎中被索引，即使你從未與他們有過任何聯(lián)系。其實這正是Web Robot的功勞。WebRobot其實是一些程序，它可以穿越大量Internet網(wǎng)址的超文本結(jié)構(gòu)，遞歸地檢索網(wǎng)絡(luò)站點所有的內(nèi)容。這些程序有時被叫“蜘蛛（Spider）” ， “網(wǎng)上流浪漢（Web Wanderer）”，”網(wǎng)絡(luò)蠕蟲（web worms）”或Webcrawler。常見的搜索引擎有g(shù)oogle,yahoo,msn,百度，soso，sogou等等。

現(xiàn)在所有網(wǎng)站都考慮seo，所謂seo就是優(yōu)化網(wǎng)站對這些搜索引擎的友好度，讓自己的網(wǎng)站更容易通過搜索引擎被訪問到。然而，Robot程序抓你的網(wǎng)站頁面時，有時會因為頻率太高而影響你的服務(wù)器，所以，合理的設(shè)置robots.txt（注意，是robots）很重要。

若要控制爬網(wǎng)你的網(wǎng)站的時間和方式，請在網(wǎng)站的頂層（根）目錄創(chuàng)建 robots.txt 文件。在 robots.txt 中，可以指定允許或阻止哪些爬網(wǎng)軟件。大部分爬蟲程序都遵循robots.txt的規(guī)范。

robots.txt是一個純文本文件，通過在這個文件中聲明該網(wǎng)站中不想被robots訪問的部分，這樣，該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了，或者指定搜索引擎只收錄指定的內(nèi)容。

當(dāng)一個搜索機器人訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果找到，搜索機器人就會按照該文件中的內(nèi)容來確定訪問的范圍，如果該文件不存在，那么搜索機器人就沿著鏈接抓取。

robots.txt必須放置在一個站點的根目錄下，而且文件名必須全部小寫。

下面是一些robots.txt基本的用法：

l 禁止所有搜索引擎訪問網(wǎng)站的任何部分：
User-agent: *
Disallow: /

l 允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件 “/robots.txt” file

l 禁止所有搜索引擎訪問網(wǎng)站的幾個部分（下例中的cgi-bin、tmp、private目錄）
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

l 禁止某個搜索引擎的訪問（下例中的BadBot）
User-agent: BadBot
Disallow: /

l 只允許某個搜索引擎的訪問（下例中的WebCrawler）
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

l 所有的搜索引擎抓取間隔設(shè)置(20意味著20秒）：