著名的“Google Dance”
如果你想寫封信去參加在Google總部的年度更新過程,那么你可能希望繼續(xù)讀到GooglePlex這篇文章,從中了解Google數(shù)據(jù)庫和搜索引擎機器人是何如工作的。關(guān)于Google每月周期性的更新過程有很多的文檔記錄。而在過去整整一年,Google的這種每個月的周期性更新(如今人們親切稱之為“Google Dance”)對那些焦慮等待的網(wǎng)站所有者和網(wǎng)站管理員來說,都變得愈加復(fù)雜和不可琢磨。
每次的更新都是從Google的一個主要的深層次的爬蟲開始的。我們先把它叫做爬蟲A。它是如何索引到整個網(wǎng)站中至少三四十億的網(wǎng)頁的呢?Google使用了15000多臺位于不同數(shù)據(jù)中心的計算機,來索引全世界范圍內(nèi)的站點。當(dāng)Googlebot來搜索數(shù)據(jù)庫中現(xiàn)有站點時,同時也會搜索到最新的網(wǎng)站。一旦Google完成了爬蟲A這個過程,就會為下一步的更新有效地搜索到所有的網(wǎng)頁,然后便是兩個星期后的第二次更新過程。
最后,Google會更新整個數(shù)據(jù)庫,在www2.google.com和www3.google.com這兩個站點上可以看到最新的更新結(jié)果。在更新的同時,其結(jié)果會很快的連接在主要數(shù)據(jù)庫和第二、第三個數(shù)據(jù)庫之間。由于Google使用的服務(wù)器有15000臺之多,因此在整個更新結(jié)束之前,不同地方的人們所得到的搜索結(jié)果是不同的。“Google Dance”會持續(xù)好幾天,但是不會超過一個星期。除非Google要改變一些主要的規(guī)則,比如2003年4月份的更新。
無論是在Google的每個數(shù)據(jù)庫更新的時候還是在更新之后 只要其中一個數(shù)據(jù)庫進行更新,Google又會開始新一輪的“全面”檢索。我們把它稱做爬蟲B。這次檢索仍然包括數(shù)據(jù)庫中所有已被收錄站點和一些新發(fā)布的網(wǎng)站。GoogleBot的這次檢索完成之后,就是Google下一輪更新的起點,意味著下個月的更新又全面開始了。
在完美時間“捕捉”Googlebot
為了得到包括Google數(shù)據(jù)庫在內(nèi)的任何網(wǎng)站,或是數(shù)據(jù)庫中有效反映更新的網(wǎng)站,一個有經(jīng)驗的網(wǎng)站管理員需要事先作認(rèn)真的計劃,并準(zhǔn)備好一切。這樣他才能在能每月特定的更新過程中“抓住”Googlebot,以取得一個好的排名。多數(shù)好的搜索引擎優(yōu)化專家都知道Googlebot一開始的索引都是在月初進行的,而深層次的索引是在更新之后開始的。
如果一個網(wǎng)站管理員希望在Google的數(shù)據(jù)庫中收錄一個新站點,那么問題是,會不會有一個爬蟲來保證收錄呢?根據(jù)我們對其每月更新的經(jīng)驗來判斷,并不總是這樣的。毫無疑問,如果一個網(wǎng)站在月初就被索引的話,那么在這個月的更新過程中,就不會被收錄。如果是在這個月的第二次索引中提交的話,就有可能被重新訪問,并且在下次的更新時被收錄。
在其他情況下,Google只是簡單瀏覽一下新提交的站點,記下主頁和Robots.txt文檔。像這種行為通常是一個好的指示,Googlebot會在下次主要索引期間再次回來。所以站點通常會在第二次索引更新時被收錄。對一個新的網(wǎng)站來說,被收錄到Google的數(shù)據(jù)庫中,要被在Googlebot那里訪問兩次。雖然有些例外的情況,但多數(shù)情況下是這樣的。
為了確??焖俦皇珍浀目赡?,一個有經(jīng)驗的網(wǎng)站管理員需要做一些工作。如果網(wǎng)站被Googlebot第一次更新后索引的話,這其實是一個很好的跡象,很有可能會在Google下個月的更新中被收錄。如果這次沒有被索引的話,網(wǎng)站管理員就要為再次的索引等待更長的時間。
根據(jù)這一點,一個網(wǎng)站管理員如果要想讓他的網(wǎng)站在Google更新時的這個非常時期得到索引,那么他一般應(yīng)該怎么做呢?他完全可以做些必要的準(zhǔn)備工作。如果有被Google已經(jīng)收錄的網(wǎng)站,那么可以通過這些網(wǎng)站的變化來觀察整個檢索過程和所有更新日期 然后據(jù)此仔細規(guī)劃新網(wǎng)站的發(fā)布。此外,如果沒有已經(jīng)為Google收錄的網(wǎng)站,也不要緊,可以常訪www.google.com來觀察它的更新過程。
然而,實際生活中幾乎不可能100%的確定任何網(wǎng)站都可以部分的或是全部的被索引,為了能使您的網(wǎng)站被Googlebot索引到,網(wǎng)站管理員需要做一些工作。第一,要和那些頁面等級高的站點交換連接。因為這些網(wǎng)站會經(jīng)常被Google索引和更新。也就是說,如果和他們做連接的話,你的站點也會被經(jīng)常地索引和更新。但要注意的是一定要有相關(guān)性:如果一個網(wǎng)站是做家具零售的,那就要和其相似的公司,比如家具制作或銷售的站點做連接。這樣做Google會給你一個較高的等級;反之,和那些無關(guān)的網(wǎng)站做連接則不會得到一個高的等級。第二,你也可以直接向Google做提交。雖然這不是最好的方法,但也是值得去做的。第三,網(wǎng)站管理員可以安裝一個Google工具欄,通過這個工具欄可以訪問到其它站點。自2002年中期起,就有很多關(guān)于網(wǎng)站被Google數(shù)據(jù)庫收錄和通過Google工具欄訪問二者直接關(guān)系的報告。
你也可以選擇Yahoo的有償收錄服務(wù),這樣可以保證在七天內(nèi)被Yahoo收錄。一旦為Yahoo收錄,你的網(wǎng)站就會很快被Google收錄了。當(dāng)然你不用每年都花299美元。還有一個不用花錢的方法,就是把你的網(wǎng)站提交到DMOZ。雖然它的服務(wù)器有時會出現(xiàn)問題,而且被DMOZ收錄可能要花很長的時間。但這確是一個能讓您的網(wǎng)站被Google收錄的好方法。
結(jié)論:
所有可以提供給網(wǎng)站管理員和搜索引擎優(yōu)化專家的技術(shù)信息,都是從Google爬蟲和更新模式那里得到的。它們會對搜索引擎優(yōu)化的計劃和實施有很大幫助。其中最主要的是有助于我們安排計劃,因為新的提高和更新需要一個被收錄到搜索引擎數(shù)據(jù)庫的特定時間和日期。由于Google決定了大部分的目標(biāo)搜索引擎訪問量,所以讓你的網(wǎng)站為Google收錄是十分有必要的。