本站的域名是alexacnseo.net,但是迄今為止筆者都沒有寫過一篇關(guān)于搜索引擎優(yōu)化的的文章。筆者的初衷是希望能讓www.alexacnseo.net這個博客成為大家討論互聯(lián)網(wǎng)技術(shù)并且探討SEO或者SEM的場所,所以今天筆者打算寫關(guān)于這方面領(lǐng)域的第一篇文章。

眾所周知,一個網(wǎng)站的流量能大致分成三個部分:直接訪問(direct)、引用頁(referer)和搜索(search engine)。其實搜索那一部分也能屬于引用頁的范疇,但是它太重要了,讓我們不能不單獨拿出來作為一個獨立的分析模塊??傮w來說,根據(jù)網(wǎng)站的性質(zhì)和發(fā)展,這三部分的比例會有所不同。比如說,對于門戶網(wǎng)站來說,直接訪問的百分比應(yīng)該一般網(wǎng)站高,不然“門戶”一詞就失去了意義。同樣,對于一些提供服務(wù)性質(zhì)的網(wǎng)站,搜索部分就應(yīng)該高一點,因為當(dāng)用戶需要尋找某項服務(wù)的時候,第一站往往是百度或谷歌。對于這三部分的流量,會有不同的策略和方法去提高自己網(wǎng)站的訪問量。在本文中,筆者側(cè)重于搜索引擎。

下面就讓我們來介紹一下今天的主角——爬蟲(crawler)。爬蟲是搜索引擎獲取網(wǎng)絡(luò)資源的重要途徑。通過網(wǎng)絡(luò)爬蟲,搜索引擎可以有機(jī)的獲取當(dāng)前互聯(lián)網(wǎng)上最新的網(wǎng)頁,為接下來分析關(guān)鍵詞,排序等等提供素材。既然爬蟲如此的重要,那么我們就應(yīng)該針對爬蟲給他提供一些適合他的“食物”(筆者在此不想提過多的技術(shù)分析,比如說廣度優(yōu)先,深度優(yōu)先,內(nèi)容相關(guān),網(wǎng)頁重要性等等,那些是留給各個研發(fā)人員去關(guān)心的事情,在這里筆者只想描述些概念性的觀點,適合大家理解討論)。但是在這里有個非常重要的概念就是爬蟲是很有禮貌的,它不會不告而訪。它會在自己的“user agent”聲稱“我是某某搜索引擎的爬蟲”。這就為我們提用一個很好的機(jī)會,因為機(jī)器畢竟和人不一樣,要達(dá)到人類最好的視覺效果可能會對搜索引擎對頁面的分析不利,反之亦然。通過探測爬蟲的方法,可以把一個完全只適合給機(jī)器看的頁面交給爬蟲但是一點也不影響到自己真正用戶的用戶體驗。而且,隨著時間的發(fā)展,爬蟲開始變的越來越聰明,有些爬蟲比如說google,已經(jīng)可以理解頁面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>這樣外部的javascript),這樣如果你不想讓爬蟲去某個鏈接的話完全可以把它寫進(jìn)javascript中。至于說html里面的各個標(biāo)簽應(yīng)該怎么寫對搜索引擎有益,互聯(lián)網(wǎng)上已經(jīng)有很多文章闡述了,本文就不贅述了。

爬蟲還有一個重要但是很無奈的特點就是爬蟲的資源是有限的。特別是對于一些規(guī)模較小的搜索引擎,他們會設(shè)計自己的一套算法來決定是否要讓爬蟲訪問某個頁面。如果這個頁面不夠“重要”(由各個引擎自己定義),而且資源也不夠的情況下,這個頁面就會被忽略。我們不妨來做個實驗,去百度的網(wǎng)站輸入“site: cn.alexa.com”,會顯示有“約694,000篇”,再去sogou的網(wǎng)頁嘗試,你會看見“找到 6 個網(wǎng)頁”。這也給各位希望做搜索引擎優(yōu)化的諸位提個警鐘,不要太在意這個時候在(小規(guī)模搜索引擎的)結(jié)果。如果資金允許的話,在這個時候在小規(guī)模引擎上買些關(guān)鍵詞的效果會來的更好。

筆者感想:身為Alexa的高級工程師,讓我感到自豪的是google在其初期階段一直都是使用Alexa的爬蟲結(jié)果。還記得有一次一個老員工在和我吹當(dāng)年google兩位創(chuàng)始人來alexa尋求合作時候的場景。但是時代變化如此之快,現(xiàn)在google已經(jīng)是排名第一互聯(lián)網(wǎng)公司,而我們卻被amazon收購,不得不說“shame on Alexa”。這些都是題外話,時下搜索引擎優(yōu)化是網(wǎng)絡(luò)時下非常流行的詞匯,但是如果我們不能了解一點搜索引擎本身的話,就很難有所針對性的作出判斷和動作。在美國有一句話是這么說的“一個好的醫(yī)生知道怎么樣去手術(shù),但是一個杰出的醫(yī)生知道怎么樣不去手術(shù)”。我想同樣的話也適用在這里,一個杰出的SEO專家應(yīng)該知道什么地方是不應(yīng)該去做SEO的。以犧牲用戶的體驗的代價來提高流量的行為往往得不償失。希望各位讀者在做類似的決定的時候能夠慎行。