“芙蓉姐姐”成作弊工具
打開Google,選關鍵詞“芙蓉姐姐”點擊,再任選一個“芙蓉姐姐”出現(xiàn)較多的一篇點擊,接著出現(xiàn)兩種可能:第一,只數(shù)秒鐘,頁面便突然彈跳到“亞洲在線最大的寬頻影院”等等網(wǎng)頁。第二,出現(xiàn)無數(shù)的“芙蓉姐姐”,再任意選擇一個“芙蓉姐姐”點擊,出現(xiàn)與第一種可能一樣的頁面——其內(nèi)容與“芙蓉姐姐”絲毫無關,撲入眼里的是女人半裸的身體或半裸的乳房。
這便是一次完整的“作弊網(wǎng)站”體驗。
幾乎沒有一次例外,當網(wǎng)絡上有某一個詞成為熱點時,它必將成為作弊網(wǎng)站(亦被搜索引擎稱為“垃圾網(wǎng)站”)最為熱門的“作弊工具”。這一次輪到“芙蓉姐姐”。
在互聯(lián)網(wǎng)搜索引擎領域,作弊網(wǎng)頁已達到泛濫成災的地步。
這是據(jù)芙蓉姐姐走紅的7月12日的統(tǒng)計。以“芙蓉姐姐”為關鍵詞,通過Google進行查詢,約有1,030,000個相關網(wǎng)頁。查看前40篇的網(wǎng)頁,約有15條比較符合“芙蓉姐姐”的內(nèi)容,占37.5%,有25條不符合“芙蓉姐姐”的內(nèi)容,占62.5%。
除了最近兩天剛排到第一位的門戶網(wǎng)站新浪外,第二位是Mblogger,第三的是dyo.zj.com,均名不見經(jīng)傳。以排在前10位的來分析,除新浪外,幾乎全是在BSP(Blog Service Provider托管服務提供商)上申請的BLOG網(wǎng)站(中文稱“博客網(wǎng)站”),而在搜索結果的摘要內(nèi)容上,這些網(wǎng)頁類似于專題的形式,滿目都是“芙蓉姐姐”,任意點開其中一個,大多彈出的是性感電影手機注冊下載或鈴聲下載等頁面。
在百度里,以“芙蓉姐姐”為關鍵詞,找到相關網(wǎng)頁約1,340,000篇,在前40篇中,排在前面的主要是網(wǎng)易、TOM、新浪女性、QQ等門戶網(wǎng)站的專題,而在Google中,這些內(nèi)容均被作弊的blog擠出前40篇之外。
據(jù)一位不愿透露名字的反spam(垃圾網(wǎng)站)專家王某介紹,百度這種搜索結果,并非百度偏好門戶專題新聞類內(nèi)容,根本原因在于,百度已將上文提到的Google前40篇內(nèi)大部分的作弊網(wǎng)頁自動刪除掉了,結果比較符合“芙蓉姐姐”的網(wǎng)頁內(nèi)容自然在搜索中排得靠前了。
以“芙蓉姐姐”為關鍵詞對照百度和Google兩個主要搜索引擎的搜索結果,可以感受到百度搜索的用戶體驗要比Google好,因為在Google中查找意味著需要在一堆“垃圾”中尋找有效的網(wǎng)頁。
作弊聯(lián)盟
有意思的是,百度屏蔽這些垃圾網(wǎng)站時,遭到了這些網(wǎng)站在技術層面上的攻擊。
“百度一下”關鍵詞“反百度聯(lián)盟”會發(fā)現(xiàn),在百度網(wǎng)站上有無數(shù)條有關“反百度聯(lián)盟”的信息。自6月1日“反百度聯(lián)盟”網(wǎng)站上線以來,目前已有2000多人次簽名。
該網(wǎng)站上線之初,氣勢較大,但最近幾乎沒有了動靜。
“反百度聯(lián)盟”發(fā)起人為一個網(wǎng)名為“踏雪無痕”的網(wǎng)友,據(jù)稱,其“美人魚”個人文學網(wǎng)站于去年底被刪除。該聯(lián)盟在宣言中表示,該聯(lián)盟是為了反對百度公司對廣大站長和網(wǎng)友不公正而成立的同盟組織,本同盟成立的目的是“為了收集百度公司對待站長和網(wǎng)友不公正的證據(jù),促進監(jiān)督百度公司走向公正”。但是,該聯(lián)盟成立一個半月以來,至今沒有發(fā)現(xiàn)該聯(lián)盟握有多少百度“對待站長和網(wǎng)友不公正的證據(jù)”。
而百度對待“反百度聯(lián)盟”的態(tài)度是“兼容”,直接通過“百 度一下”,即可獲得該聯(lián)盟的所有信息。但據(jù)稱,百度對此聯(lián)盟相當重視,從該網(wǎng)站一出現(xiàn),便組織專業(yè)人員對聯(lián)盟成員及聯(lián)盟成立原因進行調查,最終得出結論,從已明示網(wǎng)站站名的該聯(lián)盟成員來看,被百度屏蔽的網(wǎng)站無一例外都曾違反了百度的搜索引擎反垃圾網(wǎng)頁規(guī)則。
業(yè)內(nèi)專業(yè)人士認為,成立反百度聯(lián)盟是一件不正常的事情,這就像成立“假冒偽劣俱樂部”或“垃圾郵件聯(lián)盟”一樣,是不為一個社會所容的。
目前,搜索引擎領域的垃圾網(wǎng)站,已到了泛濫成災的地步。其發(fā)展趨勢完全等同于當年垃圾郵件,已像蝗災一樣,不僅危害搜索引擎,也直接危害互聯(lián)網(wǎng)。
據(jù)百度PM總監(jiān)俞軍介紹,與作弊網(wǎng)站的斗爭,將是互聯(lián)網(wǎng)上一個長久的過程,目前雙方的博弈與全球反病毒在技術與形式方面已沒有什么區(qū)別。
俞軍認為,從某種角度來說,幾乎是垃圾網(wǎng)站在推動著搜索引擎的進步。
在搜索引擎發(fā)展初期,搜索引擎的專業(yè)人員一直在思考,如何讓搜索者以最快速度搜索到最有價值、最為相關的結果,因而發(fā)明了meta tag——這是一種“超文本標志語言”,在互聯(lián)網(wǎng)體系中的作用是表明該網(wǎng)頁或網(wǎng)站的屬性。
起初,meta tag是很好用的。那時候,誠實的web站點管理員(webmaster)們?nèi)鐚嵉靥顚懢W(wǎng)站摘要,如實地列出跟他的網(wǎng)站最相關的關鍵字,搜索引擎?zhèn)冏ト?、索引、檢索這些誠實的meta tag,并作為搜索結果排序的重要依據(jù)。為了有效提高搜索結果,有專門的網(wǎng)絡人員研究SEO(搜索引擎優(yōu)化),專門為網(wǎng)站提高搜索結果而進行優(yōu)化。
然而,人們越來越發(fā)現(xiàn),搜索結果的排序,是一個巨大的利益空間——如果誰的網(wǎng)站或網(wǎng)面能夠排在搜索結果的前列,誰就有可能獲得最大的“廣而告之”效益而產(chǎn)生巨大利益。因而,許多“覺醒”過來的網(wǎng)站為了追逐這一利益空間而開始追求頁面瀏覽量(pageview)——打開一個頁面,卻可包含數(shù)個頁面元素,從而獲得眾多的點擊數(shù)(Hits)——點擊數(shù)則是“注意力經(jīng)濟”的一個重要指標。
而到了這個地步,一度推動技術進步的“搜索引擎優(yōu)化”(SEO)已異化成“搜索引擎作弊工具”(英文簡稱“SEO SPAM”)。
從Google的“芙蓉姐姐”的搜索結果便可看到這一典型的作弊:在meta tag中塞進成堆的關鍵字,或塞進跟自己的網(wǎng)站內(nèi)容無關,但是非常流行的關鍵字——但當你打開它時,它又迅速地跳轉入作弊網(wǎng)站設定的網(wǎng)頁頁面中。
反spam與spam間的較量
搜索引擎第一輪反擊是,在排序時更多地依賴網(wǎng)頁正文而不是meta tag。但spam們以進為退,在正文中大量使用與網(wǎng)頁背景相同顏色的關鍵字,在圖片注釋文字中塞進關鍵字,在網(wǎng)頁代碼加入“看不見的注釋”。搜索引擎又開始第二輪反擊,它們找到了有效的方法來過濾這些看不見的文字。
搜索引擎的spider(蜘蛛)在訪問任何網(wǎng)站時都會自報身份,并且查閱網(wǎng)站的訪問規(guī)定,按照各網(wǎng)站的規(guī)矩來辦事。于是,SEO隨之制作兩個網(wǎng)站,一個專供網(wǎng)友訪問,一個專供搜索引擎訪問,“各取所需”,這種方法叫做cloaking(外套)。
在國外,其實早在上世紀SEO SPAM便已成大熱門。據(jù)1998年的一次調查,在主要的搜索引擎上搜索當時的熱門詞匯“Monica Lewinsky”(莫妮卡-萊溫斯基),各搜索引擎首頁居然有40%的搜索結果是垃圾網(wǎng)站。
搜索引擎只能去尋找新的相關性排序依據(jù),或作弊者不能控制的排序依據(jù),即到網(wǎng)站以外去尋找排序的依據(jù)。于是,出現(xiàn)了超鏈分析,出現(xiàn)了Pagerank。超鏈分析的原理即是看網(wǎng)頁間的同類鏈接點作為重要依據(jù),此后,又根據(jù)各網(wǎng)站的權重等來綜合分析等。這樣,gov(政府網(wǎng)站)和edu(教育網(wǎng)站)通常被賦予較高的排名,來自gov和edu的超鏈也有更高的價值。
但spam們又據(jù)此做大量的網(wǎng)站,準備大量的鏈接,哪個客戶出錢,所有的網(wǎng)頁都給它一個鏈接。這種SEO方法被稱為linkfarm。而反spam的做法就是憑發(fā)現(xiàn)的linkfarm而認定此即為作弊網(wǎng)站。
據(jù)某論壇上某個站長透露,目前,在中國已經(jīng)形成了一個巨大SEO SPAM市場,據(jù)反spam專家王某的估計,中國以此為生的人數(shù)大約在數(shù)十萬,其網(wǎng)站更是高達數(shù)百萬計。在互聯(lián)網(wǎng)上,有眾多SEO網(wǎng)站,它們打著各種旗號來“指導”人們作弊,并在上面談心得體會。
這些SEO SPAM們“賴以生存”的方式主要是以下兩種:1.利用搜索引擎引來網(wǎng)站流量帶動的廣告收入;2.販賣通過對搜索引擎作弊獲得的較高的關鍵詞排名。網(wǎng)站流量以獨立IP計算,根據(jù)站長的透露,自己每日5000個獨立IP的訪問量,僅加入了電影寬帶等3家的廣告聯(lián)盟,月入已達1300元左右。而一個被百度收錄2萬左右網(wǎng)頁的做流量的網(wǎng)站,每日IP很快就能漲到4萬元。
前赴后繼的spam
SEO SPAM的破壞性是相當巨大的,它不僅直接破壞了每日數(shù)億計的用戶搜索體驗——這是搜索引擎網(wǎng)站賴以生存的關鍵所在,同時也破壞了搜索引擎獲得收益的主要來源——競價排名以及相關廣告。
據(jù)有關統(tǒng)計資料,在所有網(wǎng)頁中,摒除無效網(wǎng)頁,作弊網(wǎng)頁占到整個網(wǎng)頁的10%;在某些熱門關鍵詞的搜索中,其前50篇網(wǎng)頁,垃圾網(wǎng)站的網(wǎng)頁所占比例甚至可以高達80%以上。
在中國,Google一直以謙謙君子的形象示人,但它也有發(fā)怒的時候。
2005年3月26日凌晨4點,忍無可忍的Google突然發(fā)力,將廣大批spam站點清除。Google的頁面恢復了以前的干凈。
但事隔不到4個月,垃圾網(wǎng)站的網(wǎng)頁又如潮水般涌來。據(jù)來自Google的內(nèi)部消息,Google也一直在致力于反spam,但建立一個完整的反垃圾網(wǎng)站系統(tǒng)是一個漫長的過程,在中國,反垃圾網(wǎng)站的人才更是奇貨可居。在采訪百度時,百度即不愿披露反垃圾網(wǎng)站專家的姓名,“因為這是百度最為寶貴的人才之一”。
據(jù)王某透露,其實在搜索引擎與垃圾網(wǎng)站的長期斗爭中,搜索引擎總是處于守勢。這不僅因為搜索引擎公司真正考慮搜索結果相關性和排序的只有幾個人,而互聯(lián)網(wǎng)上整天琢磨怎么對付搜索引擎的有幾十萬網(wǎng)站管理員,更重要的是,制造一個或幾十個甚至幾百個作弊網(wǎng)頁,只要將一個目標網(wǎng)頁稍作改動即可實現(xiàn),并可以不斷進行類似復制,而搜索引擎甄別、刪除卻需要相當?shù)臅r間,這種“以一當百”,以一個網(wǎng)站對付數(shù)以萬計作弊網(wǎng)站的工作,對搜索引擎而言,是一個巨大的人力資源投入與成本投入。
目前,垃圾網(wǎng)站的新攻擊方向是博客網(wǎng)站。在國內(nèi)的各大博客,目前均已苦不堪言,spam如蝗蟲般涌來,流量太大會導致網(wǎng)站通道堵塞而無法訪問。
這一斗爭過程,已完全類同于互聯(lián)網(wǎng)的病毒與反病毒,所不同的是,制造病毒的成本有時會更高些——需要很高的技術門檻,而制造垃圾網(wǎng)站的門檻卻相當?shù)?,且制作方便?/p>
因此,作為搜索引擎,對待垃圾網(wǎng)站的態(tài)度是高度地一致:永久刪除。
但在搜索中,永遠會有垃圾網(wǎng)站的存在,因為它每時每刻都在誕生。由于垃圾網(wǎng)站的成本與收入間的巨大差異,SEO SPAM們還會勇往直前,前赴后繼。而到目前為止,政府以及相關部門還沒有對這種互聯(lián)網(wǎng)上的“假冒偽劣”制定相應的法律制度來制約。但相信這一天一定會到來。