Google和Baidu收錄網(wǎng)站頁面的標(biāo)準(zhǔn)是不同的。
為了驗(yàn)證這一點(diǎn),我做一個(gè)實(shí)驗(yàn):我申請(qǐng)了一個(gè)新域名www.moon-blog.com,不再其他任何網(wǎng)站做鏈接,而直接往百度和Google搜索引擎的提交頁面進(jìn)行提交。一個(gè)月過去了,百度收錄的網(wǎng)頁是24,900篇,Google收錄的網(wǎng)頁是0,這證實(shí)了我以前的猜測(cè)。
這說明了什么呢?說明百度比Google好嗎?絕對(duì)不是的。因?yàn)锽aidu和Google收錄頁面的標(biāo)準(zhǔn)是完全不同的。
Google是按照網(wǎng)頁級(jí)別來收錄的,只要你有一定的網(wǎng)頁級(jí)別,Google會(huì)快速收錄的,而沒有網(wǎng)頁級(jí)別的網(wǎng)站,Google則堅(jiān)決不去收錄。Baidu則很夸張,采用的是來者不拒,多多益善的原則,無休止的進(jìn)行收錄。Baidu的這種不按網(wǎng)頁級(jí)別的收錄方式其實(shí)有很大的惡果,最主要的惡果是造成大量的垃圾網(wǎng)站流行,因?yàn)橹灰鲆粋€(gè)垃圾站,Baidu就會(huì)立刻收錄(25000頁以內(nèi)),這等于變相的鼓勵(lì)大家去做垃圾站,去盲目采集。當(dāng)垃圾站橫行的時(shí)候,Baidu再通過人工的方式封站,對(duì)于大流量的網(wǎng)站再威脅其辦理百度競價(jià)排名。因此Baidu和大量的個(gè)人站長都有一段恩怨。
這兩種收錄方式哪種更好呢?我個(gè)人認(rèn)為Google的這種收錄方式是比較科學(xué)的。因?yàn)榛ヂ?lián)網(wǎng)上的頁面是個(gè)天文數(shù)字,收錄應(yīng)該是有選擇的收錄,好的網(wǎng)站則多收錄,新站則應(yīng)該少收錄,等其慢慢知名了以后再多收錄,這樣也提高了效率,讓用戶搜索到更好的頁面而不是更多的頁面。而且Google的爬蟲占用服務(wù)器的資源較少,通常是先用head來查看網(wǎng)頁是否更新,如果更新了再抓取整個(gè)頁面,這種方法耗費(fèi)流量較少。而百度則不管三七二十一上來就抓整個(gè)站,而且其爬蟲數(shù)量非常龐大,對(duì)于頁面較多的網(wǎng)站通常會(huì)耗費(fèi)驚人的流量,并且常常造成惡劣的后果。例如我以前的月光軟件站有一段時(shí)間CPU耗費(fèi)極大,IIS連接數(shù)也逼近1000,每天流量高達(dá)10多G,電信機(jī)房總威脅要限制我的帶寬,我以前一直以為是被別人DDOS攻擊,但是我購買了新的服務(wù)器,換了幾個(gè)IP,甚至更換了幾個(gè)機(jī)房,依然無法解決問題,不得已只好將服務(wù)器托管到外地流量充裕的機(jī)房,但CPU負(fù)荷還總是居高不下。直到我網(wǎng)站被百度封了后,百度爬蟲再也不再光故,這時(shí)我才驚奇地發(fā)現(xiàn),我的CPU和流量終于處于一種穩(wěn)定合理的狀態(tài)了,到目前為之,我站每天流量也有十多G,但CPU一直都沒有超過5%,服務(wù)器也很少出現(xiàn)死機(jī)和大量IIS連接的狀況,因此我開始懷疑,以前的所謂被DDOS攻擊,其實(shí)只是大量的百度爬蟲在抓取我的網(wǎng)站而已,由于其爬蟲數(shù)量龐大,才引起我服務(wù)器的超負(fù)荷運(yùn)轉(zhuǎn)以至瀕于崩潰。
當(dāng)然,百度這種“貪婪”爬蟲抓取方法,雖然會(huì)讓用戶能夠在百度搜索出一些Google里搜索不到的頁面,但這實(shí)在是太損人利己了。其帶給網(wǎng)站站長的則是大量的負(fù)面效果:服務(wù)器和帶寬資源過渡消耗,垃圾站被變相鼓勵(lì)了,原創(chuàng)的有特色的網(wǎng)站則被邊緣化。
因此,中國的網(wǎng)民也出現(xiàn)了很奇怪的現(xiàn)象:大量的新網(wǎng)民和菜鳥人士喜歡用百度搜索,因?yàn)榘俣韧阉鞯胶芏鄤e人沒有的頁面,而專業(yè)人員和老鳥則更喜歡用Google,個(gè)人站長則普遍和百度有“個(gè)人恩怨”。因此百度在業(yè)界的Blog以及社區(qū)中口碑都不太好,但是依舊還是有大量流量。
聯(lián)系客服