国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
用robots.txt探索Google Baidu隱藏的秘密
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。但是,如果網(wǎng)站的某些信息不想被別人搜索到,可以創(chuàng)建一個純文本文件robots.txt,放在網(wǎng)站根目錄下。這樣,搜索機(jī)器人會根據(jù)這個文件的內(nèi)容,來確定哪些是允許搜尋的,哪些是不想被看到的。

 

  有趣的是,這種特性往往用來作為參考資料,猜測網(wǎng)站又有什么新動向上馬,而不想讓別人知道。例如通過分析Google的robots.txt變化來預(yù)測Google將要推出何種服務(wù)。

  有興趣的讀者可以看一下Google的robots.txt文件,注意到前幾行就有“Disallow: /search”,而結(jié)尾新加上了“Disallow: /base/s2”。

  現(xiàn)在來做個測試,按照規(guī)則它所隱藏的地址是http://www.Google.com/base/s2,打開之后發(fā)現(xiàn)Google給出了一個錯誤提示:“服務(wù)器遇到一個暫時性問題不能響應(yīng)您的請求,請30秒后再試。”

圖1

  但是把s2最后的數(shù)字換成1、3或者別的什么數(shù)字的時候,錯誤提示又是另一個樣子:“我們不知道您為什么要訪問一個不存在的頁面。”

圖2

  很顯然“/base/s2”是一個特殊的頁面,鑒于Google曾表示過今年的主要焦點是搜索引擎,我們推測一下,所謂的“s2”是否表示“search2”,也就是傳說中的第二代搜索引擎?
出于好奇,嘗試了一下百度的robots.txt,比密密麻麻的Google簡潔了許多,只有短短幾行:

  User-agent: Baiduspider
  Disallow: /baidu

  User-agent: *
  Disallow: /shifen/dqzd.html

  第一段就不用說了,第二段也遇到了同樣打不開的錯誤,不過,按以前的資料來看,這是百度曾經(jīng)的競價排名的區(qū)域核心代理一覽表以及地區(qū)總代理一覽表,出于某些可以理解的原因做了模糊處理。

圖3

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
你所不知道的robots.txt秘密——史上最全的robots優(yōu)化設(shè)置指南 | 互聯(lián)網(wǎng)創(chuàng)業(yè)...
如何設(shè)置wordpress robots.txt
Robots.txt怎么寫?
robots.txt寫法,規(guī)范,作用
搜索引擎原理-網(wǎng)絡(luò)蜘蛛和ROBOTS
如何使用robots.txt防止搜索引擎抓取頁面
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服