nternet Archive(IA)(http://www./) 這個站點大家應(yīng)該都不陌生。IA 旨在建立所有互聯(lián)網(wǎng)站點的"檔案庫",如果說 Google 是互聯(lián)網(wǎng)的數(shù)據(jù)庫的話,那么 IA 就是互聯(lián)網(wǎng)的數(shù)據(jù)倉庫了,定期對每個 Web 頁面保存快照,數(shù)據(jù)量之大可想而知。
先看看 IA 每天需要面對的處理能力: 存儲超過 850 億個 Web 頁面; 每天大約 600 萬次的下載; Wayback Machine 收到大約 1000 萬次點擊,每秒鐘要處理 100-200 個點擊; 每天10萬次左右通過 URL 查找; 每天 400 萬次返回請求; 存儲的內(nèi)容包括本文、音頻、視頻...等各種 Web 可見的格式。