據(jù)說這是一個(gè)“大數(shù)據(jù)”的時(shí)代,到底有多大呢?
Facebook最近在總部的一次會(huì)議中披露的一組數(shù)據(jù)可以給大家一個(gè)初步的印象,來一起看看每天Facebook上都得處理多少數(shù)據(jù)吧:
25億Facebook上分享的內(nèi)容條數(shù)
27億“贊”的數(shù)量,
3億上傳照片數(shù)
500+TB新產(chǎn)生的數(shù)據(jù)
105TB每半小時(shí)通過Hive掃描的數(shù)據(jù)
100+PB(1PB=1024TB) 單個(gè)HDFS(分布式文件系統(tǒng))集群中的磁盤容量
FB的工程總監(jiān)Parikh解釋了這些數(shù)據(jù)對于Facebook的意義:“大數(shù)據(jù)的意義在于真正對你的生意有內(nèi)在的洞見。如果你不能好好利用自己收集到的數(shù)據(jù),那你只是空有一堆數(shù)據(jù)而已,不叫大數(shù)據(jù)?!?/p>
目 前Facebook有著世界最大的分布式文件系統(tǒng),單個(gè)集群中的數(shù)據(jù)存儲(chǔ)量就超過100PB。在Facebook內(nèi)部,從一開始就沒有在不同的部門之間 (比如廣告部和用戶支持部)設(shè)立障礙或者分割數(shù)據(jù)。這樣一來產(chǎn)品開發(fā)者就可以跨部門獲得數(shù)據(jù),實(shí)時(shí)知曉最近的改動(dòng)是否增加了用戶瀏覽時(shí)間或者促成了更多的 廣告點(diǎn)擊。
作為普通用戶,大家也許會(huì)對如此海量的數(shù)據(jù)心存不安,擔(dān)心自己的數(shù)據(jù)被隨意瀏覽。對此Facebook表示有各種防范措施來防止 此類事情的發(fā)生,比如所有的數(shù)據(jù)讀取記錄都會(huì)被存檔,哪些人看過哪些數(shù)據(jù)都是記錄在案的;如果有員工越線,會(huì)被直接開除。Parikh著重強(qiáng)調(diào):“在這件 事上我們的政策是零容忍?!?/p>