Hadoop足夠快嗎?美國(guó)加州大學(xué)伯克利分校的AMPLab基于Hadoop的核心組件開發(fā)出一個(gè)更快的版本Tachyon。AMPLab從底層重建了Hadoop平臺(tái),“沒(méi)有最快,只有更快”。
AMPLab的最新目標(biāo)就是Hadoop分布式文件系統(tǒng)(HDFS),不過(guò)HDFS在可用性和速度方面一直受人詬病,所以AMPLab創(chuàng)建了Tachyon( 在High Scalability上非常奪目,引起了Derrick Harris的注意),“Tachyon是一個(gè)高容錯(cuò)的分布式文件系統(tǒng),允許文件以內(nèi)存的速度在集群框架中進(jìn)行可靠的共享,類似Spark和 MapReduce。通過(guò)利用lineage信息,積極地使用內(nèi)存,Tachyon的吞吐量要比HDFS高300多倍。Tachyon都是在內(nèi)存中處理緩存文件,并且讓不同的 Jobs/Queries以及框架都能內(nèi)存的速度來(lái)訪問(wèn)緩存文件”。
當(dāng)然,AMPLab并不是第一個(gè)對(duì)HDFS提出質(zhì)疑的組織,同時(shí)也有很多商業(yè)版本可供選擇,像Quantcast就自己開發(fā)了開源文件系統(tǒng),聲稱其在運(yùn)行大規(guī)模文件系統(tǒng)時(shí)速度更快、更高效。
AMPLab的其他項(xiàng)目包括PIQL,類似于一種基于鍵/值存儲(chǔ)的SQL查詢語(yǔ)言;MLBase,基于分布式系統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng);Akaros,一個(gè)多核和大型SMP系統(tǒng)的操作系統(tǒng);Sparrow,一個(gè)低延遲計(jì)算集群調(diào)度系統(tǒng)。(文/王鵬,審校/仲浩)
聯(lián)系客服