国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
我們索引這么數(shù)據(jù)做什么用? - 關(guān)于RSS搜索引擎發(fā)展的思考

我們索引這么數(shù)據(jù)做什么用? - 關(guān)于RSS搜索引擎發(fā)展的思考 (2)

July 3rd, 2005

FeedSearch很快就索引了上百萬的RSS文章數(shù)據(jù),但很快我就困惑了。 索引了這么多的數(shù)據(jù)做什么用呢?從每天的access_log上看,F(xiàn)eedSearch每天是有一定流量的搜索,尤其在你知道自己想要讀哪方面的Blog文章,而又忘了地址的時候,這非常有用!在FeedSearch上輸入殘存記憶中的關(guān)鍵字,Click! 馬上FeedSearch就會為你找到你想要的。

另外,我還看到一些朋友利用RSS閱讀器來訂閱FeedSearch的搜索結(jié)果,比如有人對SNS感興趣,可以在FeedSearch上搜索出結(jié)果,同時FeedSearch也提供了搜索結(jié)果的RSS輸出,這樣,利用FeedSearch的搜索功能 + RSS閱讀器就可以訂閱類似Google新聞這樣的Blog新鮮信息了。

但我覺得這都不夠。因為RSS文章更新非??焖?,也許10天前的文章就已經(jīng)被淹沒在長長的搜索結(jié)果中了。而10天前的信息并不一定就沒有今天的信息有價值。如何發(fā)現(xiàn)這些浩瀚的信息中的精華并整理,重新展現(xiàn)給用戶呢?

我做了兩個方面的嘗試:

1、FeedSearch精華版

將每日精華的文章提取出來,集中展現(xiàn)出來供用戶瀏覽。

2、RSSOnline在線瀏覽

RSS搜索引擎是對RSS信息進行整理和利用的一種方式,其它應該還有很多種方式?,F(xiàn)在涌現(xiàn)出的很多新興的模式都是對RSS信息不同方面的信息重新組織而已。和信息索引相對,另外一個更加重要的就是信息瀏覽。所以RSSOnline作為FeedSearch的一個補充就這樣誕生了。

雖然RSSOnline是我對RSS搜索的一個補充嘗試,但從實際運行的情況看,RSSOnline要比FeedSearch訪問的人更多。其實事實也應該是這樣。因為漫無目的瀏覽的人要遠比自己知道要些什么的人要多。網(wǎng)絡并不僅僅是一個查閱信息的工具,網(wǎng)絡更是一個精神娛樂、休閑的地方。

早在2005-1-30,大郎就在他的“網(wǎng)絡營銷觀察”對FeedSearch和RSSOnline的模式進行了分析。文章鏈接:RSS搜索引擎如何發(fā)展?[續(xù)]從feedsearch.net和rssonline.net說起

我們索引這么數(shù)據(jù)做什么用?- 關(guān)于RSS搜索引擎發(fā)展的思考 (1)

June 28th, 2005

現(xiàn)在的RSS搜索引擎已經(jīng)很多了,國內(nèi)知名的有GrassLand、8Fang、FeedSS等,并且還有不斷涌現(xiàn)之勢。非常有意思的是,幾乎和在我迸發(fā)靈感的那個早晨同時,8fang和FeedSS同時蹦了出來,哪個推出的更早,現(xiàn)在也無從考證。但zheng在他的Blog中說“好像約好了似的”,Zheng一直致力于Blog on Blog,相信他有這種感覺,那么應該也和事實查不多少吧。

曾經(jīng),幾家RSS搜索引擎都在迅速擴充Feeds數(shù)量,F(xiàn)eedSearch在剛剛推出時使用爬蟲搜索了幾個大的BSP,抓取了大約3000個Feeds,最高時也僅收錄了10000個Feeds。經(jīng)過短暫的擴充期,其后不但沒有再繼續(xù)進行大規(guī)模的自動擴充,而是完全依靠Blogger自己的Feed提交,還對一些沉默F(xiàn)eeds進行了多次清理?,F(xiàn)在基本穩(wěn)定在5000個Feeds左右。有如下幾方面的考慮:

  1. FeedSearch的機器資源有限,我們不可能像Feedster哪樣把Feeds數(shù)量增加到百萬、千萬級
  2. 即便僅抓取5000個Feeds左右,當前抓到的文章就輕松突破百萬篇,并且由于Feed更新很快,抓取頻率也很快。搜索時很快幾天前抓取到的數(shù)據(jù)就到了數(shù)頁之后,變成了沉默信息。而新的信息未必就比老的信息有價值。如果不能找出一種信息的自動評價機制,再多的信息又有什么用處?不幸的是,現(xiàn)在的大多RSS搜索引擎都沒有類似Google的PageRank的機制來對結(jié)果進行評判和優(yōu)化。
  3. 如果一個Blogger愿意花費幾秒鐘甚至幾分鐘在FeedSearch上登記,那么,有理由相信這個Blogger對自己的Feed還是比較重視的,我姑且武斷地認為這比使用爬蟲抓過來的成千上萬的Feed有價值。

所以FeedSearch自推出后經(jīng)過短暫的大規(guī)模自動收錄外,再沒有進行過大規(guī)模的擴充。令人欣慰的是,現(xiàn)在FeedSearch每天都有幾個Blogger來登記自己的Feed。雖然這是一個偷懶的辦法,但這也是FeedSearch的搜索結(jié)果可能比其它RSS搜索引擎更加有價值的原因。

姑且如此吧,在找到可以應用于Blog文章評價的類似PageRank技術(shù)之前,暫時我還沒有對Feeds進行大規(guī)模的擴充的計劃。

關(guān)于FeedSearch.net的閑話

June 28th, 2005

FeedSearch是我半年前一時之興,做起來的。當時國內(nèi)的RSS搜索引擎還沒有現(xiàn)在這么多,國外的我僅使用過Feedster,但當時Feedster收錄的中文的Blog資源還很少,所以,就在想為什么不自己做一個?

RSS搜索引擎遠比網(wǎng)頁搜索引擎來得簡單,因為RSS本身是格式化的數(shù)據(jù),而網(wǎng)頁則完全是側(cè)重于展現(xiàn)。想從網(wǎng)頁上分析出一些數(shù)據(jù)遠比想像的要困難。前段時間還有一個朋友問我如何做一個工具去抓取網(wǎng)頁上的公司的聯(lián)系方式信息,呵呵,我也沒有好的建議送給她。其實她想要做的是人工智能,想像一個爬蟲爬過格式千差萬別的網(wǎng)頁,并且能夠分辨出哪些信息是聯(lián)系方式信息。而RSS則完全不同,所以FeedSearch僅僅花費了我一個周末的時間就上線了。這當然要感謝車東的開源的WebLucene的幫助,WebLucene本身搜索部分已經(jīng)做的相當不錯了,這個我可以直接拿來使用,而Weblucene是需要周期性地從數(shù)據(jù)庫的數(shù)據(jù)導出到一個XML文件,再從這個無比巨大的XML中讀取數(shù)據(jù)進行索引。這一點我沒有采用。因為我需要FeedSearch是實時的,或者基本是實時的。所以,我自己編寫了RSS的解析器、Timer,并根據(jù)對不同的Feed的活躍度的評價更新頻率從5分鐘到72小時不等。使FeedSearch有了比較好的實時性。

更好的實時性,這是RSS搜索引擎相比較傳統(tǒng)的Web搜索的優(yōu)勢。當然,RSS搜索引擎還可以對搜索結(jié)果進行更好的規(guī)整并獲取更加準確的其它有用信息,并重新輸出。這也是傳統(tǒng)Web搜索引擎所沒有的功能。

雖然RSS搜索永遠不會達到像Web搜索那樣的市場和普及,但他終究有自己存在的價值。大者恒大固然不錯,但小者并不一定就因此失去意義?;ヂ?lián)網(wǎng)的細分化趨勢已經(jīng)非常明顯,這也是一個不爭的事實。

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
google reader一鍵訂閱
IT偏見錄 | 陳佼的blog: 我為什么要拋棄RSS閱讀工具
安裝wordpress之后應該做的25件事(2)
Doug Cutting 訪談錄 -- 關(guān)于搜索引擎的開發(fā) - Dedian - Blog...
Wordpress針對百度的優(yōu)化方案
如何打造自己的RSS feed
更多類似文章 >>
生活服務
分享 收藏 導長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服