Blog搜索在應(yīng)用層與傳統(tǒng)的baidu為代表的圖書館搜索有所不同。后者以精準(zhǔn)資料獲取為目標(biāo)。根據(jù)blog posts的內(nèi)容與結(jié)構(gòu)特征,blog搜索更側(cè)重信息的時(shí)效特征,以發(fā)掘群體正在談?wù)摰?、關(guān)注的主題為手段,力圖反映社會(huì)生活正在發(fā)生的變化與趨勢(shì)。
目前blog搜索可分為四類,一、以國(guó)內(nèi)的8fang、feedsearch、奇波搜索 為代表,手工設(shè)定基于BSP列表的搜索范圍,輔助以用戶提交RSS或blog地址,除體現(xiàn)時(shí)效與相關(guān)度外在搜索結(jié)果上與百度等圖書館搜索并無實(shí)質(zhì)差別。 二、利用搜索技術(shù)搭建的內(nèi)容門戶,例如:bolaa.com 解決blog信息分散,抽取精華信息滿足漫無目的之讀者瀏覽習(xí)慣。三、對(duì)posts的內(nèi)容與結(jié)構(gòu)進(jìn)行深入分析,以國(guó)外的Technorati和 IceRocket為代表。通過對(duì)links、Tag的分析,將blogging作為群體思想、行為的風(fēng)向標(biāo),反映現(xiàn)實(shí)社會(huì)的變化趨勢(shì)。四、日?qǐng)?bào)模式,以megite,memeorandum為代表,這是相關(guān)性搜索引擎,對(duì)特定的blog列表進(jìn)行實(shí)時(shí)監(jiān)測(cè),通過追蹤posts內(nèi)的鏈接,挖掘blogger之間的交流脈絡(luò),并以對(duì)話的形式呈現(xiàn)。
絕大部分blog分散在BSP中,大量相同主題的個(gè)人posts沒能以集中的方式形成社會(huì)性的影響力。blogging作為個(gè)體行為不以媒體為目的。但聚合后的blogging具有社會(huì)化的媒體效應(yīng),這與社會(huì)化網(wǎng)摘的實(shí)現(xiàn)過程有相似之處。 基于搜索技術(shù)搭建博客社區(qū)是解決問題的方法之一,并為blogger在加強(qiáng)與讀者間互動(dòng)、形成廣泛人際關(guān)系圈等方面提供幫助。
而從另一角度觀察,blog搜索是以用戶產(chǎn)生的內(nèi)容為目標(biāo)的眾多垂直搜索技術(shù)應(yīng)用的分支。blog、社會(huì)化相冊(cè)(flickr)、大眾點(diǎn)評(píng)、分類廣告等是用戶產(chǎn)生內(nèi)容的代
表。在另外一類服務(wù)中,用戶是以收藏、投票等“行為方式”作為表達(dá)和傳遞個(gè)人意愿的工具。在眾多用戶信息搜索領(lǐng)域尤以blog搜索與分類廣告搜索發(fā)展最為迅速。
無論是blog搜索,還是分類廣告搜索,亦或是其他什么搜索。問題最終要回歸到搜索技術(shù)與用戶產(chǎn)生內(nèi)容的結(jié)合到底能夠滿足人們的哪些需求和為滿足這些需求而應(yīng)該提供哪些服務(wù)。
BLOG
blog興起與RSS廣泛應(yīng)用使互聯(lián)網(wǎng)的信息發(fā)布源由企業(yè)、組織、機(jī)構(gòu)延伸至個(gè)人。搜狐blog調(diào)查顯示,目前國(guó)內(nèi)blog寫作內(nèi)容以情感、生活為主。 IT類blog表現(xiàn)活躍。blogger從滿足個(gè)人需求、表達(dá)自我出發(fā),通過blog傳遞個(gè)人的觀點(diǎn),創(chuàng)作過程充滿著個(gè)性與率真,作者重視自己獨(dú)到的原創(chuàng) 見解,卻不必追去內(nèi)容的全面或是權(quán)威,大家通過blog寫作進(jìn)行著對(duì)話與交流。
大部分blogger并不想通過寫blog使自己成名人,但更多的關(guān)注與交流是能夠促進(jìn)作者的原創(chuàng)。
用戶內(nèi)容產(chǎn)生于以交流為導(dǎo)向的創(chuàng)作過程中,這有可能聚合出社會(huì)化效應(yīng),這與傳統(tǒng)門戶所提供的內(nèi)容具有明顯區(qū)別。用戶產(chǎn)生的內(nèi)容是自給自足,是人們目的與需 求的主動(dòng)描述,獲致用戶需求與滿足用戶需求同步發(fā)生,這比傳統(tǒng)門戶在觀測(cè)用戶需求后,進(jìn)而提供內(nèi)容滿足需求更具優(yōu)勢(shì)。
blog同論壇一樣蘊(yùn)藏著數(shù)量巨大、分散的優(yōu)質(zhì)內(nèi)容,高效集中的閱讀方式能夠幫助用戶便捷的獲取信息,利用內(nèi)容吸引流量這是“入口”的作用。
內(nèi)容廣泛 Blog所記錄的內(nèi)容廣泛,bolaa擁有16個(gè)大類(社會(huì) 軍事 科技 商業(yè) 思想 情感 生活 文化 圖片 互聯(lián)網(wǎng) 旅游 體育 教育 娛樂 隨筆 播客),每個(gè)大類還包含若干小類。幾乎涵蓋了傳統(tǒng)新聞網(wǎng)站的所有信息類別。
信息量巨大 百度的調(diào)查結(jié)果顯示,截止到2005年11月底,中文Blog站點(diǎn)達(dá)到3682萬,Blogger達(dá)到1600萬。若按2005年六-七月間搜狐blog調(diào)查結(jié)果顯示,blogger一周更新3個(gè)以上超過60%計(jì)算,每日產(chǎn)生不低于400萬posts。
心理特征 blogger的心理過程包含創(chuàng)作積累的成就感與讀者增長(zhǎng)的榮譽(yù)感。對(duì)心理滿足的追求使blog有迎合既定讀者群的趨向(轉(zhuǎn)貼盛行)。對(duì)個(gè)人blog推廣同樣存在需求。
圈子與群組 溶入了作者感受、 觀點(diǎn)、評(píng)價(jià)的blog寫作具有明顯的對(duì)話特征。在一個(gè)具有相同主題互為欣賞的blogger群體中彼此分享,引發(fā)共鳴者進(jìn)行新的創(chuàng)作,社 會(huì)化成果產(chǎn)生于信息在這些關(guān)注相同主題的blogger群體中的快速傳遞、萃取與衍生創(chuàng)作中,但一個(gè)主題脈絡(luò)下的內(nèi)容卻分散在各自作者的blog上。相關(guān) 主題的討論也會(huì)成為干擾,普通讀者缺少有效的工具梳理同一主題的交流脈絡(luò)。blog圈是隱性的,而作者只能看到以自己為圓心的一對(duì)多的關(guān)系,卻無法全面掌 握多對(duì)多的網(wǎng)狀的blogger關(guān)系網(wǎng)。
blog=個(gè)人網(wǎng)絡(luò)標(biāo)識(shí) MSN Space 以模塊化的方式提供相冊(cè)、文章列表、音樂列表等,blog具有完整的個(gè)性表現(xiàn)能力。
blogger=reader blogger參與信息傳遞,為創(chuàng)作積累而進(jìn)行主動(dòng)閱讀。blogger通過文章彼此交流。
link是blog的靈魂 blogger在posts中廣泛應(yīng)用超鏈接,超鏈接串連分散的posts形成不易察覺的脈絡(luò),跟蹤反向鏈接幫助blogger發(fā)現(xiàn)與自己有關(guān)的blogs。構(gòu)成posts評(píng)價(jià)體系基礎(chǔ)。Technorati計(jì)算的方式被稱為Net Attention,就是看有多少人鏈接了某用戶的blog。
blog系統(tǒng) 以MSN Space 為例,包含的模塊有:1、網(wǎng)絡(luò)日志;2、照片;3、列表;4、音樂;5、檔案文件;可能包含的內(nèi)容有:1、個(gè)人描述;2、日記、評(píng)論;3、存檔、分類;4、回復(fù)、trackback;5、好友列表;6、相冊(cè);7、mediaplay 播放列表;8、網(wǎng)摘收藏;9、文章轉(zhuǎn)貼;10、Podcast;11、其他聚合內(nèi)容。
主文章列表自動(dòng)生成RSS,在其他blog系統(tǒng)中還會(huì)為分類文章、讀者回復(fù)提供RSS輸出,使讀者能夠以更細(xì)化的方式訂閱內(nèi)容。訂閱某用戶的RSS通常是指針對(duì)該RSS完成的。所以在某種程度上,blogger用戶與缺省的RSS之間形成一一對(duì)應(yīng)的關(guān)系,在第三方系統(tǒng)中例如:gougou,feedburner 中將用戶之間的訂閱關(guān)系作為人與人之間的社會(huì)關(guān)系描述出來。
blogroll是blogs提要的集合,大多數(shù)blog系統(tǒng)都會(huì)提供blogroll。引導(dǎo)讀者到達(dá)主題相近、關(guān)系密切或是經(jīng)blogger篩選的其他 blogs。blogroll方便網(wǎng)絡(luò)上的溝通。大多數(shù)blog能夠管理blogroll,當(dāng)讀者請(qǐng)求blogroll時(shí)產(chǎn)生相應(yīng)的XML格式文檔,例: opml。同樣,大多數(shù)RSS閱讀器都能夠?qū)雘pml,并自動(dòng)預(yù)定所包含的RSS。以某一blog為中心根據(jù)blogroll可繪制出Blog用戶間的弱關(guān)系鏈圖。
除了blog系統(tǒng)能夠記錄用戶產(chǎn)生的信息外,還有另一類服務(wù)--關(guān)系導(dǎo)向的用戶點(diǎn)評(píng),同樣是鼓勵(lì)用戶貢獻(xiàn)信息,但比blog的目的性更明確,信息也具有結(jié) 構(gòu)性,例如:flickr,asoboo等。而在另一些服務(wù)中,是以用戶的行為作為評(píng)價(jià)和個(gè)性需求的標(biāo)志,例如:社會(huì)化書簽記錄用戶的收藏動(dòng)作,digg 記錄用戶的投票動(dòng)作。
目前越來越的互聯(lián)網(wǎng)公司正通過各種服務(wù)(blog,點(diǎn)評(píng),digg)或手段(搜索,建立用戶關(guān)系與目的導(dǎo)向)獲取用戶產(chǎn)生的,具備足夠規(guī)模效應(yīng)的,不同數(shù)據(jù)類型(評(píng)論,blogposts,url,圖片,書名,音樂)。用戶產(chǎn)生的數(shù)據(jù)和網(wǎng)絡(luò)行為包含更豐富和明確的用戶需求描述與注意力趨向,但這些數(shù)據(jù)并沒有以可直接利用的流量方式呈現(xiàn),并且隱蔽在不可見的blog圈中。這有別于傳統(tǒng)搜索與門戶的廣告模式。
對(duì)用戶產(chǎn)生內(nèi)容的利用,以tag,link,rss訂閱關(guān)系,trackback回復(fù)關(guān)系,收藏行為,digg行為等的分析為基礎(chǔ),使blogger的社會(huì)關(guān)系網(wǎng)清晰可見,反映人們的注意力導(dǎo)向與需求趨勢(shì)是進(jìn)一步的應(yīng)用。體現(xiàn)在以彌補(bǔ)個(gè)體注意力有限的日?qǐng)?bào)模式(megite,memeorandum)與市場(chǎng)跟蹤咨詢模式(technorati)和集中閱讀的信息入口模式(bolaa)。
blog搜索
一、以國(guó)內(nèi)的8fang、feedsearch、feedss 為代表,手工設(shè)定基于BSP列表的搜索范圍,輔助以用戶提交RSS或blog地址,利用RSS作為入口獲取全文。除體現(xiàn)時(shí)效與相關(guān)度外在搜索服務(wù)的目的上與百度等圖書館搜索并無實(shí)質(zhì)差別。
特點(diǎn):1、搜索結(jié)果按時(shí)間或相關(guān)度排列,搜索指定時(shí)間段內(nèi)的數(shù)據(jù)。
2、提供類似google的高級(jí)搜索語(yǔ)法
3、搜索結(jié)果的RSS輸出
4、搜索覆蓋網(wǎng)摘(365key),相冊(cè)(flickr)
5、與在線RSS閱讀器合作,方便搜索結(jié)果訂閱
6、目錄搜索,搜索標(biāo)題,結(jié)果為blog或網(wǎng)摘,圖片等服務(wù)的個(gè)人頁(yè)面
7、feed搜索,相關(guān)feed
8、feed中典型標(biāo)簽(tag),作為判斷blog主題的依據(jù)
9、根據(jù)作者的blogroll繪制的blog關(guān)系圖
10、tag搜索為主題搜索,以及相關(guān)主題
11、提交用戶的RSS到搜索引擎
12、搜索結(jié)果的源feed及blog網(wǎng)址
13、作者搜索
14、將RSS作為搜索主體。實(shí)現(xiàn)rss的item拆分
二、利用搜索技術(shù)搭建的內(nèi)容入口,例如:bolaa.com 解決blog信息分散,抽取精華信息滿足漫無目的之讀者瀏覽需求。緩解blog信息分散不易閱讀。
特點(diǎn):1、posts分類精選,推薦,突出作者。她能告訴讀者什么好看,確無法回答blogger們正在談?wù)撌裁础?span style="FONT-WEIGHT: bold">
2、各種排行
3、播客聯(lián)播
4、在社會(huì),軍事等欄目中大量收入信息為轉(zhuǎn)貼新聞
5、內(nèi)容覆蓋論壇
6、提供網(wǎng)摘服務(wù)
在bolaa的服務(wù)介紹中,強(qiáng)調(diào)為blog作者帶去流量并認(rèn)為進(jìn)而會(huì)產(chǎn)生更多的交流,但從排行的結(jié)果看,流量大的文章往往是轉(zhuǎn)貼新聞,誘導(dǎo)blogger 過分關(guān)注流量,并不能促進(jìn)原創(chuàng),卻會(huì)使轉(zhuǎn)載文章數(shù)量增加。而轉(zhuǎn)載文章只能引發(fā)讀者評(píng)論,并不能促進(jìn)blogger之間的交流,因?yàn)閎logger之間是交 流是通過撰寫blog實(shí)現(xiàn)的。
三、對(duì)posts內(nèi)容中的鏈接,posts結(jié)構(gòu),tag進(jìn)行分析,以Technorati和IceRocket為代表。通過對(duì)links、Tag的分析,獲得群體思想、行為的風(fēng)向標(biāo),反映現(xiàn)實(shí)社會(huì)的變化趨勢(shì)。
technorati沿用了傳統(tǒng)的page rank方式。作為統(tǒng)計(jì)方式。
在technorati中通過分析特定鏈接被作者引用的次數(shù)作為信息熱門的評(píng)議標(biāo)準(zhǔn)。以此為基礎(chǔ)在Popular中提供了新聞,書籍,電影的熱門排行以及blog排行。
用戶可自定義 watchlist 對(duì)自己感興趣的關(guān)鍵字進(jìn)行跟蹤,而在tailrank中則是對(duì)個(gè)人訂閱列表(opml)的熱門排列,這樣更實(shí)用,能夠提高讀者訂閱的rss閱讀效率。
Blog Finder 一種基于tag的方法,幫助人們?cè)谀骋恢黝}下發(fā)現(xiàn)最具權(quán)威的blogs。允許bloggers為自己的blog標(biāo)記tag,作為他們認(rèn)為最恰當(dāng)?shù)念悇e。能 否通過分析feed得到使用頻率最高的若干tag作為該blog的典型tag并等同于blog的分類,從而避免為blog標(biāo)記tag是而出現(xiàn)的定義污染。
technorati是即時(shí)性搜索引擎并發(fā)揮到極至,他的實(shí)時(shí)跟蹤,可每1分鐘刷新一次結(jié)果,與其將technorati歸入搜索引擎,不如說他是一個(gè)實(shí)時(shí)跟蹤引擎。
四、meme引擎,作為搜索一個(gè)活力十足的發(fā)展分支,這種日?qǐng)?bào)模式,反映某個(gè)領(lǐng)域(技術(shù)、政治)的最新熱門動(dòng)態(tài),類似google的新聞搜索。這類服務(wù)側(cè)重將分散的blog輿論凝聚成媒體力量,當(dāng)有突發(fā)事件出現(xiàn)時(shí),這類服務(wù)會(huì)成為人們獲取新聞的重要渠道。
問題
1、大多RSS搜索引擎采用類似Google的PageRank的機(jī)制來對(duì)結(jié)果進(jìn)行評(píng)判和優(yōu)化,但相關(guān)性并不能完全令人滿意,需要更符合 blog寫作和交流特性的信息評(píng)價(jià)機(jī)制。把在線閱讀器的數(shù)據(jù)分析,網(wǎng)摘數(shù)據(jù)的分析,digg評(píng)議分析,作為結(jié)果相關(guān)度排列的權(quán)值也許是一個(gè)探索方向。
2、單純搜索能夠作為滿足目的明確用戶獲取信息的需求,但不適應(yīng)漫無目標(biāo)的瀏覽。同時(shí)人們運(yùn)用blog搜索的目的并不是為了獲取精準(zhǔn)資料,blog的寫作 特點(diǎn)也決定不允許人們這樣做。人們利用blog搜索更是想跟蹤某一個(gè)主題的動(dòng)態(tài),實(shí)時(shí)了解正在發(fā)生的交流或事件。technorati的tag輸出被廣泛 訂閱也說明了這點(diǎn)。
3、大多數(shù)blog搜索依然局限于滿足精準(zhǔn)資料獲取,輕視搜索用戶作為讀者之間的交流,同時(shí)雖然搜索能夠?yàn)閎log帶去流量,但無法將這種作用放大。
3、垃圾信息。technorati最新公布的調(diào)查數(shù)據(jù)顯示,大約有9%的blog為spam。其中一些是由軟件創(chuàng)建的blog或由軟件自動(dòng)發(fā)布posts。
4、一些支持多BSP的posts發(fā)布客戶端提供嵌入式廣告,廣告鏈接是搜索分析link的干擾因素。
話題
1、搭建博客精選或采用日?qǐng)?bào)模式結(jié)合搜索
2、為blog搜索引入用戶系統(tǒng)
兩條主線:1、獲取用戶對(duì)搜索結(jié)果的補(bǔ)充、評(píng)議和搜索歷史并以個(gè)人頁(yè)面的方式組織;2、通過補(bǔ)充的內(nèi)容和評(píng)議反向發(fā)現(xiàn)用戶。 關(guān)鍵字是中心。
1、用戶為某個(gè)關(guān)鍵字的搜索結(jié)果提交補(bǔ)充鏈接與blog,設(shè)置公開與隱私,當(dāng)其他用戶搜索相同的關(guān)鍵字時(shí),顯示公開的補(bǔ)充結(jié)果、blog、用戶ID
2、用戶評(píng)論系統(tǒng):1、用戶對(duì)搜索結(jié)果進(jìn)行評(píng)論并可trackback到源blog,2、為關(guān)鍵字提供類似帖吧的服務(wù),其中包含該關(guān)鍵字的搜索頻率,相關(guān)關(guān)鍵字,以該關(guān)鍵字作為典型tag的blog,以及用戶評(píng)論
3、用戶可挑選搜索結(jié)果,并結(jié)合個(gè)人提交的相關(guān)鏈接作為個(gè)人搜索歷史,此個(gè)人提交同(1)中“補(bǔ)充”。被保存的搜索結(jié)果與關(guān)鍵字同樣反作用于搜索結(jié)果的排序。
4、用戶屏蔽spam
5、未注冊(cè)用戶可使用全部功能,當(dāng)用戶注冊(cè)時(shí),用戶的信息不能丟失,保證用戶平滑的過渡
6、能夠?qū)⒂脩粼谒阉饕嬷邪l(fā)布的內(nèi)容,譬如:搜索歷史,發(fā)布于自己的blog上。
7、用戶可設(shè)置其個(gè)人的所在地域。地理關(guān)系是人際關(guān)系的表現(xiàn)。
8、搜索相同關(guān)鍵字的用戶構(gòu)成讀者圈
9、具有相同典型tag的blogger,posts包含相同連接的blogger,構(gòu)成的作者圈,
3、當(dāng)blog圈能夠清晰可見,職業(yè)流動(dòng)、項(xiàng)目合作等能夠在blog圈中展開。
4、搜索結(jié)果可提交主流網(wǎng)摘系統(tǒng)或顯示該結(jié)果在主流網(wǎng)摘系統(tǒng)的收藏?cái)?shù)量并作為結(jié)果排序的依據(jù)
5、關(guān)鍵字或Tag與blogger之間的對(duì)應(yīng)關(guān)系,關(guān)鍵字或Tag對(duì)應(yīng)的作者群或作者數(shù)
6、為主題提供backtrack地址,blogger可將自己的創(chuàng)作,發(fā)送到主題的創(chuàng)作區(qū)。
7、搜索時(shí)用戶輸入的關(guān)鍵字反映出人們的需求,也從另一個(gè)角度反映人們的注意力,關(guān)注趨向。
相關(guān)
1、與BSP或blog軟件的關(guān)系
在technorati中采用ping服務(wù)自動(dòng)獲得blog更新。technorati與WP(被廣泛使用的blog程序)同屬一個(gè)聯(lián)盟下,WP系統(tǒng)會(huì)自動(dòng)發(fā)送Ping到Ping-o-Matic, 然后通過Ping-o-Matic來發(fā)送Ping到多達(dá)22個(gè)搜索引擎,其中自然包括technorati。
2、在線閱讀器與blog搜索的關(guān)系
一個(gè)擁有大量RSS的在線服務(wù)做blog搜索基本都可以獲得比較好的效果,例如:bloglines?;谝粋€(gè)比較大的數(shù)據(jù)積累,并能夠記錄用戶的閱讀和點(diǎn)擊,再通過爬蟲。這會(huì)成為blog搜索的主要競(jìng)爭(zhēng)對(duì)手,但也可以轉(zhuǎn)化為blog搜索的主要合作伙伴。
3、blog搜索與digg類服務(wù)之間的利益關(guān)系
將搜索直接提交類digg服務(wù),為類digg服務(wù)帶去資源與流量的同時(shí),可通過投票獲取用戶對(duì)該搜索結(jié)果的評(píng)價(jià)并反作用于搜索結(jié)果的相關(guān)度排列。
目標(biāo)
1、作為信息入口、交流通道,為blogger帶去更多流量。
2、通過關(guān)鍵字或tag,link,將隱形的blog圈描述成清晰可見,并以圈為單位反映其中的相關(guān)主題(tag,關(guān)鍵字),圈中的作者。讓讀者送入自己關(guān)注的圈中,發(fā)現(xiàn)其喜歡的blog,或是以主題(關(guān)鍵字或tag)組織自己的閱讀圈,創(chuàng)作圈,共享用戶數(shù)據(jù)(為搜索結(jié)果提交的鏈接)。
3、聯(lián)合其他網(wǎng)站為搜索結(jié)果的后續(xù)處理提供方便服務(wù)譬如網(wǎng)摘,digg,通過提供輔助服務(wù),利用用戶行為優(yōu)化搜索結(jié)果排列。
4、將blog搜索引擎作為讀者于blogger,blogger之間互動(dòng)的橋梁
5、滿足獲知“誰(shuí)談?wù)撌裁础钡男枨蟆?1、某個(gè)圈中,某個(gè)主題的脈絡(luò)跟蹤(RSS輸出);2、以某個(gè)搜索結(jié)果出發(fā)反向追蹤作者所屬于的圈子,以及該文章的相關(guān)主題
6、反映人們的注意力趨向,掌握人們潛在需求。為其他行業(yè)提供社會(huì)需求數(shù)據(jù)。
既是面向?qū)I(yè)人士。幫助這些人更深入了解一個(gè)公司或產(chǎn)品。例如:營(yíng)銷人員、廣告商、分析師等。他們需要跟蹤市場(chǎng)反饋的方法與手段,告訴這些人誰(shuí)是評(píng)論公司或產(chǎn)品的最具影響力的公眾人物。人們正在如何評(píng)價(jià)和討論一個(gè)公司或產(chǎn)品,人們需要什么樣的產(chǎn)品和有什么新的需求。
附:有趣的服務(wù)
1、blogger關(guān)心自己blog的運(yùn)行狀態(tài)。針對(duì)blog訪問狀態(tài)的跟蹤服務(wù) http://www.montastic.com/
附圖
聯(lián)系客服