三月份時(shí),美國大學(xué)與研究圖書館協(xié)會(ACRL)代表團(tuán)來館,Nancy K. Dennis(新墨西哥州大學(xué)圖書館助理館長)作主要報(bào)告“信息技術(shù)在美國學(xué)術(shù)圖書館中的作用”(Role of Information Technology in Academic Libraries within the US),不知為什么卻大談Swicki的專門搜索引擎“巧克力搜索”(Chocolate Search)。
我當(dāng)時(shí)想起,曾看到某位很興奮的在自己博客上放好Swicki個(gè)人搜索引擎后的尷尬:不知是誰多次檢索一個(gè)與專題無關(guān)的詞,結(jié)果顯示在博客最上方的搜索詞云中,最大的就是那個(gè)莫名其妙的詞——遭遇垃圾(spam)入侵了(可惜當(dāng)初沒有截個(gè)圖)。
Swicki(http://swicki.eurekster.com/)是一個(gè)由用戶創(chuàng)建個(gè)人搜索引擎的社區(qū),建立后的搜索引擎可以放在自己的網(wǎng)站或博客上,也會在Swicki網(wǎng)站相關(guān)目錄中顯示。其明顯特征除了Swicki的search標(biāo)志外,就是搜索詞云(buzz cloud)——很像美味書簽的標(biāo)簽云。
建立個(gè)人搜索引擎,聽上去有點(diǎn)不可思議,其實(shí)并不是自己弄個(gè)爬蟲上網(wǎng)去抓內(nèi)容,而是對現(xiàn)有搜索引擎的搜索或顯示優(yōu)先順序作一些后臺限定。在Swicki,主要由創(chuàng)建者通過“訓(xùn)練(training)”步驟來實(shí)現(xiàn):
1、提供與本搜索引擎最相關(guān)的網(wǎng)站,搜索結(jié)果優(yōu)先顯示
2、輸入每次搜索隱含加入的詞
3、選擇是否搜索博客網(wǎng)站
4、如提供自己的網(wǎng)站,搜索結(jié)果優(yōu)先顯示
5、其它與本搜索引擎關(guān)聯(lián)的網(wǎng)站,搜索結(jié)果優(yōu)先
換言之,創(chuàng)建者需要做的是從茫茫網(wǎng)海中找出與主題相關(guān)的網(wǎng)站,讓搜索引擎按所告知的優(yōu)先順序排列搜索結(jié)果。還可以預(yù)先設(shè)置一些與主題相關(guān)的檢索詞,作為最熱搜索詞云中的種子,引導(dǎo)或提示搜索者,本個(gè)人搜索引擎關(guān)注的重點(diǎn)。
大部分人只有耐心看完搜索結(jié)果的前幾頁,每個(gè)搜索引擎獨(dú)特的搜索結(jié)果排序算法,成為用戶選擇搜索引擎的重要因素。由于Swicki個(gè)人搜索的創(chuàng)建者一般熟悉相關(guān)領(lǐng)域的網(wǎng)站,將最相關(guān)網(wǎng)站的命中優(yōu)先顯示,自然有助于搜索者找到所需內(nèi)容。
Swicki使用的是雅虎搜索,但利用“社區(qū)力量”(community powered),人為改變搜索結(jié)果順序。一般來說,專門搜索引擎的使用者對該專題都有一定興趣,他們就構(gòu)成了一個(gè)“社區(qū)”。除創(chuàng)建者個(gè)人“訓(xùn)練”外,Swicki采用Eurekster技術(shù),基于搜索者的行為對搜索詞加權(quán)。使用者可以參與每個(gè)搜索結(jié)果的評價(jià):
1、加標(biāo)簽推薦(推薦新站點(diǎn))
2、推薦本搜索結(jié)果
3、刪除本搜索結(jié)果
4、刪除本搜索結(jié)果所在網(wǎng)站
最終,使用者推薦的搜索結(jié)果會首先顯示。其余的結(jié)果可能有5個(gè)來自自己的網(wǎng)站、5個(gè)來自“訓(xùn)練”中的重要網(wǎng)站,5個(gè)來自附加了“訓(xùn)練”中重要關(guān)鍵詞的普通網(wǎng)頁、5個(gè)來自博客(如果“訓(xùn)練”中選擇的話)、10個(gè)來自其他普通網(wǎng)頁。Swicki還有根據(jù)使用者點(diǎn)擊信息等不斷改進(jìn)排序的設(shè)想。
按WebLeOn的說法,“用Swicki所創(chuàng)建的搜索引擎還具有學(xué)習(xí)功能,可以通過用戶的推薦及搜索行為來自動調(diào)整搜索結(jié)果。而作為創(chuàng)建者,可以對它學(xué)習(xí)的過程進(jìn)行控制。”
不但個(gè)人建立的搜索引擎被看作一個(gè)社區(qū),Swicki本身也是一個(gè)更大的社區(qū)(community)。是社區(qū),似乎少不了排名。搜索的人越多,個(gè)人搜索引擎在Swicki中的排名越靠前。由檔案歷史學(xué)家David Mattison建立的“數(shù)字保存搜索引擎”(Digital Preservation Search Engine),最近進(jìn)入了“Top Ten Swicki”。他的博客The Ten Thousand Year Blog關(guān)注數(shù)字文化保存問題,側(cè)欄就放置了“數(shù)字保存搜索引擎”,搜索詞云中的詞或詞組均與數(shù)字保存相關(guān),搜索最多因而字體最大的是"david bearman",此人是檔案與博物館信息學(xué)會主席(President of Archives & Museum Informatics)。如果要查數(shù)字保存領(lǐng)域的資料,或許用他的搜索引擎得到的結(jié)果會比較專業(yè)。
回到篇首的例子,難道創(chuàng)建者不能把垃圾搜索詞從搜索詞云中刪除掉嗎?如果我在自己的博客上放一個(gè)Swicki(支持中文),某個(gè)居心不良的人專門輸入莫名其妙的詞來惡心我,或者大做廣告,豈不明擺著要廢掉它嗎?
Swicki提供搜索詞云顯示管理,創(chuàng)建者可以鎖定(block)那些不希望出現(xiàn)的搜索詞。
網(wǎng)絡(luò)中的垃圾無所不在,哪里熱門往哪里鉆:垃圾郵件、垃圾貼、垃圾網(wǎng)站、垃圾博客、垃圾留言、垃圾搜索詞......。想象中熱門Swicki的創(chuàng)建者可能還需要在維護(hù)過程中,經(jīng)常刪除那些垃圾制造者“推薦”的垃圾站點(diǎn)。網(wǎng)絡(luò)用戶與Spam的戰(zhàn)斗永無止境。
創(chuàng)建Swicki是免費(fèi)的,除了郵箱,也不需要用戶的其他個(gè)人信息。用戶自然要關(guān)心它靠什么贏利?答案是廣告。如果在“訓(xùn)練”時(shí)選擇在檢索結(jié)果中包括廣告,創(chuàng)建者可以與Swicki分成。不是強(qiáng)制廣告,有利益還能分享,是不是又能贏得創(chuàng)建者的一份心?