搜索引擎發(fā)展的隨想
--北京博越世紀(jì)科技有限公司項(xiàng)目總監(jiān) 朱紅軍
前段時(shí)間百度上市,使得本已硝煙四起的搜索引擎行業(yè)愈發(fā)的沸沸揚(yáng)揚(yáng),一時(shí)間,幾乎所有的媒體、網(wǎng)絡(luò)都在關(guān)注著這一個(gè)IT行業(yè)的新熱點(diǎn)。閑來無事,也想把自己的一些感受記錄下來,湊湊熱鬧。
在我們?cè)S多人的印象里,似乎很多的新技術(shù)都來自一個(gè)地方——新的技術(shù)來自于哪里,去大學(xué)里看看,大學(xué)是新思想的一個(gè)主要來源。1990年由蒙特利爾的幾個(gè)學(xué)生發(fā)明的Archie僅僅是自動(dòng)索引互聯(lián)網(wǎng)匿名FTP網(wǎng)站文件的程序,到麻省的3w wanderer,到斯坦福的excite概念搜索,到yahoo,到斯坦福的backRub項(xiàng)目蛻變的Google。無一不是著名高校的產(chǎn)物或者和學(xué)校的項(xiàng)目相關(guān)。(我國的高等教育成果有待加強(qiáng)啊!呃,扯遠(yuǎn)了,呵呵)
實(shí)際上今天的搜索問題跟五年前已是大不相同?,F(xiàn)在網(wǎng)絡(luò)上不光有書籍、論文,還有數(shù)字化的電視節(jié)目,這就要求搜索技術(shù)比以前更加優(yōu)秀。人們希望找到可以信賴的信息,希望搜索工具可以對(duì)更加復(fù)雜的問題進(jìn)行搜索。
搜索引擎要用到信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語言處理等多領(lǐng)域的理論和技術(shù),并且由于搜索引擎能擁有大量的用戶,在注意力引導(dǎo)上有著天生的優(yōu)勢(shì),這位新生的帥哥必然受到眾多IT豪門的追捧。在我看來,搜索引擎的發(fā)展有以下幾個(gè)方面: 1.智能搜索和個(gè)性化服務(wù) 我所說的智能搜索并非指信息智能代理這個(gè)較大的范疇,而是搜索的核心技術(shù),目前在智能分析領(lǐng)域,語義分析過于復(fù)雜,一直沒有成熟的產(chǎn)品出現(xiàn),而基于神經(jīng)網(wǎng)絡(luò)的智能分析才剛剛起步,只有少數(shù)的國外先進(jìn)搜索引擎技術(shù)提供商的模式匹配技術(shù)(以數(shù)學(xué)為基礎(chǔ)的統(tǒng)計(jì)量化)成功走出了實(shí)驗(yàn)室并在全球成功商業(yè)化。他們中的部分技術(shù)不是真正的語義分析,但它使用的技術(shù)達(dá)到了語義理解的高度,也是目前智能分析領(lǐng)域的進(jìn)步。而且只能搜索應(yīng)該對(duì)多種格式存儲(chǔ)的信息進(jìn)行檢索。 信息智能代理是一種綜合利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型(如web知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景、興趣、行為、風(fēng)格)知識(shí)進(jìn)行信息搜集、索引、過濾(包括興趣過濾和不良信息過濾),并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶端進(jìn)行,也可以在服務(wù)器端運(yùn)行。 2.交叉語言檢索的研究和開發(fā) 交叉語言信息檢索是指我用漢語文字提交查詢,搜索引擎能在多種語言的數(shù)據(jù)庫中進(jìn)行信息檢索,返回結(jié)果可以用母語顯示。但是因?yàn)檎Z言的區(qū)域特性,在表達(dá)方式和語義對(duì)應(yīng)上的不同語言的差別很大,因此技術(shù)實(shí)現(xiàn)有相當(dāng)?shù)碾y度。但是對(duì)于網(wǎng)絡(luò)互聯(lián),數(shù)據(jù)共享的目的而言,這似乎又是大眾需要的一種目標(biāo)。 3.提高信息查詢的精度,提高用戶輸入查詢條件的命中率 當(dāng)我們?cè)诨ヂ?lián)網(wǎng)上進(jìn)行搜索的時(shí)候,我們更關(guān)注的是問題的答案,而不是給我們一個(gè)浩浩蕩蕩的查詢結(jié)果列表,對(duì)于搜索引擎返回的大量繁雜的結(jié)果,用戶不得不在結(jié)果中進(jìn)行人工的分選,實(shí)際上還是花費(fèi)了許多的時(shí)間。我認(rèn)為一方面,用戶本身需要提高搜索引擎使用的技巧,很多人不太關(guān)注這點(diǎn),其實(shí)同樣一個(gè)問題,兩個(gè)人得到的搜索結(jié)果的質(zhì)量可能有非常大的差別。另一方面,搜索引擎技術(shù)提供商和服務(wù)商要注意改進(jìn)用戶模型,追蹤用戶檢索行為,使用相關(guān)度反饋機(jī)制,逐步求精?;蛘卟捎谜姆诸惣夹g(shù)將結(jié)果分類,用戶可以只瀏覽自己感興趣的類別。再則是進(jìn)行站點(diǎn)類聚或內(nèi)容類聚,減少信息的總量。 4.從商業(yè)應(yīng)用的模式上來看,可以做專注的技術(shù)提供商(比如杰出的autonomy),也可以做搜索的服務(wù)提供商;當(dāng)前的搜索服務(wù)除了網(wǎng)站推介,門戶搜索之外,在行業(yè)領(lǐng)域內(nèi)的專業(yè)檢索,政府和企業(yè)行業(yè)的垂直檢索,政府和企業(yè)內(nèi)的知識(shí)庫檢索都會(huì)有比較旺盛的需求,尤其是搜索引擎在對(duì)于語義分析的智能分析技術(shù)提高后,和KM的融合會(huì)有非?,F(xiàn)實(shí)的客戶效益,從而促進(jìn)KM市場(chǎng)的發(fā)展。 歡迎訪問我的BLOG http://kjolen.blogchina.com/
聯(lián)系客服