国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
如何搞定站內(nèi)搜索的產(chǎn)品設(shè)計(jì)及應(yīng)用
本文來(lái)自:http://blog.xiqiao.info/2009/06/02/343http://blog.xiqiao.info/2009/06/03/357http://blog.xiqiao.info/2009/06/19/388http://blog.xiqiao.info/2009/06/22/392
我為銀杏泰克站內(nèi)搜索服務(wù)商做產(chǎn)品顧問(wèn)期間,經(jīng)手了十幾個(gè)站點(diǎn)的站內(nèi)搜索應(yīng)用的方案設(shè)計(jì),略作一些分析和總結(jié)。
一、站內(nèi)搜索應(yīng)用
站內(nèi)搜索的應(yīng)用受到越來(lái)越多的重視,以前出于技術(shù)成本和內(nèi)容規(guī)模的原因,大家使用公共應(yīng)用來(lái)湊合這個(gè)事,或者干脆沒(méi)有。但是現(xiàn)在有錢(qián)了,信息量和信息類(lèi)型的差異化和幾年前也完全不是一個(gè)級(jí)別了,有越來(lái)越多網(wǎng)站對(duì)站內(nèi)搜索有了極大的依賴(lài)。
對(duì)于分類(lèi)信息、電子商務(wù)、點(diǎn)評(píng)類(lèi)、視頻和資源站,站內(nèi)搜索應(yīng)用簡(jiǎn)直就是生死線。
對(duì)于專(zhuān)業(yè)領(lǐng)域門(mén)戶、綜合社區(qū)網(wǎng)站、以及新型交互應(yīng)用網(wǎng)站,站內(nèi)搜索也在扮演著重要角色,拉升活躍度和流量,提升網(wǎng)站整體的信息質(zhì)量。
站內(nèi)搜索應(yīng)用分為2個(gè)部分。搜索入口和搜索結(jié)果頁(yè)面。
1. 全局搜索入口的設(shè)計(jì)原則
使用顯眼的設(shè)計(jì),全站統(tǒng)一樣式和位置。位置通常是位于第一屏的居中或居右。
搜索框中應(yīng)有提示文字。(比如:請(qǐng)輸入關(guān)鍵字…或者 關(guān)鍵字、分類(lèi)、url…),以在視覺(jué)上標(biāo)識(shí)該input框的功能或提示可行的操作。
焦點(diǎn)功能。頁(yè)面初始化時(shí)和input輸入框失去焦點(diǎn)時(shí) 顯示提示文字, 鼠標(biāo)聚焦搜索框時(shí) 消除提示文字。(不要使用text框的默認(rèn)值,我們?cè)诳蛻舻慕y(tǒng)計(jì)數(shù)據(jù)里發(fā)現(xiàn)每天有上千條關(guān)鍵詞為“請(qǐng)輸入關(guān)鍵字”的搜索請(qǐng)求,浪費(fèi)資源。更不要使用背景圖片-_-!!!)
輸入詞智能(模糊)匹配提示(search suggest),這個(gè)最近也逐漸成為標(biāo)配。最初此功能用于在拉丁語(yǔ)系網(wǎng)站中協(xié)助拼寫(xiě),現(xiàn)在發(fā)展為通過(guò)和本站內(nèi)的搜索請(qǐng)求的趨勢(shì)關(guān)聯(lián),智能提示的搜索詞可以在一定意義上引導(dǎo)用戶進(jìn)行集中而熱門(mén)的搜索,獲得更有效的結(jié)果,以及拓展的關(guān)聯(lián)搜索。
2. 分類(lèi)搜索和搜索結(jié)果分類(lèi)
許多網(wǎng)站會(huì)在全局搜索入口中放置分類(lèi)搜索下
拉菜單(select)。
好處:對(duì)于通用搜索和擁有復(fù)雜信息類(lèi)型的網(wǎng)站而言,可以幫助熟練用戶精確搜索目標(biāo),減少點(diǎn)擊次數(shù)。
壞處1:根據(jù)我們掌握的多個(gè)各個(gè)類(lèi)型的站內(nèi)搜索log結(jié)果分析,這個(gè)分類(lèi)下拉的使用率非常低,不足2%。
壞處2:互聯(lián)網(wǎng)用戶的搜索習(xí)慣是被通用搜索引擎培養(yǎng)的——直接輸入關(guān)鍵字。用戶總是先直接輸入關(guān)鍵字,除非發(fā)現(xiàn)找不到結(jié)果,才會(huì)返回來(lái)尋找并使用分類(lèi)搜索下拉,這樣設(shè)計(jì)反而變成是反用戶的了。
許多設(shè)計(jì)師混用了 “分類(lèi)搜索”和“搜索結(jié)果分類(lèi)”這2個(gè)概念。
分類(lèi)搜索:針對(duì)不同信息數(shù)據(jù)類(lèi)別,搜索需求間有互斥性,分類(lèi)搜索的搜索結(jié)果間不存在交集。
搜索結(jié)果分類(lèi):針對(duì)不同內(nèi)容類(lèi)型,將某一搜索需求 按不同維度的屬性進(jìn)行的二級(jí)分類(lèi)或篩選,搜索需求是一致或可容的,結(jié)果之間可能存在交集。
我們拿豆瓣的分類(lèi)下拉菜單舉例:
書(shū)籍/電影/音樂(lè)都是屬于內(nèi)容類(lèi)型,(且輸入框的提示把它們同質(zhì)化了)。它們之間是搜索結(jié)果分類(lèi)的區(qū)別。
內(nèi)容和小組、成員、活動(dòng)是同級(jí)別的類(lèi)型。它們之間是分類(lèi)搜索的區(qū)別。
用戶搜索“暮光之城”,用戶不會(huì)排斥在結(jié)果中同時(shí)得到“暮光之城”的電影類(lèi)、書(shū)籍類(lèi)、原聲音樂(lè)類(lèi)信息,都是對(duì)內(nèi)容的搜索需求。但是可能會(huì)排斥小組/活動(dòng)/成員類(lèi)型搜索結(jié)果。想搜索小組和想搜索活動(dòng)是完全不同的需求,一個(gè)想搜僅僅想搜索書(shū)籍信息的用戶并不想看到小組中的討論。
_________________________________________________
再來(lái)看淘寶的全局搜索入口:
寶貝、店鋪、打聽(tīng)是不同的搜索需求,它們是分類(lèi)搜索的區(qū)別。
商城、拍賣(mài)、全球購(gòu) 和寶貝都屬于同一內(nèi)容類(lèi)型,搜索需求一致,信息結(jié)構(gòu)是父子級(jí)的關(guān)系。它們也屬于搜索結(jié)果分類(lèi)。
這3個(gè)分類(lèi)是否有單獨(dú)作為分類(lèi)搜索存在的必要,你使用過(guò)這3種分類(lèi)嗎?
下列設(shè)計(jì)搜索入口的一些方法和原則:
避免過(guò)度設(shè)計(jì)。對(duì)于搜索目的或內(nèi)容類(lèi)型單一的網(wǎng)站,放置分類(lèi)搜索下拉是不必要的。比如專(zhuān)業(yè)視頻網(wǎng)站,餐飲點(diǎn)評(píng)網(wǎng)站等等
這是一個(gè)專(zhuān)業(yè)視頻網(wǎng)站,從圖1和圖2中可以看到,雖然分類(lèi)搜索里選擇的視頻和專(zhuān)輯這2個(gè)分類(lèi),但是當(dāng)選擇視頻分類(lèi)去搜索時(shí),還是會(huì)在第一行輸出了專(zhuān)輯類(lèi)的搜索結(jié)果。
把搜索結(jié)果分類(lèi)放到它該去的位置——搜索結(jié)果頁(yè)面通過(guò)統(tǒng)一的搜索入口進(jìn)入搜索結(jié)果頁(yè)面后,用戶可根據(jù)此列表了解 搜索結(jié)果的分布,篩選所需分類(lèi)。
這種設(shè)計(jì)可以清晰地展現(xiàn)信息結(jié)構(gòu),信息規(guī)模,幫助用戶明確搜索目的,精確篩選。
1 簡(jiǎn)單化處理:在全局頁(yè)面放置通用搜索入口,不帶分類(lèi)下拉。同時(shí)在頻道頁(yè)設(shè)置單類(lèi)的搜索入口。 2 復(fù)雜化處理:在首頁(yè)放置高級(jí)搜索工具箱
(不可代替通用搜索框?。?div style="height:15px;">
盡量避免存在多個(gè)分類(lèi)搜索之間互斥的設(shè)計(jì)
你是否遭遇過(guò)直接在淘寶的input框中輸入店鋪名稱(chēng)而得不到任何有效結(jié)果?
使用Tab manu (選項(xiàng)卡)代替 下拉菜單。
你更習(xí)慣的是下面哪一種的方式?
有些分類(lèi)選擇可以用高級(jí)搜索選項(xiàng)來(lái)代替
在這里 使用高級(jí)搜索中的篩選來(lái)表現(xiàn)可能會(huì)更好。
在需要使用多重維度的搜索條件來(lái)定位時(shí)的處理
比較兩者的設(shè)計(jì),高下立現(xiàn)。
3.全局搜索結(jié)果和分類(lèi)搜索結(jié)果
當(dāng)一個(gè)網(wǎng)站同時(shí)擁有全局搜索入口和單類(lèi)搜索入口。會(huì)產(chǎn)生一個(gè)問(wèn)題:?jiǎn)晤?lèi)搜索可得出單一精確的搜索結(jié)果,而全局搜索得出的結(jié)果頁(yè)面是多種單類(lèi)搜索混合而成的。如何處理好這種混合,并有效引導(dǎo)用戶得到自己想要的信息?
1 最簡(jiǎn)單的方法: 混排+分類(lèi)標(biāo)簽。
2 華麗的方法:分區(qū)塊顯示。(對(duì)服務(wù)器壓力較大,分區(qū)塊搜索會(huì)形成多次請(qǐng)求)
分區(qū)塊顯示要根據(jù)網(wǎng)站自身的產(chǎn)品特性和內(nèi)容重心來(lái)安排,
不能不分詳略,事無(wú)巨細(xì)把所有類(lèi)型都均等地列出來(lái)。多信息等于無(wú)信息。
二、搜索結(jié)果頁(yè)面布局
1. 常用功能模塊
點(diǎn)擊小圖顯示大圖
上圖只是是為了演示所有通用功能模塊的設(shè)計(jì)demo。并不建議像這樣設(shè)計(jì)產(chǎn)品,用戶根本不會(huì)用到那么多功能,過(guò)度設(shè)計(jì)會(huì)導(dǎo)致開(kāi)發(fā)成本和用戶的學(xué)習(xí)成本大大增加,也使頁(yè)面零亂。
應(yīng)該根據(jù)各自網(wǎng)站的資源、優(yōu)勢(shì)、類(lèi)型、目的來(lái)選用恰當(dāng)?shù)哪K進(jìn)行設(shè)計(jì)。關(guān)于這一點(diǎn)請(qǐng)見(jiàn)后文
2. 布局問(wèn)題
先來(lái)看2個(gè)案例
上圖為4欄的機(jī)票搜索結(jié)果頁(yè)面,中間2欄為往返雙程的搜索結(jié)果。信息密度太高,頁(yè)面擁擠,用戶在尋找自己所需的結(jié)果時(shí),視線會(huì)不斷被干擾。在左欄縱向放置的篩選功能區(qū)塊,位置和高度導(dǎo)致用戶的正常使用流向被打亂,最右邊的推薦和廣告區(qū)也很難吸引用戶閱讀和點(diǎn)擊,
上圖是2欄的機(jī)票搜索頁(yè)面。頁(yè)面布局寬松,信息密度分布正常。日期的Tab Manu、篩選功能區(qū)和搜索結(jié)果區(qū)的分布和排序符合用戶使用流程。 右側(cè)的推薦信息區(qū)也容易吸引用戶視線。
搜索結(jié)果頁(yè)面的布局原則是簡(jiǎn)潔、突出重點(diǎn)、目的明確。不能分散用戶獲取搜索結(jié)果的注意力。
下面是一些設(shè)計(jì)建議
使用兩欄布局。內(nèi)容型搜索建議比例為三七開(kāi),不要讓搜索結(jié)果內(nèi)容區(qū)過(guò)寬,影響閱讀體驗(yàn)。
剔除無(wú)關(guān)元素,對(duì)于網(wǎng)站統(tǒng)一布局中的公告、推薦、廣告、排行之類(lèi)的元素,應(yīng)該割舍。布局越清晰明了,干擾元素越少,用戶越容易順利達(dá)到使用目的。
主搜索框 位置全局(或主內(nèi)容區(qū))上方居中。在搜索結(jié)果頁(yè)面,搜索框不必和全局設(shè)計(jì)統(tǒng)一,縮于一角。
處理好多個(gè)搜索框之間的層次關(guān)系(在同時(shí)存在 主搜索框和單類(lèi)搜索框/高級(jí)搜索工具箱的時(shí)候)。
信息密度不要過(guò)高。不要試圖在搜索結(jié)果中列出所有信息元素。
篩選、排序等功能區(qū)要注意產(chǎn)品邏輯和分布層次。很多設(shè)計(jì)師在處理信息的多個(gè)維度缺乏邏輯和結(jié)構(gòu)意思,弄得頁(yè)面看起來(lái)有4~5層橫導(dǎo)航。
這一堆選項(xiàng)卡,你眼花嗎?
根據(jù)內(nèi)容屬性的不同,對(duì)搜索結(jié)果使用合適的顯示模式。(圖片、縮略圖+內(nèi)容、內(nèi)容列表、表格、內(nèi)容+表格 等)
正常搜索結(jié)果和 推廣類(lèi)搜索結(jié)果(競(jìng)價(jià)或廣告)的設(shè)計(jì)應(yīng)該有清晰的區(qū)分,讓用戶能很容易區(qū)分這兩者。
搜索結(jié)果中的 匹配關(guān)鍵字 應(yīng)高亮顯示。
三、不同類(lèi)型網(wǎng)站的站內(nèi)搜索應(yīng)用特點(diǎn)
站內(nèi)搜索普遍意義上可以分為兩類(lèi):內(nèi)容搜索和比較搜索。特殊搜索(如地圖搜索,)不在討論之列。
典型的內(nèi)容搜索:新聞(資訊)、視頻、圖片、音樂(lè)、人、論壇(小組)、帖子。對(duì)于內(nèi)容搜索,基于分詞的全文搜索是主要應(yīng)用,通過(guò)分詞、概率等對(duì)數(shù)據(jù)進(jìn)行篩選排序,得出匹配度高的搜索結(jié)果。
典型的比較搜索:購(gòu)物、餐飲、旅游、租房。 分類(lèi)、篩選、排序等功能更為重要。搜索結(jié)果和用戶行為關(guān)聯(lián)更大。有大量基于數(shù)據(jù)庫(kù)的搜索。
1. 內(nèi)容(帖子、話題、博客)搜索 。
主要應(yīng)用: 相關(guān)度排序。
引導(dǎo)流量:相關(guān)內(nèi)容推薦
布局特點(diǎn):不需要過(guò)多的功能模塊,比如高級(jí)搜索、二級(jí)分類(lèi)、篩選和排序。而應(yīng)該重點(diǎn)優(yōu)化設(shè)計(jì) 搜索結(jié)果、關(guān)聯(lián)搜索、結(jié)果類(lèi)型分布。
2. 新聞?lì)愃阉?最重要的是時(shí)效性
主要應(yīng)用: 更新時(shí)間+相關(guān)度排序。 為什么把新聞?lì)愃阉鲝膬?nèi)容搜索中單提出來(lái)說(shuō),因?yàn)樾侣勊阉鞯慕Y(jié)果排序,更新時(shí)間要的優(yōu)先級(jí)要高于相關(guān)度。如果不注意這一點(diǎn),會(huì)出很?chē)?yán)重的后果。
引導(dǎo)流量:熱門(mén)關(guān)鍵字,“你可能還對(duì)這些關(guān)鍵詞感興趣”
布局特點(diǎn):同內(nèi)容類(lèi)搜索。
新聞?lì)愃阉鬟€有一個(gè)高級(jí)應(yīng)用,就是新聞關(guān)鍵字的趨勢(shì)比較。一般網(wǎng)站可能沒(méi)有這個(gè)開(kāi)發(fā)實(shí)力和預(yù)算,只有成熟的SaaS才有可能提供類(lèi)似的高級(jí)應(yīng)用。
3. 多媒體搜索 圖片/相冊(cè)/視頻/音樂(lè)
主要應(yīng)用: 分詞+過(guò)濾,因?yàn)樵S多圖片的alt是直接使用文字標(biāo)題,所以正確的分離出關(guān)鍵詞很重要。
圖片常用的過(guò)濾包括:文件類(lèi)型、圖片尺寸、風(fēng)格、圖片色調(diào)。
視頻由于沒(méi)有統(tǒng)一的描述協(xié)議,暫時(shí)也沒(méi)有成熟的OCR技術(shù),所有視頻搜索主要基于tag,數(shù)據(jù)庫(kù)分類(lèi)和人工填寫(xiě)的描述。視頻常用的過(guò)濾包括:分類(lèi)、時(shí)長(zhǎng)。
音樂(lè)常用的過(guò)濾包括:文件類(lèi)型、專(zhuān)輯、歌手、風(fēng)格、語(yǔ)種、源狀況
布局特點(diǎn):圖片和視頻類(lèi)搜索由于結(jié)果的展現(xiàn)主要是縮略圖,搜索結(jié)果區(qū)域的面積要盡可能大,建議使用全屏單欄設(shè)計(jì)。圖片搜索需求的目的性很明確,除過(guò)濾外,沒(méi)必要放置其它功能屬性和關(guān)聯(lián)搜索。
多媒體基本都存在專(zhuān)輯或系列,專(zhuān)輯和系列是基于人工分類(lèi)的更準(zhǔn)確的檢索方法,包含更大的信息量。應(yīng)當(dāng)通過(guò)精確匹配后,優(yōu)先列在搜索結(jié)果中。
4. 用戶搜索:
主要應(yīng)用:高級(jí)搜索、重音或拼寫(xiě)糾錯(cuò)提示。
引導(dǎo)流量:“搜索該詞的用戶還關(guān)注什么”,“你可能還對(duì)這些關(guān)鍵詞感興趣”
對(duì)人的搜索應(yīng)使用精確匹配,根據(jù)數(shù)據(jù)類(lèi)型支持高級(jí)搜索選項(xiàng)的過(guò)濾,還有一些特殊的比如在線狀況、活躍程度、信用等級(jí)等。
對(duì)于人名應(yīng)提供重音和拼寫(xiě)糾錯(cuò)提示。
5. 消費(fèi)搜索:
消費(fèi)類(lèi)搜索在過(guò)類(lèi)別屬性的側(cè)重點(diǎn)上有很大差異,購(gòu)物搜索:價(jià)格、信用、熱度。租房搜索:匹配度、地域、價(jià)格、其它屬性。餐飲搜索:地域、菜系、熱度、價(jià)格。旅游搜索:時(shí)效性、價(jià)格、折扣
主要應(yīng)用: 多維度屬性過(guò)濾,支持多種排序,多種搜索結(jié)果顯示形式、搜索結(jié)果對(duì)比。
引導(dǎo)流量:搜索結(jié)果(競(jìng)價(jià)推廣),“搜索該詞的用戶還關(guān)注什么”,“你可能還對(duì)這些關(guān)鍵詞感興趣”,熱門(mén)關(guān)鍵字、歷史記錄。
布局特點(diǎn):應(yīng)該重點(diǎn)優(yōu)化設(shè)計(jì)二級(jí)分類(lèi)、篩選、排序等模塊。
一個(gè)消費(fèi)搜索的產(chǎn)品設(shè)計(jì)是否成功?我覺(jué)得有一個(gè)衡量方法:看用戶是否可以通過(guò)不打任何字,光用鼠標(biāo)也能順利完成檢索需求。
四、高級(jí)搜索功能的設(shè)計(jì)
分類(lèi)、過(guò)濾、排序這3個(gè)是應(yīng)用最普遍的高級(jí)搜索功能。
分類(lèi):幫助用戶逐層定位所需搜索范疇,一般通過(guò)羅列所有分類(lèi)項(xiàng)的方式展現(xiàn),可一級(jí)級(jí)展現(xiàn)多層列表。
過(guò)濾:通過(guò)在搜索結(jié)果中排除某一維度中的某個(gè)或多個(gè)屬性 來(lái)幫助用戶剔除不需要的搜索結(jié)果。一般通過(guò)單選、多選、下拉菜單、選項(xiàng)卡、標(biāo)尺等形式展現(xiàn)。
排序:幫助用戶按某一屬性對(duì)搜索結(jié)果進(jìn)行重新排序。
1. 排序的設(shè)計(jì)
排序看起來(lái)簡(jiǎn)單,但是有問(wèn)題的設(shè)計(jì)確很多。
不分正序倒序
人均花費(fèi)排序,不分正序倒序,那默認(rèn)是從高到底,還是從低到高呢?右圖是較好的設(shè)計(jì)
使用排序按鈕,但是表意不清,增加用戶學(xué)習(xí)成本。
猜猜左圖4個(gè)操作排序的按鈕分別是什么意思?銷(xiāo)量、價(jià)格、折扣、上架時(shí)間。(除了第二個(gè),其它我打死也想不出來(lái))
右圖是較好的設(shè)計(jì)
未明示哪些選項(xiàng)可允許排序操作。
這里面有些允許排序操作,有些不允許。用戶在點(diǎn)擊的時(shí)候都得小祈禱一下…
排序和過(guò)濾功能混淆在一起
圖中有一堆看起來(lái)功能相似的下拉菜單,但里面有的是排序操作,有的過(guò)濾操作。排序操作不會(huì)減少搜索結(jié)果,但過(guò)濾操作會(huì)。用戶點(diǎn)擊完其中某個(gè)下拉菜單,可能頁(yè)面中搜索結(jié)果就為空了,用戶能搞清是自己干了什么導(dǎo)致的嗎?
默認(rèn)排序是什么?
上圖 排序下拉菜單的設(shè)計(jì)非常好,同時(shí)有下拉菜單和按鈕,同時(shí)有文字說(shuō)明和圖示箭頭,一目了然。
但是誰(shuí)能告訴我,默認(rèn)排序是基于什么的排序?
常規(guī)意義上默認(rèn)排序是基于相關(guān)度的排序,是認(rèn)為用戶無(wú)法理解相關(guān)度這3個(gè)字嗎?
2. 過(guò)濾的設(shè)計(jì)
分類(lèi)和過(guò)濾是兩個(gè)容易混淆的概念,最常見(jiàn)的錯(cuò)誤是把分類(lèi) 設(shè)計(jì)成了過(guò)濾,讓產(chǎn)品反而很難用。
如右圖:這只是多組看起來(lái)像過(guò)濾器的分類(lèi)列表而已,用下拉菜單的設(shè)計(jì)形式來(lái)代替索引鏈接,用戶品牌維度下:用戶只能選擇某一個(gè)品牌,匹數(shù)維度下:用戶只能選擇一個(gè)固定區(qū)段。
一個(gè)真正的過(guò)濾器應(yīng)該能允許用戶在終于的信息維度上,自由取得或排除部分搜索結(jié)果。
下面是兩種功能的正確設(shè)計(jì):
另一個(gè)常見(jiàn)錯(cuò)誤是使用錯(cuò)誤的表現(xiàn)形式來(lái)破壞用戶的篩選自由度。
如上圖:如果我理想的出發(fā)時(shí)間是在8:00~10:00之間,使用這個(gè)過(guò)濾器,我就得搜索兩次。
而下圖這兩種都是不錯(cuò)的設(shè)計(jì)模式。
當(dāng)我搜一個(gè)酒店,只想去7天、如家、漢庭這幾家,要求有免費(fèi)寬帶和餐廳。
如果是品牌和設(shè)施這兩個(gè)維度的篩選形式做成了下拉菜單、選項(xiàng)卡或單選框,就只能歇菜了。
最好的設(shè)計(jì)是將搜索選項(xiàng)做成多選框,用戶可以任意組合。
如果搜索頁(yè)面空間比較緊張,沒(méi)有太多位置放置篩選過(guò)濾器,下面的設(shè)計(jì)也是一個(gè)辦法。將排序和篩選結(jié)合起來(lái)。
3 高級(jí)搜索:
高級(jí)搜索是一個(gè)比較傳統(tǒng)的應(yīng)用,它的特點(diǎn)是給出了多個(gè)input框,指望用戶通過(guò)在固定位置輸入每個(gè)維度的關(guān)鍵字,來(lái)獲取精準(zhǔn)的搜索結(jié)果。
問(wèn)題是如果用戶輸錯(cuò)了一個(gè)地方,可能就得不到任何有效結(jié)果。
下圖的設(shè)計(jì)讓用戶很容易輸錯(cuò)。
下面這個(gè)改進(jìn)過(guò)的高級(jí)搜索要好用得多,除了減少用戶動(dòng)腦子想關(guān)鍵字的時(shí)間,動(dòng)鍵盤(pán)打字的次數(shù),關(guān)鍵是能是輸入條件規(guī)范,不會(huì)出現(xiàn)用戶的理解錯(cuò)誤或輸入格式錯(cuò)誤。
五、站內(nèi)搜索的其它應(yīng)用
1. 流量引導(dǎo)
針對(duì)站內(nèi)搜索本身,流量引導(dǎo)的主要方式是關(guān)聯(lián)、推薦和熱榜。
關(guān)聯(lián): 包括搜索結(jié)果關(guān)聯(lián)、關(guān)鍵字關(guān)聯(lián) 和推薦內(nèi)容的關(guān)聯(lián)
。如,關(guān)注該關(guān)鍵字的用戶還搜索過(guò),買(mǎi)了此類(lèi)寶貝的用戶還買(mǎi)過(guò)
推薦:根據(jù)用戶搜索的需求分類(lèi) 推薦相關(guān)的網(wǎng)站內(nèi)容或商品。
熱榜:熱門(mén)關(guān)鍵字排行,或上升快的熱門(mén)關(guān)鍵字排行。
2. 特殊情況的設(shè)計(jì):
當(dāng)用戶的搜索行為無(wú)搜索結(jié)果時(shí)、用戶的搜索行為有輸入錯(cuò)誤或障礙、搜索結(jié)果過(guò)少時(shí)。
由用戶行為造成的無(wú)結(jié)果或少結(jié)果,有下列幾種狀況:
用戶拼寫(xiě)錯(cuò)誤。
用戶輸入了限制過(guò)多的關(guān)鍵字條件
用戶誤操作。
處理上述狀況,首先應(yīng)該由程序判斷是否存在輸入的拼寫(xiě)錯(cuò)誤,在搜索結(jié)果之前首先提供糾錯(cuò)建議,提示和引導(dǎo)用戶進(jìn)行有效的操作,并根據(jù)數(shù)據(jù)挖掘,提供能滿足用戶搜索需求的有效關(guān)鍵字。如:“沒(méi)有找到相關(guān)結(jié)果,不如試試搜索****?!钡?。
如用戶輸入了過(guò)多的關(guān)鍵字條件,(如用戶直接在搜索框里粘貼了一句很長(zhǎng)的話,且搜索設(shè)置為多關(guān)鍵字之間的匹配關(guān)系是與運(yùn)算)應(yīng)建議用戶使用正確的條件輸入方式。
誤操作的狀況多出現(xiàn)與用戶直接點(diǎn)擊了搜索按鈕而沒(méi)有輸入關(guān)鍵字。這種狀況不同網(wǎng)站有不同處理。如同頁(yè)面刷新、跳轉(zhuǎn)到搜索結(jié)果頁(yè)面但提示誤操作、blank跳轉(zhuǎn)到目錄或索引頁(yè)面、js彈窗提示誤操作。
非用戶行為造成的無(wú)結(jié)果或少結(jié)果,有下列幾種狀況:
分詞錯(cuò)誤:例如人名、專(zhuān)有名詞、地名等專(zhuān)業(yè)詞匯被錯(cuò)誤地分詞,造成有效結(jié)果不多。
無(wú)有效數(shù)據(jù)
上述狀況都應(yīng)該在搜索功能的管理設(shè)置中有所反映,必須有手工補(bǔ)充關(guān)鍵詞庫(kù)的功能。必須能對(duì)少結(jié)果或無(wú)結(jié)果的關(guān)鍵詞進(jìn)行數(shù)據(jù)統(tǒng)計(jì),以幫助決策內(nèi)容維護(hù)方向。
另一種狀況是當(dāng)搜索結(jié)果過(guò)多時(shí):用戶輸入了一個(gè)涵蓋范圍太廣的關(guān)鍵字,搜索結(jié)果多于20頁(yè)的時(shí)候。
寬泛的關(guān)鍵字定義不能幫助用戶有效完成搜索目的,用戶翻20頁(yè)以上去檢索的可能性很小,對(duì)網(wǎng)站性能也會(huì)造成不必要的浪費(fèi)。
所以在搜索結(jié)果頁(yè)面提供分類(lèi)和篩選是首要前提,也應(yīng)該在適當(dāng)?shù)奈恢皿w現(xiàn)用戶使用關(guān)鍵字組合的正確方法或使用分類(lèi)、篩選功能。
在分頁(yè)設(shè)置上,可以以只顯示20頁(yè)為一個(gè)區(qū)間。
3. 內(nèi)容價(jià)值的優(yōu)化處理
在論壇、知道、百科之類(lèi)應(yīng)用中,設(shè)計(jì)者比較不愿意看見(jiàn)的一個(gè)狀況就是問(wèn)題和條目的重復(fù),既浪費(fèi)資源、分流用戶貢獻(xiàn)的有價(jià)值內(nèi)容,也不利于信息組構(gòu)。(流量膜拜主義的不在此列)
這類(lèi)應(yīng)用中,可在用戶提問(wèn)、發(fā)帖的title輸入框旁邊放置搜索提示或搜索框,引導(dǎo)用戶在提問(wèn)之前先搜索。
這個(gè)類(lèi)應(yīng)用可以通過(guò)搜索功能對(duì)內(nèi)容價(jià)值進(jìn)行優(yōu)化。
5. 海量信息或歷史內(nèi)容的價(jià)值最大化
對(duì)于新聞、資訊、論壇站這類(lèi)海量信息站而言,信息結(jié)構(gòu)的設(shè)計(jì)是極為重要的,僅將內(nèi)容價(jià)值建立在熱門(mén)話題和更新速度上,是一種不明智和浪費(fèi)的運(yùn)維思路。好的信息結(jié)構(gòu)設(shè)計(jì),讓用戶不會(huì)在掃完熱門(mén)和更新內(nèi)容后就無(wú)事可做,降低用戶跳出率、提高單ip的頁(yè)面瀏覽數(shù)。設(shè)計(jì)思路除了明晰合理的多級(jí)信息目錄結(jié)構(gòu),還應(yīng)該根據(jù)運(yùn)營(yíng)需求建立起 話題眼、新聞脈絡(luò)、信息時(shí)間軸 等內(nèi)容聚合點(diǎn)和內(nèi)容聚合線索。
搜索和數(shù)據(jù)挖掘是幫助優(yōu)化此類(lèi)設(shè)計(jì)的重要選擇。
百度貼吧的偉大之處在于極大地發(fā)揮了由搜索關(guān)鍵字創(chuàng)建話題眼這一設(shè)計(jì)。
說(shuō)到這,可能有人已經(jīng)聯(lián)想到了 tag 和 埋在正文中的關(guān)鍵字鏈接。
對(duì)于論壇 或 非正規(guī)的信息站而言,通過(guò)tag來(lái)支撐一套信息維度是不現(xiàn)實(shí)的。
而正文中埋鏈接,多用于 產(chǎn)品庫(kù)(名人庫(kù))這類(lèi)專(zhuān)有詞,主要用于導(dǎo)流量,在文中高密度使用也是不現(xiàn)實(shí)的。
所以使用分詞技術(shù)或詞頻分析,在某篇文章中獲取核心關(guān)鍵字后,在側(cè)欄或標(biāo)題/正文下方列出,是一個(gè)很好的處理方法。這種流量引導(dǎo)方式比“相關(guān)新聞”賦予用戶更大的選擇性,也更利于用戶深度挖掘內(nèi)容發(fā)現(xiàn)內(nèi)容。
通過(guò)處理發(fā)布時(shí)間排序,可以形成以時(shí)間為脈絡(luò) 新聞線索。
銀杏搜索和我曾經(jīng)提出一個(gè)概念產(chǎn)品設(shè)計(jì),用于大型新聞/資訊網(wǎng)站的新聞搜索,讓新聞關(guān)鍵字成為一個(gè)信息時(shí)間軸。
這個(gè)產(chǎn)品可根據(jù)某個(gè)關(guān)鍵字的搜索結(jié)果在時(shí)間軸上的分布,按時(shí)間區(qū)間輸出搜索結(jié)果量的指數(shù)圖,體現(xiàn)出到該關(guān)鍵字的新聞性時(shí)間趨勢(shì)。
當(dāng)鼠標(biāo)移上某個(gè)節(jié)點(diǎn),會(huì)顯示該節(jié)點(diǎn)的日期和詳細(xì)結(jié)果數(shù)。
用戶可以通過(guò)點(diǎn)擊年份,放大趨勢(shì)圖,查看某年的搜索結(jié)果的詳細(xì)指數(shù)圖。
這個(gè)產(chǎn)品可以很容易通過(guò)時(shí)間體現(xiàn)新聞趨勢(shì),強(qiáng)化傳播的時(shí)間維度上的表現(xiàn)力,用戶體驗(yàn)新鮮,更重要的是可以利用埋藏著的歷史信息實(shí)現(xiàn)價(jià)值最大化。
這個(gè)應(yīng)用還可以擴(kuò)展為更高端的趨勢(shì)比較。當(dāng)用戶輸入2個(gè)以上的關(guān)鍵字時(shí),可以在指數(shù)圖中看見(jiàn)兩個(gè)關(guān)鍵字的對(duì)比折線圖,用戶可以對(duì)兩者搜索結(jié)果在時(shí)間分布上進(jìn)行趨勢(shì)比較。
6. 應(yīng)用于內(nèi)容發(fā)布系統(tǒng)
站內(nèi)搜索除了在前端使用,在信息發(fā)布系統(tǒng)中也有重要的應(yīng)用。典型例子的是幫助使用者篩選相關(guān)新聞(包括專(zhuān)題組織中的相關(guān)新聞列表)。
我講一個(gè)我遇到過(guò)的案例:傳媒類(lèi)網(wǎng)站的cms系統(tǒng),最初的設(shè)計(jì):使用者點(diǎn)擊“查找相關(guān)新聞”按鈕,blank彈出結(jié)果頁(yè)面,搜索條件直接取值于文章title和tag,全文檢索。但使用者總是對(duì)篩選出來(lái)的相關(guān)新聞不滿意,覺(jué)得匹配度不夠高。
例如
當(dāng)使用者 為 ********(上)查詢(xún)相關(guān)新聞時(shí),當(dāng)然最希望出來(lái)的是*******(中)和*******(下),但是標(biāo)題被分詞以后,再加上tag,由于詞頻權(quán)重的原因,中和下篇可能并不是排在前頭。
當(dāng)使用者為一篇標(biāo)題里包含 美國(guó)銀行 這個(gè)詞的文章查詢(xún)相關(guān)新聞時(shí),排在前幾位的可能和美國(guó)銀行沒(méi)關(guān)系,而是奧巴馬競(jìng)選或中美外貿(mào)。這是因?yàn)槊绹?guó)銀行會(huì)被分詞,拆為美國(guó)和銀行,出現(xiàn)美國(guó)或銀行頻度最高的文章會(huì)被排在最上面,如果美國(guó)和銀行之間采取 或運(yùn)算 的話,結(jié)果就更糟糕。
經(jīng)過(guò)溝通和分析使用者需求,我把一個(gè)“查找相關(guān)新聞”按鈕,拆分成了3個(gè)按鈕,以滿足使用者不同的搜索意圖。
按鈕1 “根據(jù)標(biāo)題精確搜索”,用于查找系列文章,多個(gè)關(guān)鍵字之間采取 與運(yùn)算,滿足精確關(guān)聯(lián)需求。
按紐2 “根據(jù)作者搜索” 僅匹配作者字段,用于精確查找該作者寫(xiě)過(guò)的所有文章。
按鈕3“相關(guān)性搜索”,匹配title分詞和tag,滿足查找寬泛關(guān)聯(lián)的需求。
客戶此后就滿意了,幾乎不再需要手工自定義搜索條件,提供了處理效率。
這個(gè)案例的啟示是:1 站內(nèi)搜索的應(yīng)用設(shè)計(jì)中,搜索條件提取、多關(guān)鍵字的處理、匹配字段的處理 這些設(shè)定的變化,能對(duì)搜索結(jié)果、應(yīng)用效率造成巨大差異,好的應(yīng)用壞的應(yīng)用由細(xì)節(jié)中產(chǎn)生。2 通用化設(shè)計(jì)往往是最不易用的。
六 站內(nèi)搜索的開(kāi)發(fā)
我寫(xiě)下面的關(guān)于站內(nèi)搜索的開(kāi)發(fā),是盡量用淺顯的語(yǔ)言來(lái)解釋開(kāi)發(fā)原理和程序請(qǐng)求的流程,主要給非專(zhuān)業(yè)的技術(shù)人員看。
我一直非常反感有一些搞產(chǎn)品、搞UED的人會(huì)說(shuō)幾個(gè)名詞 就認(rèn)為這行好混的不得了,不研究也不學(xué)習(xí),有的不看數(shù)據(jù)也不動(dòng)腦子,有的看見(jiàn)了數(shù)據(jù)也不動(dòng)腦子。 連一行數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)句都不知道就敢說(shuō)自己是研究信息架構(gòu)的,我呸。操作了這個(gè)儀那個(gè)儀就覺(jué)得自己比開(kāi)發(fā)人員還牛逼了,還替行業(yè)操心起出路來(lái)了。唉,這個(gè)行業(yè)如果哪天忽悠能少于50%,就算是有出路了。
搞產(chǎn)品應(yīng)該懂得起碼的開(kāi)發(fā)原理,不要浮于專(zhuān)有詞匯的表面。況且了解原理這事只要破除迷信,多讀點(diǎn)真東西,一點(diǎn)都不難,也沒(méi)有什么所謂的學(xué)科門(mén)檻之類(lèi)的。我很想寫(xiě)一篇《搞產(chǎn)品應(yīng)該懂的數(shù)據(jù)庫(kù)命令》,來(lái)破除下非技術(shù)人員的代碼恐懼癥。
站內(nèi)搜索的技術(shù)流程是:
第一步 提取原料:抓取網(wǎng)站頁(yè)面或格式化數(shù)據(jù)。
第二步 把原料歸類(lèi):建立索引,把關(guān)鍵字和頁(yè)面一一對(duì)應(yīng)上,分類(lèi)放好(想象一下老式圖書(shū)館里的歸檔管理方法就能形象理解索引了)
第三步 聽(tīng)用戶要上啥菜:響應(yīng)用戶的搜索需要,對(duì)用戶輸入的關(guān)鍵詞進(jìn)行分解,從索引中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。
第四步  擺盤(pán)上桌:對(duì)搜索結(jié)果頁(yè)面進(jìn)行排序,將頁(yè)面標(biāo)題、url、摘要等信息呈現(xiàn)給用戶。
一步步細(xì)說(shuō):
第一步:提取原料:抓取網(wǎng)站頁(yè)面或格式化數(shù)據(jù)。
抓取頁(yè)面是使用一種叫蜘蛛的程序,一個(gè)網(wǎng)站中成千上萬(wàn)個(gè)頁(yè)面是通過(guò)什么關(guān)聯(lián)起來(lái)的?url。蜘蛛就是通過(guò)一個(gè)頁(yè)面的url找到另一個(gè)頁(yè)面再找到另一個(gè)頁(yè)面,把所有能鏈到的頁(yè)面遍歷一邊,記錄下來(lái)。
通用搜索引擎(google baidu)的蜘蛛 很復(fù)雜,因?yàn)橐粋€(gè)頁(yè)面上可能有很多個(gè)url,每個(gè)url又關(guān)聯(lián)著無(wú)數(shù)頁(yè)面,整個(gè)網(wǎng)絡(luò)像一棵樹(shù),假設(shè)首頁(yè)是第一層,首頁(yè)上的url關(guān)聯(lián)的頁(yè)面是第二層,第二層頁(yè)面上url關(guān)聯(lián)的頁(yè)面是第三層……
蜘蛛抓取的順序就會(huì)很重要,是沿著一個(gè)url一直爬下去,還是先爬完一層再爬一層;加密或需要用戶登錄后才能訪問(wèn)的內(nèi)容怎么抓取;pdf、rar及多媒體文件怎么抓取,都有講究。不同的抓取處理在有效性、效率和對(duì) 被爬網(wǎng)站的資源占用 上有很大差異。
當(dāng)然站內(nèi)搜索沒(méi)有那么麻煩,一般是技術(shù)人員根據(jù)希望被納入搜索的內(nèi)容數(shù)據(jù)庫(kù) 生成一份格式化的 xml文檔,讓蜘蛛直接抓取就行了。但是站內(nèi)搜索在提抓取頁(yè)面更新索引時(shí),有一個(gè)指標(biāo)比較高,那就是抓取的更新頻率。
比如對(duì)于電商類(lèi)網(wǎng)站,某些商品,特價(jià)、搶貨啦,可能剛發(fā)布出來(lái)5分鐘就賣(mài)完了,或者改價(jià)格了。但是用戶聽(tīng)說(shuō)促銷(xiāo)啦,來(lái)網(wǎng)站上一搜,搜不到,或者搜到了點(diǎn)進(jìn)去發(fā)現(xiàn)價(jià)格不對(duì),用戶就會(huì)不舒服。 這就是蜘蛛抓取頁(yè)面的更新頻率過(guò)低導(dǎo)致的。要解決這個(gè)問(wèn)題并平衡性能與資源占用之間的矛盾,需要多種算法進(jìn)行優(yōu)化。
通用搜索 比如google、twitter在做這方面的努力,也就是做成實(shí)時(shí)搜索。但是站內(nèi)搜索服務(wù)還鮮有嘗試者,霍炬余晟最近在做針對(duì)電商類(lèi)的優(yōu)化。目前可以做到即時(shí)更新,也就是發(fā)布后1分鐘內(nèi)就可以被搜索到。
第二步:把原料歸類(lèi):建立索引。
建立索引這一步 集中了搜索引擎 的兩大核心技術(shù)難點(diǎn):索引結(jié)構(gòu)和中文分詞。
如果按照正常人的思維,索引應(yīng)該是這樣建立的:
把每篇文章存在文章索引表里(假定我們叫它doc索引),然后解析出該文章中有多少關(guān)鍵字,把關(guān)鍵字存在一個(gè)表里(我們叫它keyword索引)
doc索引的大致結(jié)構(gòu)就是:docID  | doc標(biāo)題/內(nèi)容 | doc的url及其它信息 | doc中每個(gè)keywordID 。
當(dāng)用戶輸入關(guān)鍵字搜索的時(shí),先找到關(guān)鍵字對(duì)應(yīng)的keywordID, 然后查找到有哪些doc里包含做這個(gè)keywordID。
這種思路很符合邏輯,但是不好意思,在效率上幾乎是不可行的。
因?yàn)樵诓檎夷男ヾoc里包含這個(gè)keyword的過(guò)程相當(dāng)于 嘩嘩嘩狂翻一本書(shū)來(lái)找里面的一個(gè)詞。網(wǎng)站的doc索引條目動(dòng)輒上萬(wàn)上十萬(wàn),要是同時(shí)查找多個(gè)關(guān)鍵字,相當(dāng)于多次狂翻一本十幾萬(wàn)頁(yè)的書(shū),你說(shuō)是不是累死了。
于是 就有一種更符合 程序運(yùn)行方式的 索引建立方法。這就是倒排索引,也叫反向索引。 而上文中提到的符合正常人思維的叫正排索引。
倒排索引中“倒”的含義是指把doc索引和keyword索引的關(guān)聯(lián)次序顛倒過(guò)來(lái)。在建立索引的時(shí)候,先建一張keyword表,結(jié)構(gòu)是:“keywordID  | 關(guān)鍵字 | 存在哪篇doc中的哪個(gè)地方 ”
“存在哪篇doc中的哪個(gè)地方” 這個(gè)信息怎么表示?
通過(guò)一種叫映射的方法。通俗地舉例:“北京”這個(gè)詞出現(xiàn)在 id為0011文章的第2段第5行第3個(gè)字,可以表達(dá)為一個(gè)字符串 0010p2l5f3,所以“北京”這個(gè)詞在keyword表里是可能這樣寫(xiě)
“ k001 | 北京 | 0010p2l5f3 , 0010p5l1f9,0012p1l2f6……”
這是一個(gè)平面的結(jié)構(gòu),實(shí)際程序中當(dāng)然不會(huì)這么簡(jiǎn)單處理,這樣效率還是太低。會(huì)處理成一個(gè)有層次的結(jié)構(gòu),比如第一層只存docID  “k001 | 北京 | 0010,0010,0012……” ,第二層再存是屬于哪一段哪一行等。
這樣做的好處是 可以在第一層實(shí)現(xiàn)一次歸并。因?yàn)樗阉鹘Y(jié)果頁(yè)面最先需要列出的只是那篇文章里包含哪個(gè)關(guān)鍵字,不需要具體位置,所以,當(dāng)北京這個(gè)詞在0010文章中多次時(shí),第一層索引可以歸并為為 “北京| 0010,0012 “ 這樣結(jié)構(gòu)又精簡(jiǎn)了。
索引的結(jié)構(gòu)及存儲(chǔ)方法對(duì) 搜索速度起致命的影響。
分詞: 中文分詞技術(shù)是中日韓專(zhuān)屬的一個(gè)的高難度課題,研究了十幾年了。而英文每個(gè)單詞之間都有空格,沒(méi)這個(gè)麻煩。
比如 “作家長(zhǎng)平時(shí)常翻閱這本書(shū)” 這句話 人可以分成“ 作家 長(zhǎng)平 時(shí)常 翻閱 這本 書(shū)”。但是計(jì)算機(jī)可能就分成了“ 作 家長(zhǎng) 平時(shí) 常 翻閱 這本 書(shū)”。計(jì)算機(jī)不認(rèn)得長(zhǎng)平三個(gè)人名,分詞錯(cuò)誤就用戶搜索長(zhǎng)平的時(shí)候就得不到這條結(jié)果。
再例如,當(dāng)用戶輸入 “和服”搜索時(shí),出來(lái)第一屏都是 “產(chǎn)品和服務(wù)”,“化妝和服裝自己搞定”,用戶是不是很郁悶。
所以分詞技術(shù) 對(duì)于 搜索的準(zhǔn)確有效性 起關(guān)鍵作用。
基礎(chǔ)的分詞方法是機(jī)械切分,也叫二元切分。就是把一句話切成最小詞單元,正向切分一次,再反向切分一次,比較下哪個(gè)更合理,再通過(guò)復(fù)雜算法識(shí)別出有效關(guān)鍵字。
更先進(jìn)的方法是在機(jī)械切分的基礎(chǔ)上使用合理的詞庫(kù),地名、品牌名、機(jī)構(gòu)、簡(jiǎn)稱(chēng)等需要詞庫(kù)。而不同行業(yè)如金融類(lèi)、計(jì)算機(jī)類(lèi)、商品類(lèi)都有不同的專(zhuān)業(yè)詞庫(kù)。
還有基于人工智能和統(tǒng)計(jì)概率的分詞算法,但是對(duì)于站內(nèi)搜索這個(gè)量級(jí)的都不適用。
對(duì)于站內(nèi)搜索而且,除了好的分詞算法,更重要的是詞庫(kù)添加和統(tǒng)計(jì)功能。網(wǎng)站管理員可以根據(jù)用戶搜索行為的統(tǒng)計(jì)分析 手動(dòng)向詞庫(kù)內(nèi)添加新詞。
第三步:聽(tīng)用戶要上啥菜:響應(yīng)用戶的搜索需要
用戶輸入的搜索條件可能是一句話,所以對(duì)用戶搜索請(qǐng)求的解析也要用到分詞技術(shù)。如果搜 “吉野家沙拉” 和 “吉野家 沙拉” 會(huì)得出不一樣的搜索結(jié)果,就是比較差的搜索引擎了。
用戶輸入的關(guān)鍵字是對(duì)詞庫(kù)的有利補(bǔ)充。比如搜全聚德的人多了,全聚德顯然是一個(gè)有效的專(zhuān)業(yè)詞匯。
多個(gè)搜索關(guān)鍵字之間存在邏輯運(yùn)算關(guān)系。邏輯運(yùn)算。。不要怕,搞設(shè)計(jì)的人應(yīng)該都知道布爾運(yùn)算。。不知道?總知道反選、多選、選區(qū)交集吧。這就是邏輯運(yùn)算中 非運(yùn)算(not)、  或運(yùn)算(or)、 與運(yùn)算(and)。
用戶的搜索條件是“美國(guó) 金融危機(jī)”如果采用 或運(yùn)算,則文章中只要包含了 美國(guó) 或 金融危機(jī) 這兩個(gè)詞中的一個(gè),都有可能被列為搜索結(jié)果。 如果采用 與運(yùn)算,則只有同時(shí)包含了 美國(guó) 和金融危機(jī)這兩個(gè)詞的文章 采會(huì)被列進(jìn)搜索結(jié)果。
所有搜索引擎都應(yīng)該在輸入搜索條件時(shí),支持邏輯運(yùn)算符。
對(duì)于通用搜索引擎,一般 多個(gè)關(guān)鍵詞之間的空格 就默認(rèn)代表了是 與運(yùn)算(and) 的關(guān)系。可以通過(guò)輸入邏輯運(yùn)算符 來(lái)完成其它搜索需求。比如 可以使用 “哈希 OR Hash” 來(lái)搜索更多關(guān)于哈希算法的信息中英文都有, 也可以使用 “小李飛刀—電視劇” 來(lái)搜索除電視劇外的小李飛刀的信息。
對(duì)于站內(nèi)搜索,1 沒(méi)有通用搜索那么大的數(shù)據(jù)量 2 比搜索引擎專(zhuān)業(yè)性更強(qiáng)。所以站內(nèi)搜索 多個(gè)關(guān)鍵字之間的空格 默認(rèn)代表的是 或預(yù)算 的關(guān)系。但是會(huì)在呈現(xiàn)結(jié)果的排序上做文章,通過(guò)多種算法計(jì)算出相關(guān)性最高的文章排在前面,相關(guān)性弱的排在后面。這樣可以幫助用戶發(fā)掘到更多 關(guān)聯(lián)性?xún)?nèi)容,結(jié)果呈現(xiàn)也更人性化。這是通常定義下的 站內(nèi)全文檢索 的一個(gè)重要特征。也是區(qū)別于數(shù)據(jù)庫(kù)搜索的技術(shù)優(yōu)勢(shì)。
響應(yīng)用戶搜索條件的時(shí)候 還有字段匹配及權(quán)重的問(wèn)題,一篇doc 可能有標(biāo)題、摘要、正文、tag、作者等多字段信息存在doc索引庫(kù)里。Keyword是出現(xiàn)在標(biāo)題、摘要還是正文中時(shí),權(quán)重是不一樣的。
第四步 擺盤(pán)上桌:對(duì)搜索結(jié)果頁(yè)面進(jìn)行排序,
琢磨過(guò)SEO的同學(xué)一定知道,所謂搜索引擎優(yōu)化 1是讓蜘蛛能抓取自己網(wǎng)站上更多的頁(yè)面2 讓自己網(wǎng)站的頁(yè)面在搜索結(jié)果里能排得更靠前。
這就要研究搜索引擎的排序算法。對(duì)于各個(gè)通用搜索引擎,排序算法是許多人的關(guān)注核心,每次權(quán)重調(diào)整都會(huì)帶來(lái)巨大震蕩。通用搜搜引擎都是在基于相關(guān)性排序上在加上各自的算法,如Google的專(zhuān)利pagerank就是通過(guò)頁(yè)面之間的互鏈來(lái)判斷頁(yè)面的價(jià)值高低,再加上鏈接引用頁(yè)面的PR值、是否在一個(gè)分類(lèi)等 各種其它指標(biāo)。
但是站內(nèi)搜索,用互鏈這種方式來(lái)判定顯然不靠譜,所以主要還是通過(guò)優(yōu)化相關(guān)性的算法,計(jì)算keyword和DOC之間的關(guān)系,例如 keyword 在doc中出現(xiàn)的密度,詞頻, doc是否和 keyword 屬于同一語(yǔ)義類(lèi)別,doc的長(zhǎng)度屬性(短的doc應(yīng)該降權(quán)之類(lèi)的)等判定 keyword的搜索結(jié)果中,哪些doc更重要更有價(jià)值。
多個(gè)關(guān)鍵字的搜索條件,讓算法更復(fù)雜,如何對(duì)多個(gè)關(guān)鍵字進(jìn)行比較、兩者的結(jié)果如何合并,兩者的結(jié)果順序如何穿插重排。
最后還要利用算法來(lái)優(yōu)化 結(jié)果排序的速度和穩(wěn)定性。
由此 才能得到站內(nèi)搜索的相關(guān)度排序結(jié)果。
————————————————————————————
上面基本講了站內(nèi)搜索的原理,看到這會(huì)有很多人覺(jué)得站內(nèi)搜索的開(kāi)發(fā)是一個(gè)技術(shù)要求很高的應(yīng)用。也的確是這樣,一般網(wǎng)站很難養(yǎng)得起一批能開(kāi)發(fā)搜索引擎的工程師,開(kāi)發(fā)周期上也承擔(dān)不起,關(guān)鍵也缺乏持續(xù)改造的動(dòng)力。產(chǎn)品設(shè)計(jì)人員也很難想在這個(gè)重要應(yīng)用上有所發(fā)揮,對(duì)產(chǎn)品進(jìn)行一點(diǎn)優(yōu)化和改造都會(huì)牽扯到巨大的開(kāi)發(fā)工作量和成本壓力。
搜索引擎核心和分詞 現(xiàn)在有一些開(kāi)源代碼或開(kāi)源詞庫(kù)可以使用,也可以選擇租用成熟的站內(nèi)搜索服務(wù)來(lái)解決開(kāi)發(fā)問(wèn)題。使用SAAS (軟件即服務(wù)模式,現(xiàn)在一種流行的技術(shù)外包服務(wù)模式) 的優(yōu)勢(shì)在于可以根據(jù)網(wǎng)站的去業(yè)務(wù)邏輯定制搜索模式,且搜索這部分的數(shù)據(jù)結(jié)構(gòu)是單獨(dú)建立重新格式化過(guò)的,對(duì)站內(nèi)搜索進(jìn)行產(chǎn)品改造不會(huì)對(duì)網(wǎng)站本身的業(yè)務(wù)邏輯和數(shù)據(jù)結(jié)構(gòu)造成任何影響。也可以不占精力成本地享受產(chǎn)品改造技術(shù)升級(jí)的好處。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
國(guó)內(nèi)中文搜索引擎比較研究 CIO俱樂(lè)部
搜索引擎工作的基礎(chǔ)流程與原理
Web-第二十八天 Lucene&solr使用一【悟空教程】
中文搜索引擎的研究分析
如何通過(guò)百度快照分析中文分詞和百度排名
深度解析搜索引擎的原理結(jié)構(gòu)
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服