[本講稿引用了很多同行的成果,恕不一一注明,一并表示感謝。在備講過程中,本人得到了情報部主任張紅凌副研究館員的支持,分享了沈麗萍副研究館員、杜安平碩士的知識與經(jīng)驗,還得到技術(shù)部、辦公室有關(guān)老師的熱情幫助,在此表示衷心感謝!]
因特網(wǎng)起源于上世紀70年代初的美國,最初目的是保障國防軍用計算機之間的通信暢通。隨著信息技術(shù)的迅猛發(fā)展,在美國政府、科研機構(gòu)、高校及企業(yè)的支持推動下,因特網(wǎng)迅速發(fā)展成一個全球性的信息網(wǎng)絡,成為一個家喻戶曉的名詞,正所謂“昔日王謝堂前燕,飛入尋常百姓家”。
信息社會正向?qū)W習型社會快速轉(zhuǎn)型,終生教育或終身學習已成為每一名公民必須面對的課題,因特網(wǎng)無疑是人們知識更新的一個重要工具。信息素質(zhì)在社會公民生存與發(fā)展中的重要性日益突顯,在信息素質(zhì)的豐富內(nèi)涵中,因特網(wǎng)信息檢索與利用占有重要的位置。
因特網(wǎng)的普及也給圖書資料專業(yè)人員的工作服務方式帶來了深刻的影響。機遇與挑戰(zhàn)并存,正如國際圖聯(lián)委員、上海圖書館館長吳建中博士所言:“圖書館員需要互聯(lián)網(wǎng),互聯(lián)網(wǎng)更需要圖書館員”
基于以上事實,我們沒有理由不對“因特網(wǎng)信息檢索與利用”這個話題給予更多的關(guān)注與思考。
因本人知識認識水平有限,錯誤之處請同行批評指正。
1 因特網(wǎng)概述
1.1 什么叫因特網(wǎng)?
因特網(wǎng)(Internet)是全世界靠TCP/IP協(xié)議連接起來的所有計算機及其各級網(wǎng)絡所組成的一個全球范圍的計算機網(wǎng)絡。又稱互聯(lián)網(wǎng),即通常所說的“信息高速公路”。它有三方面的含義:
一個基于TCP/IP協(xié)議集的計算機網(wǎng)絡集合;
一個網(wǎng)絡用戶的團體。數(shù)億用戶使用著網(wǎng)絡資源,同時也為在因特網(wǎng)的發(fā)展作出貢獻;
一個所有可被訪問和利用的信息資源的集合。
1.2 因特網(wǎng)信息資源的類型和內(nèi)容
1.2.1 類型
因特網(wǎng)上信息資源浩如煙海,可以從不同的角度進行劃分和歸類,依據(jù)不同的標準,因特網(wǎng)信息資源可分成不同的類型:
歸類標準 因特網(wǎng)信息資源的類型
內(nèi)容范圍 學術(shù)信息、教育信息、政府信息、文化娛樂信息、有害和違法信息等;
發(fā)布形態(tài) 書目信息、電子報刊、文本文檔,以及網(wǎng)上電子郵件、電子公告、專題討論欄目等形式的非正式信息等;
學科領(lǐng)域 社會科學、人文科學、自然科學、技術(shù)科學等;
交流方式 非正式出版信息、半正式出版信息、正式出版信息;
組織形式 萬維網(wǎng)(WWW)、電子郵件、FTP、Telnet、Usenet/Newsgroup、LISTSERV/Mailing List、Gopher、WAIS
1.2.2 內(nèi)容
因特網(wǎng)信息資源的內(nèi)容涉及人類面對和從事的各個領(lǐng)域、行業(yè)及各種話題。如Yahoo!的中文雅虎對因特網(wǎng)信息資源的內(nèi)容概括為:藝術(shù)與人文、商業(yè)與經(jīng)濟、電腦與因特網(wǎng)、教育、娛樂、政府與政治、健康與醫(yī)藥、新聞與媒體、休閑與運動、參考資料、區(qū)域、科學、社會科學、社會與文化等大類和眾多小類。雅虎中國
值得指出的是,上述因特網(wǎng)信息資源類型和內(nèi)容的劃分交叉重疊。這種狀況,增加了網(wǎng)絡檢索的難度,但也正因為此,使因特網(wǎng)顯得神奇而令人流連往返,不可思議。
1.3 因特網(wǎng)信息資源的特點
與傳統(tǒng)信息資源相比,因特網(wǎng)信息資源具有無可比擬的優(yōu)勢,其主要特點表現(xiàn)在
內(nèi)容豐富、種類繁多、幾乎無所不包。
超文本、超媒體、集成式提供信息,除文本信息外、還有圖表、圖形、圖象、聲音、動畫等。
價廉。體現(xiàn)在互聯(lián)網(wǎng)信息資源的高度共享性,大量免費信息資源。
新穎、深入。如網(wǎng)上大量的灰色文獻或邊緣文獻。包括:研究報告、調(diào)查采訪、研討會發(fā)言、項目計劃報告等。
無序、多變、難以控制。
廣泛、直接交流。如可通過新聞組、郵件列表、實時聊天軟件參加討論。還可從專家學者的個人網(wǎng)頁上獲得許多價值獨特的資料。
1.4 因特網(wǎng)有關(guān)技術(shù)術(shù)語
這里僅從信息檢索的角度對所涉及到的因特網(wǎng)技術(shù)術(shù)語作簡單介紹。
1.4.1 超文本與超鏈接(Hypertext and Hyperlink)
超文本就是包含有鏈接的字符串,通常以下劃線的形式表示。由于超鏈接可以指向任何其他位置的文件,傳統(tǒng)印刷型文本從頭到尾線性的秩序被打破。超文本允許在文件與文件之間任意轉(zhuǎn)換,這種文本與文本之間的鏈接關(guān)系就稱為超鏈接。
1.4.2 瀏覽器(Brower)
瀏覽器是Web頁瀏覽的客戶應用程序,是一種在窗口環(huán)境下瀏覽互聯(lián)網(wǎng)資源并獲得信息的多媒體工具。有了瀏覽器,用戶才能夠在因特網(wǎng)的大海中航行。
1.4.3 通信協(xié)議(TCP/IP協(xié)議)
TCP(Transport Control Protocol)指傳輸控制協(xié)議,IP(Internet Protocol)指網(wǎng)際協(xié)議?;ヂ?lián)網(wǎng)連接了世界上不同國家與地區(qū)無數(shù)不同硬件、不同操作系統(tǒng)與不同軟件的計算機,數(shù)據(jù)在傳輸過程中很容易丟失或傳錯。為了保證這些計算機之間能夠暢通無阻地交換信息,INTERNET采用統(tǒng)一的通信協(xié)議——TCP/IP協(xié)議,它能保證數(shù)據(jù)迅速可靠傳輸。
TCP/IP協(xié)議實際是一個協(xié)議集合。我們最常見的有協(xié)議有http(超文本傳輸協(xié)議):WWW客戶機和服務器用于在網(wǎng)上傳輸、響應用戶請求的協(xié)議。
1.4.4 網(wǎng)絡地址與域名(IP地址和DN)
IP地址:互聯(lián)網(wǎng)上連接了無數(shù)的計算機(主機),用戶如何找到一個特定的主機呢?人們根據(jù)IP協(xié)議給每一個主機分配一個編碼,這個編碼稱為IP地址。它可用四組由圓點分割的數(shù)字表示。如,韶關(guān)學院圖書館網(wǎng)站的IP地址:http://210.38.195.8
域名(Domain name): IP地址難于記憶,也可以用域名來表示主機。域名由英文字母表示, 具有一定的意義, 便于記憶。如韶關(guān)學院網(wǎng)站的域名:www. sgu. edu.cn 其中cn代表中國(China),edu代表教育網(wǎng)(Education),sgu代表韶關(guān)學院(Shaoguan University),www代表萬維網(wǎng)(World Wide Web),整個域名合起來就代表中國教育網(wǎng)上的韶關(guān)學院站點。
互聯(lián)網(wǎng)上的域名千姿百態(tài),但從域名的結(jié)構(gòu)來劃分,總體上可把域名分成兩類,一類稱為“國際頂級域名”(簡稱“國際域名”),一類稱為“國家域名”。一般國際域名的最后一個后綴是一些諸如.com .net .gov .edu的“國際通用域”,這些不同的后綴分別代表了不同的機構(gòu)性質(zhì)。
國際頂級域名舉例(機構(gòu)性質(zhì)域名)
域名 表示的組織或機構(gòu)的類型
com 商業(yè)機構(gòu)
edu 教育機構(gòu)或設(shè)施
gov 非軍事性的政府機構(gòu)
int 國際性機構(gòu)
mil 軍事機構(gòu)或設(shè)施
net 網(wǎng)絡組織或機構(gòu)
org 非贏利性組織機構(gòu)
在國家域名中,對于美國以外的主機,其最高層次域基本上都是按國家命名的。國家名域指明了該域名源自的國家。在幾乎所有的情況中,國家域名都是兩個字母的國家代碼。美國雖然也有地理域,但很少使用。如果在一個域名的末尾沒有找到國家域,就可以假定該域名是源自美國的。其他國家的右邊第一個域名則代表國家。
國家域名舉例
域名 表示國家或地區(qū) 域名 表示國家或地區(qū)
AU 澳大利亞 JP 日本
AT 奧地利 KR 韓國
BR 巴西 SG 新加坡
CA 加拿大 UK 英國
CN 中國 FR 法國
TW 中國臺灣 DE 德國
HK 中國香港 NZ 新西蘭
MO 中國澳門 RU 俄羅斯
域名舉例:
http://www.who.int
世界衛(wèi)生組織(國際組織 .int)
http://www.sgu.edu
美國圣喬治大學(高校 .edu)
http://www.uq.edu.au
澳大利亞昆士蘭大學(澳大利亞高校 .edu.au)
http://www.cdc.gov
美國疾病與預防控制中心(政府機構(gòu) .gov)
http://www.ala.org
美國圖書館協(xié)會(非贏利性組織 .org)
1.4.5統(tǒng)一資源定位器(URL)
URL把主機域名和主機內(nèi)部的文件目錄系統(tǒng)結(jié)合起來,作為瀏覽器瀏覽主頁的統(tǒng)一地址表示方法。URL從左到右依次為:協(xié)議、主機域名或IP地址、文件路徑、文件名。
如《韶關(guān)學院教學成果獎實施細則》的URL為:
http://www.sgu.edu.cn/uinfo/xwgk/jwc/jxcg.htm
網(wǎng)絡檢索的最直接檢索目的就是某個資源的URL,而常見因特網(wǎng)檢索工具如各種搜索引擎的所謂高級檢索功能就是圍繞URL來做文章的。這也是人們討論所謂檢索技巧的基礎(chǔ)之一。
2 因特網(wǎng)檢索工具
2.1 定義
指在因特網(wǎng)上提供信息檢索服務的計算機系統(tǒng),其檢索對象是存在于因特網(wǎng)信息空間中各種類型的網(wǎng)絡信息資源。網(wǎng)絡檢索工具通常稱為搜索引擎。
著名的檢索工具有百度、Yahoo、Lycos、Google等。
2.2 搜索引擎的四種類型
2.2.1 目錄式搜索引擎(subject directory)(也稱網(wǎng)絡資源目錄)
1) 定義
由信息專業(yè)人員在廣泛搜集網(wǎng)絡資源及有關(guān)加工整理的基礎(chǔ)上,按照某種主題分類體系編制的一種可供檢索的等級結(jié)構(gòu)目錄。如中文Yahoo!
一個網(wǎng)絡目錄包括許多層 ,層次一般是的4級 。用戶能通過瀏覽目錄,在目錄體系的引導下,發(fā)現(xiàn)、檢索到有關(guān)的信息。
如用戶想利用網(wǎng)絡資源目錄查找有關(guān)搜索引擎的信息, 在中文Yahoo!分類搜索引擎上的檢索路徑是:電腦與因特網(wǎng)>因特網(wǎng)>搜尋與檢索 > 搜索引擎
2)目錄式搜索引擎的特點:
經(jīng)過信息管理專業(yè)人員、分類專家的人工設(shè)計和編制,提高了檢索的準確性。
數(shù)據(jù)庫的規(guī)模相對較小,檢索到的信息數(shù)量有限。
目錄型檢索工具比較適合于查找綜合性、概括性的主題概念,或?qū)z索準確度要求較高課題。最著名的目錄型檢索工具是YAHOO!
2.2.2 機器人搜索引擎
1)原理
使用自動索引軟件發(fā)現(xiàn)、收集并標引網(wǎng)頁,建立數(shù)據(jù)庫;以Web形式提供用戶一個檢索界面,供用戶輸入檢索詞;代理用戶在數(shù)據(jù)庫中查找出與提問匹配的記錄,并返回結(jié)果且按相關(guān)度排序輸出。
機器人搜索引擎原理圖
2)機器人搜索引擎的特點
由自動索引軟件生成數(shù)據(jù)庫,收錄、加工信息的范圍廣、速度快,能及時地向用戶提供新增信息。
標引過程缺乏人工干預,準確性較差,加之檢索軟件的智能化程度又不很高,導致檢索誤差較大。
搜索引擎適合于檢索特定的信息及較為專、深、具體或類屬不明確的課題。較有代表性的搜索引擎有Google,EXCITE等。
機器人搜索引擎與分類搜索引擎有合并的趨勢,典型的有Yahoo!,百度
2.2.3 多元搜索引擎
將多個搜索引擎集成在一起,提供一個統(tǒng)一的檢索界面,并將一個檢索提問同時發(fā)送給多人搜索引擎,同進檢索多個數(shù)據(jù)庫,再經(jīng)過聚合、去重之后輸出檢索結(jié)果。如Dogpile Metacrawler 等。
?優(yōu)點:省時 ?缺點:準確性差
2.2.4 專門搜索引擎
用于查找特殊類型信息的搜索引擎,如人物查詢、地圖檢索和圖象檢索等,或者某學科專業(yè)領(lǐng)域。如Medical world search(http://www.mwsearch.com),Amazing Picture Machine(http://www.ncrtec.org/picture.htm) 等
常用中文搜索引擎
Baidu www.baidu.com 約1.24億中文網(wǎng)頁,平均2周更新一遍,對部分網(wǎng)頁每天更新。提供百度快照、網(wǎng)頁預覽/預覽全部結(jié)果、相關(guān)搜索詞、錯別字糾正提示、Flash搜索、信息快遞、百度搜霸、搜索援助中心,推薦使用MP3搜索。Baidu搜索技巧
Google中文 www.google.com/intl/zh-CN/ 中文網(wǎng)頁數(shù)不詳,按比例推算約8500萬。平均1月更新一遍,對部分網(wǎng)頁每日更新,由 BasisTechnology 提供中文處理技術(shù),搜索相關(guān)性高,高級搜索語法豐富。提供Google工具條、網(wǎng)頁快照、圖像搜索(4.25億圖片)、新聞組搜索。Google搜索幫助
Alltheweb(Fast)www.alltheweb.com 4480萬簡體中文網(wǎng)頁,1401萬繁體中文網(wǎng)頁,需單選中簡體中文語言搜索,否則效果不好。
Openfind中文 www.openfind.com/cn.web.php?u=cn 中文網(wǎng)頁數(shù)不詳,從檢索效果上看與Google相近。更新較慢,提供按網(wǎng)頁大小或日期排序。Openfind查詢秘訣
北大天網(wǎng) http://e.pku.edu.cn/ 約6000萬網(wǎng)頁,更新略慢,搜索相關(guān)性較低。提供天網(wǎng)搜霸、歷史網(wǎng)頁。推薦使用ftp搜索。天網(wǎng)使用幫助
Inktomi/MSNAltavista www.msn.comwww.av.com Inktomi和Altavita收錄中文網(wǎng)頁也以千萬計,但因為它們沒作中文特殊處理,所以用簡單的中文關(guān)鍵詞可以搜到一些內(nèi)容,但用稍長一點或組合關(guān)鍵詞查詢時,搜索效果就很差。其它如Wisenut、Gigablast等,也能搜索一點點中文,但因為沒做中文特殊處理,一樣沒有搜索價值。
常用英文搜索引擎
Google www.google.com 30億網(wǎng)頁(約1/4非全文索引),用戶界面出色,有新聞組、圖像、新聞等搜索,以搜索相關(guān)性高聞名。
Alltheweb(Fast) www.alltheweb.com 21億網(wǎng)頁,高級檢索強大,有新聞、圖片、MP3、Video、ftp,利用ODP對搜索結(jié)果簡單分類。
Altavista www.av.com 約7億網(wǎng)頁,有圖像(5.4億圖片)、音頻、視頻文件、新聞搜索,高級語法強大,有prisma輔助檢索。(部分網(wǎng)友需通過p-roxy訪問,無p-roxy可用 qbseach 單選altavista搜索。)
Inktomi search.positiontech.com 自稱30億網(wǎng)頁(搜索效果上看不出這么多),技術(shù)設(shè)置和參數(shù)可調(diào)性高,支持的門戶搜索數(shù)據(jù)庫和排序多不同,可到 Hotbot 使用Inktomi的高級搜索。
Northernlight nlresearch.northernlight.com 約7億網(wǎng)頁+7100出版物數(shù)據(jù),需選中"World Wide Web only"搜索。速度略慢,雜志數(shù)據(jù)有獨特搜索價值,能對結(jié)果作簡單自動分類,翻頁數(shù)不限,支持通配符。
Wisenut www.wisenut.com 約14億網(wǎng)頁,網(wǎng)頁索引數(shù)據(jù)庫偏老,提供類似簡單自動分類和相關(guān)檢索詞的WiseGuide,及預覽搜索結(jié)果的Sneak-a-Peek。
Openfind www.openfind.com 自稱35億網(wǎng)頁(搜索效果上看不出這么多),舊網(wǎng)頁死鏈接多,支持按網(wǎng)頁大小或日期排序。
Teoma www.teoma.com 約3億網(wǎng)頁,速度略慢,支持類似自動分類Refine;同時提供專業(yè)鏈接目錄的Resources。
Gigablast www.gigablast.com 1.5億網(wǎng)頁,提供網(wǎng)頁快照。
3 因特網(wǎng)信息檢索
3.1 定義
因特網(wǎng)信息檢索(Internet Information Retrieval), 又稱因特網(wǎng)信息查詢或搜索(Internet Information search),是指通過Internet,借助網(wǎng)上的服務和工具,根據(jù)信息需求,在按一定方式組織和存儲起來的因特網(wǎng)信息集合中查找出有關(guān)信息的過程。
3.2 特點
3.2.1 信息源選擇范圍大,不受時空限制
3.2.2 交互性強、易于反饋
可以人機對話,交互作業(yè)。比如輸入錯誤的檢索詞后,會自動提供正確的拼法,請用戶確認;良好的信息反饋功能。能就所遇到的問題獲得幫助和指導,便于檢索及時調(diào)整檢索策略,以獲得良好的檢索結(jié)果。
3.2.3 準確性和完整性不盡如人意
主要表現(xiàn)在變動不居,隨意自由,檢索工具和手段不很理想。認識到這一點,有助于認識到對網(wǎng)絡信息評價是一個重要問題。
3.2.4 檢索結(jié)果呈逐級鏈接
無法通過一次查找就能達到最終目的,其初步返回的結(jié)果通常僅包括題目、內(nèi)容簡介、URL地址等,往往是指向某一網(wǎng)站網(wǎng)頁的鏈接目錄,即資源網(wǎng)址,而非所需資源本身,還需要通過鏈接進行更進一步的檢索,并深入到各個資源目錄中多次查找才能完成檢索并獲取更詳細的內(nèi)容。
3.2.5 檢索與瀏覽相結(jié)合
在因特網(wǎng)信息檢索中,由于因特網(wǎng)檢索工具基本上既有供瀏覽的分類信息,又具備檢索功能,檢索便于有的放矢,直接獲取檢索結(jié)果;瀏覽利用邊查邊看,發(fā)現(xiàn)未曾預料的結(jié)果,因此,因特網(wǎng)檢索通常是瀏覽與檢索有機結(jié)合,方便用戶查找信息。
3.3 因特網(wǎng)信息檢索的一般方法
要獲取因特網(wǎng)上的信息,用戶必須首先找到網(wǎng)址(URL),然后通過網(wǎng)址去訪問網(wǎng)頁所提供的信息。一般方法可有以下幾種:
3.3.1瀏覽
1)偶然發(fā)現(xiàn):即在日常的網(wǎng)絡閱讀、漫游過程中,意外發(fā)現(xiàn)一些有用信息。這種方式的目的性不是很強,有不可預見性、偶然性。有時會充滿樂趣,有時也可能一無所獲。
2)順鏈而行:指用戶在閱讀超文本文檔時,利用文檔中的鏈接從一個網(wǎng)頁轉(zhuǎn)向另一相關(guān)網(wǎng)頁。有些類似傳統(tǒng)文獻檢索中的“追溯檢索”,即根據(jù)文獻后所附的參考文獻目錄去追溯相關(guān)文獻,一輪一輪地不斷擴大檢索范圍。這種方法可以在短時間內(nèi)獲得大量相關(guān)信息,但也有可能在順鏈而行的過程中偏離檢索目標,或迷失于網(wǎng)絡信息空間中。
3.3.2 通過網(wǎng)絡資源指南來查找信息
網(wǎng)絡資源指南即指前面所講的目錄式搜索引擎,或網(wǎng)絡資源目錄。Yahoo!就是典型的綜合性網(wǎng)絡資源指南。此外,還有各種專業(yè)性的網(wǎng)絡資源指南,幾乎每一個學科專業(yè)、重要課題、研究領(lǐng)域的網(wǎng)絡資源指南都可在因特網(wǎng)上找到。對于有目的網(wǎng)絡信息發(fā)現(xiàn)有重要的指導、導引作用。但由于管理、維護跟不上網(wǎng)絡信息的增長速度,導致收錄范圍不夠全面,新穎性、及時性可能不夠強。
3.3.3 利用搜索引擎
這是較為常規(guī)的網(wǎng)絡信息檢索方式。用戶以關(guān)鍵詞、詞組或自然語言構(gòu)成檢索表達式,提出檢索要求,搜索引擎代替用戶在數(shù)據(jù)庫中進行檢索,并將檢索結(jié)果提供給用戶。它一般支持支持布爾檢索、詞組檢索、截詞檢索、字段檢索等功能。
利用搜索引擎進行檢索的優(yōu)點是:省時省力, 簡單方便,檢索速度快、范圍廣,能及時獲取新增信息。其缺點在于檢索準確性不是很高,與人們的檢索需求及對檢索效率的期望有一定的差距。
3.4 因特網(wǎng)信息的檢索策略與方法
3.4.1 檢索策略
所謂檢索策略是在分析情報提問實質(zhì)的基礎(chǔ)上,確定檢索途徑與檢索用詞,并明確各詞之間的邏輯關(guān)系與科學的查找步驟。構(gòu)造良好的檢索策略是查準與查全的關(guān)鍵。用戶能否構(gòu)造一個最佳的檢索策略,將直接影響到檢索的查全率、查準率。
(網(wǎng)絡信息檢索原理圖)
3.2 搜索引擎檢索方法(以Google為例)
3.2.1 Google簡介(http://www.google.com)
1998年9月由兩名斯坦福大學的研究生開始研制,2000年正式投入商業(yè)運營。目前可檢索網(wǎng)頁達30億個。每日訪問量達7000萬次。包括雅虎、美國在線、網(wǎng)景和中國的網(wǎng)易等知名站點在內(nèi)的全球150多家公司采用了Google搜索引擎技術(shù)。 被美國《時代》雜志評選的“1999年度十大網(wǎng)絡技術(shù)之一”,《個人電腦¤“最稼予“最佳技術(shù)獎“,The Net授予“最佳搜索引擎獎”
雅虎的網(wǎng)站使用人數(shù)是Google的10倍,但Google的消費者滿意度始終名列第一。支持中文搜索,其中文按索引擎是收集亞洲網(wǎng)站最多的搜索引擎之一。
3.2.2 Google的特點
1)專利網(wǎng)頁級別技術(shù)PageRank能夠提供高命中率的搜索結(jié)果。
2)搜索結(jié)果摘錄查詢網(wǎng)頁的部分具體內(nèi)容,而不僅僅是網(wǎng)站簡介。
3)支持多達132種語言,包括簡體中文和繁體中文。
4)網(wǎng)站首頁設(shè)計簡潔、鮮明、大方 ,使用方便。
5)“網(wǎng)頁快照”功能,能從Google服務器里直接取出緩存的網(wǎng)頁。
3.2.3 Google的檢索功能
1)基本檢索
A.邏輯“與”操作 無需用明文的“+”來表示邏輯“與”操作,只用空格就可以了。例如:“韶關(guān)學院 圖書館”可以查出同時包含“韶關(guān)學院”和“圖書館”二個關(guān)鍵字的全部文檔。
注意:文章中搜索語法外面的引號僅起引用作用,不能帶入搜索欄內(nèi)。
B.邏輯“非”操作 用英文字符“-”表示邏輯“非”操作。此外,操作符與作用的關(guān)鍵字之間,不能有空格?!吧仃P(guān)學院 –圖書館”(正確),“韶關(guān)學院 - 圖書館”(錯誤)
如果存在空格,搜索引擎將視為 “韶關(guān)學院”和“圖書館”的邏輯“與”操作,中間的“-”就被忽略。
C.邏輯“或”操作,Google用大寫的“0R”表示邏輯“或”操作,小寫的“r”在查詢的時候?qū)⒈缓雎?,否則操作就變成了一次“與”查詢。如:“韶關(guān)學院 OR 圖書館”可以查找到包括“韶關(guān)學院”或“圖書館”的網(wǎng)頁。注意:“0R”后面要加空格,否則就成了“與”操作。
不使用“詞干法”,也不支持“通配符”(*) 為提供最準確的資料,Google 只搜索與輸入的關(guān)鍵詞完全一樣的字詞。例如:搜索“comput*” 不會出現(xiàn)“compute”、“computer”等詞,相反,Google將其當作一個錯誤詞加以提示。
對英文字符大小寫不敏感 “GOD”和“god”搜索的結(jié)果是一樣的。
Google的關(guān)鍵字可以是詞組(中間沒有空格),也可以是句子(中間有空格)。但是,用句子做關(guān)鍵字,必須加引號,否則Google將自動分詞,如“膽子再大一點,步子再快一點”
2)高級檢索
“site:” 對搜索的網(wǎng)站進行限制
“site:”表示搜索結(jié)果局限于某個具體網(wǎng)站或者某個域名。
例一:限定國家:查找英國高校圖書館網(wǎng)頁信息
檢索表達式 university. library site:uk
例二:限定領(lǐng)域:查找中國高校圖書館網(wǎng)站有關(guān)信息
檢索表達式:圖書館 site:edu.cn
檢索表達式:中國 高校 圖書館 (對比檢索結(jié)果)
如果是要排除某網(wǎng)站或者域名范圍內(nèi)的頁面,只需用“關(guān)鍵詞 -site:網(wǎng)站名或域名”。site后冒號為英文字符,而且,冒號后不能有空格,否則,“site :”將被作為一個搜索的關(guān)鍵字。
這個功能可以幫助我們迅速從某個地區(qū)或某個網(wǎng)站中找到所需信息,從而大大縮小檢索范圍,提高檢索效率。
“filetype:”查詢某一類文件 (往往帶有同一擴展名 )
“filetype:” 是Google的一個特色查詢功能??伤阉鞯奈募愋桶?Adobe Portable Document Format (PDF)、Adobe PostScript(PS)、Microsoft Excel(XLS)、Microsoft PowerPoinet (PPT)、Microsoft Word (DOC)、Rich Text Format (RTF)等12種。其中最重要的文檔搜索是PDF搜索(注:PDF是ADOBE公司開發(fā)的電子文檔格式,現(xiàn)在已經(jīng)成為互聯(lián)網(wǎng)的電子化出版標準)。目前Google檢索的PDF文檔大約有2500萬左右。
例一 查找關(guān)于生物的生殖發(fā)育方面的教學課件
檢索表達式: 生物 生殖 發(fā)育 課件
檢索表達式:生物 生殖 發(fā)育 filetype:ppt(對比檢索結(jié)果)
例二:查找關(guān)于遺傳算法應用的論文(pdf格式)
檢索表達式:遺傳算法 filetype:pdf
例三:查找查新報告樣本(DOC格式)
檢索表達式:查新報告 filetype:doc
“inurl:”和“allinurl:” 搜索的關(guān)鍵字包含在URL鏈接中
“inurl:”語法返回的網(wǎng)頁鏈接中包含第一個關(guān)鍵字,后面的關(guān)鍵字則出現(xiàn)在鏈接中或者網(wǎng)頁文檔中。有很多網(wǎng)站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網(wǎng)頁名稱中,比如“MP3”、“Photo”等,于是,就可以用“inurl:”語法找到這些相關(guān)資源鏈接,然后,用第二個關(guān)鍵詞確定是否有某項具體資料。
“allinurl:” 語法返回的網(wǎng)頁的鏈接中包含所有查詢關(guān)鍵字。這個查詢的對象只集中于網(wǎng)頁的鏈接字符串。
“inurl:”和“allinurl:”功能通常能提供非常精確的專題資料。
例一:檢索表達式“inurl:mp3 劉德華”
例二:檢索表達式“allinurl:mp3 劉德華”的檢索結(jié)果
“intitle”和“allintitle”搜索的關(guān)鍵詞包含在網(wǎng)頁的標題之中
“intitle”和“allintitle”的用法類似于上面的inurl和allinurl,只是后者對URL進行查詢,而前者對網(wǎng)頁的標題欄進行查詢。網(wǎng)頁設(shè)計的一個原則就是要把主頁的關(guān)鍵內(nèi)容用簡潔的語言表示在網(wǎng)頁標題中。因此,只查詢標題欄,通常也可以找到高相關(guān)率的專題頁面。比如“intitle:學科館員”可以查到網(wǎng)頁標題中含有“學科館員”的網(wǎng)頁。
以上介紹的是Google的常用檢索功能,除了個別功能是Google目前所特有的外(如特殊文本檔式PDF、DOC等的檢索),其余功能各大搜索引擎都已具備,只是在語法規(guī)定細節(jié)上略有區(qū)別,使用每種搜索引擎前,必須閱讀有關(guān)搜索幫助文字說明。
3.6 網(wǎng)上原文獲取途徑及信息源質(zhì)量評價
3.6.1 原文獲取途徑
1)直接點擊檢索結(jié)果中的鏈接
2)利用網(wǎng)絡快照
所謂網(wǎng)絡快照,是指搜索引擎(如百度、Google)先預覽各網(wǎng)站,拍下網(wǎng)頁的快照,并保存在服務器上供用戶直接調(diào)取。
網(wǎng)絡用戶點擊檢索結(jié)果鏈接后,經(jīng)常會遇到“該頁無法顯示”(找不到網(wǎng)頁的錯誤信息),或者網(wǎng)頁連接速度緩慢,要十幾秒甚至幾十秒才能打開的情況。原因很多,比如:網(wǎng)站服務器暫時中斷或堵塞、網(wǎng)站已經(jīng)更改鏈接等等。用戶在不能鏈接所需網(wǎng)站時,網(wǎng)絡快照(暫存的網(wǎng)頁)即可救急,而且通過網(wǎng)頁快照尋找資料要比常規(guī)鏈接的速度快得多。
3)利用免費參考網(wǎng)站
Findarticles.com (www.findarticles.com).
從該網(wǎng)站可免費獲得300多種雜志和期刊中發(fā)表過的文章,涉及文藝娛樂、汽車、商貿(mào)金融、計算機、健康、社會、教育、體育等,最早的文章發(fā)表于1998年,并不斷更新。網(wǎng)站提供良好的檢索瀏覽功能。
Free Medical Journals(www.freemedicaljournals.com).
該網(wǎng)站提供1000余種可從網(wǎng)上免費獲得全文的醫(yī)學雜志網(wǎng)址鏈接。除英語雜志外,還有以意大利語、法語、葡萄牙語、西班牙語等語種出版的雜志。部分雜志對全文上網(wǎng)有時間限制,有的在發(fā)表6個月后才上網(wǎng),有的則要推遲1年。雜志按刊名和專業(yè)排列,檢索方便。對于醫(yī)學研究人員和普通人士,這是一個免費獲得醫(yī)學文獻的優(yōu)秀門戶網(wǎng)站。
The Internet Archive (http://www./web/web.php).
該網(wǎng)站建于1996年,目的是為研究人員、學者提供數(shù)字信息的永久性存取。用戶只需將某文檔的URL輸入Wayback Machine檢索框,大多數(shù)情況可以查到該文檔的歷次存檔記錄。那些已從服務器刪除的文檔,一般也能從該網(wǎng)站查到。網(wǎng)站還提供對大量早期有關(guān)科教、文化、廣告的影片、訪談和圖片資料的存檔和檢索。對于有志于互聯(lián)網(wǎng)歷史演變研究的人員,這也是一個極有價值的在線檔案館。
4)利用文獻傳遞服務
找到提供館際互借或文獻復制的有關(guān)單位的網(wǎng)址和電子郵件地址,發(fā)出電子郵件請求請求原文。
5)直接與作者本人聯(lián)系
以書信或電子郵件等形式與作者本人聯(lián)系,請求提供所需文獻資料。
6)通過個人關(guān)系
獲取原文的過程中,應該遵循必要的禮儀并尊重原作者、編譯者的知識產(chǎn)權(quán),還應聲明使用目的和范圍。
3.6.2 信息源質(zhì)量評價
因特網(wǎng)信息與傳統(tǒng)文獻的出版形式不同,既沒有固定的出版要求,又沒有固定的出版形式,也沒有經(jīng)過像出版社這樣的專門機構(gòu)的評審、編輯與加工,因此,在獲取與利用網(wǎng)絡信息時,就有一個對網(wǎng)上信息質(zhì)量如何評價的問題。如何判斷網(wǎng)站所提供的數(shù)字、事實、描述等信息是權(quán)威的、客觀的、可靠的、及時的?以下一些要素可供參考:
權(quán)威性(Authority)。當無法鑒定信息的質(zhì)量時,信息提供者的權(quán)威性可以作為借鑒,如作者的知名度、誰最終對網(wǎng)頁的內(nèi)容負責(編者)、網(wǎng)站主辦者(網(wǎng)絡信息的出版者)的介紹、主辦單位的目標描述、地址和聯(lián)系方法、網(wǎng)站性質(zhì)(從域名判斷,如.edu .org .gov .net .com等 ),以及有關(guān)知識產(chǎn)權(quán)的聲明。
準確性(Accuracy)。如列出了可供核查事實的信息來源并標有負責監(jiān)測發(fā)表內(nèi)容的編輯姓名。
客觀性(Objectivity)。如提供的信息或事實不混同于有傾向性的宣傳和評論,在介紹有爭議的觀點時持中立立場,并提供公正的評判。
適時性(Currency)。如注意信息內(nèi)容發(fā)表和修改的時間、版權(quán)日期,保持信息時效性。在主頁(甚至每網(wǎng)頁)底部往往可以找到信息發(fā)布日期,不斷變化或發(fā)展迅速的專題所標明的日期應該是最近的。
內(nèi)容范圍(Coverage)。明確網(wǎng)頁所提供的實際內(nèi)容與聲明宗旨是相符且無重要遺漏。
4網(wǎng)絡信息檢索幾點體會
4.1 選擇合適的檢索詞。
盡量選專指詞、特定概念詞或非常用詞,避免普通詞、泛指概念。
4.2 選擇合適的檢索工具
有時還需要直接檢索網(wǎng)上數(shù)據(jù)庫,或者專業(yè)性搜索引擎。
信息類型與搜索引擎的匹配
檢索目的 適用的搜索引擎
查找廣泛、綜合性信息 雅虎中國,百度,Yahoo!, Infoseek,Lycos
查找具體的細節(jié)性信息 天網(wǎng), Alta Vista,Infoseek
最大可能地查到相關(guān)信息 天網(wǎng),網(wǎng)易,Alta Vista,Infoseek,Google,Ask Jeeves
搜索站點評論 Infoseek,Lycos
搜索標題和URL Alta Vista,Yahoo!
搜索用戶小組 Google,Alta Vista,Infoseek
全文檢索(交叉學科問題) Excite,OpenText,Alta Vista
圖像、聲音、視頻文件 Lycos,Alta Vista
自然語言 3721,網(wǎng)易,Infoseek,Ask Jeeves
模糊檢索(不知道確切的關(guān)鍵詞) Excite, WWW Virtual Library
學術(shù)性信息 Excite, WWW Virtual library
流行性問題 雅虎中國,百度,Galaxy, Yahoo!
4.3 使用搜索引擎的高級檢索功能
縮小檢索范圍,節(jié)約瀏覽時間,快速檢出所需結(jié)果。
4.4使用同義詞、近義詞、簡稱等
檢索軟件的智能化程度較低,一般執(zhí)行的是與關(guān)鍵詞簡單的字面匹配。因而會漏檢與關(guān)鍵詞相關(guān)或一致的概念。使用同義詞和近義詞和簡稱,可全面地檢索出有關(guān)信息。
計算機 電腦; 高中英語第二冊 高二英語; 清華大學 清華;
digital reference virtual reference;
information retrieval information seeking
4.5 建立收藏夾
根據(jù)工作、研究與愛好的需要,將平時發(fā)現(xiàn)的相關(guān)優(yōu)秀網(wǎng)站分門別類建立收藏夾,并經(jīng)常瀏覽。
4.6 擴大知識面,與別人交流
對所檢索課題的背景知識了解得越深越廣,越容易檢索到最符合需求的結(jié)果。每人都有其獨特的思維習慣和知識結(jié)構(gòu),彼此交流可以有效地彌補個人知識盲區(qū),開拓視野。
總之,及時獲得真實準確的因特網(wǎng)信息是信息檢索者的目標。面對海量的因特網(wǎng)信息,檢索者必須了解因特網(wǎng)信息資源的組織和分布,掌握因特網(wǎng)信息檢索的方法與技巧,制定正確的檢索策略,只有這樣,檢索者才可能敏銳、準確地捕捉到有用的信息,提高檢索效率和效果。
思考題
1 簡述Google的高級檢索功能,試舉例構(gòu)寫相關(guān)檢索表達式。
2 簡述網(wǎng)上原文信息獲取途徑及質(zhì)量評價標準。
附錄:因特網(wǎng)信息檢索與利用學習資源
1 網(wǎng)絡資源
搜索研究院(http://www.9238.net)提供搜索引擎知識、技巧及業(yè)界動態(tài)等內(nèi)容。
搜索工具箱 (http://www.chentao.com/website/hunttool/ )提供搜索引擎使用指導,登錄說明,相關(guān)文章和主要引擎鏈接。
Finding Information On The Internet: A Tutorial 加州大學伯克萊分?;ヂ?lián)網(wǎng)檢索網(wǎng)絡教程。(http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html)
Bare Bones 101: A Very Basic Web Search Tutorial 美國南卡州大學ufort 圖書館網(wǎng)絡檢索基本教程。
Search Engine Watch 網(wǎng)絡搜索技巧、搜索引擎最新動態(tài)等。
2 期刊數(shù)據(jù)庫資源
(http://210.38.195.8/)
(http://210.38.195.8/e_re/cnki.htm)
以“互聯(lián)網(wǎng)”、“因特網(wǎng)”、“網(wǎng)絡” “Internet/INTERNET”
“Web”等為檢索詞,配以學科領(lǐng)域關(guān)鍵詞如“生物”、“化工”、“醫(yī)藥”、“橡膠”“經(jīng)濟”等,可檢索出介紹各學科領(lǐng)域網(wǎng)絡信息資源檢索方法的大量文章。
3 傳統(tǒng)館藏資源
中圖分類號G252.7 G354
《教師獲取信息技能》
《信息檢索—從手工到聯(lián)機、光盤、因特網(wǎng)》
《網(wǎng)絡學術(shù)信息資源及其檢索》
《因特網(wǎng)信息資源檢索與利用》
《網(wǎng)絡與光盤文獻檢索》
《現(xiàn)代信息檢索》
《電子電信信息資源檢索與利用》
《法律文獻檢索教程》 《法學文獻信息檢索》
《Internet上的化學化工資源》《Internet與化學信息導論》
《化學化工信息及網(wǎng)絡資源的檢索利用》
《農(nóng)業(yè)文獻信息檢索與利用》《食品與烹飪文獻檢索》
《商情信息源檢索》
《電子商務信息檢索》
《旅游文獻檢索與利用》
謝謝大家