国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用

Web日志挖掘在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中的應(yīng)用

汪波  楊欣
(湖北經(jīng)濟(jì)學(xué)院計算機(jī)學(xué)院 430205)
 
      摘  要 隨著現(xiàn)代信息技術(shù)在遠(yuǎn)程教育中越來越廣泛的應(yīng)用,網(wǎng)絡(luò)遠(yuǎn)程教育模式正逐步成為遠(yuǎn)程教育的主流。本文對Web日志挖掘在遠(yuǎn)程教育強(qiáng)中應(yīng)用流程進(jìn)行了研究探討,從而更好地指導(dǎo)了遠(yuǎn)程教育實踐。
      關(guān)鍵詞  Web挖掘;  Web日志; 遠(yuǎn)程教學(xué)
 

1 引言

      在網(wǎng)絡(luò)遠(yuǎn)程教育模式下,學(xué)生學(xué)習(xí)的過程就是在遠(yuǎn)程教育網(wǎng)站頁面中跳轉(zhuǎn)活動的過程,他們的每個活動都是對教學(xué)網(wǎng)站上的一個頁面對象的點擊操作,這些點擊操作都能被完整地記錄在系統(tǒng)日志中,通過對日志的分析挖掘,可以找出學(xué)生行為模式;在另一方面,遠(yuǎn)程教育網(wǎng)站的結(jié)構(gòu)組織是不是符合學(xué)生和教師學(xué)習(xí)和教學(xué)的規(guī)律,通過對網(wǎng)站日志的分析也可以得到。所有這些都離不開數(shù)據(jù)挖掘技術(shù),本文就是通過對遠(yuǎn)程教育Web服務(wù)器日志文件進(jìn)行分析,從而進(jìn)一步指導(dǎo)網(wǎng)站建設(shè)。

2 Web挖掘技術(shù)介紹

       Web挖掘是針對包括Web頁面內(nèi)容,頁面之間的結(jié)構(gòu),用戶訪問信息等在內(nèi)的各種Web數(shù)據(jù)源。在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的隱含的知識的過程。Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有其自身的特點。Web本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的數(shù)據(jù),缺乏機(jī)器可理解的語義,Web挖掘的對象是大量,異質(zhì),分布的Web文檔,對Web服務(wù)器上的日志、用戶信息等數(shù)據(jù)所開展的挖掘工作也屬于Web數(shù)據(jù)挖掘的范疇。Web信息的多樣性決定了挖掘任務(wù)的多樣性。按照Web處理對象的不同,一般將Web挖掘分為3類: Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用記錄挖掘(如圖1所示),針對這3種不同的處理對象,能夠挖掘出許多有用的信息。
圖1 Web挖掘分類

2.1 Web內(nèi)容挖掘

      Web內(nèi)容挖掘是指從文檔的內(nèi)容中提取知識。Web內(nèi)容挖掘又分為文本挖掘和多媒體挖掘。目前多媒體數(shù)據(jù)的挖掘研究還處于探索階段,Web文本挖掘已經(jīng)有了比較實用的功能。Web文本挖掘可以對Web上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用Web文檔進(jìn)行趨勢預(yù)測等。Web文檔中的標(biāo)記,例如<Title>和<Heading>等蘊(yùn)含了額外的信息,可以利用這些信息來加強(qiáng)Web文本挖掘的作用。

2.2 Web結(jié)構(gòu)挖掘

      Web結(jié)構(gòu)挖掘是從Web的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。它不僅僅局限于文檔之間的超鏈接結(jié)構(gòu),還包括文檔內(nèi)部的結(jié)構(gòu)。文檔中的URL目錄路徑的結(jié)構(gòu)等。Web結(jié)構(gòu)挖掘能夠利用網(wǎng)頁間的超鏈接信息對搜索引擎的檢索結(jié)果進(jìn)行相關(guān)度排序,尋找個人主頁和相似網(wǎng)頁,提高Web搜索蜘蛛在網(wǎng)上的爬行效率,沿著超鏈接優(yōu)先爬行。Web結(jié)構(gòu)挖掘還可以用于對Web頁進(jìn)行分類、預(yù)測用戶的Web鏈接使用及Web鏈接屬性的可視化。對各個商業(yè)搜索引擎索引用的頁數(shù)量進(jìn)行統(tǒng)計分析等。

2.3 Web使用記錄挖掘

      Web使用記錄挖掘是指從Web的使用記錄中提取感興趣的模式,目前Web使用記錄挖掘方面的研究較多,WWW中的每個服務(wù)器都保留了訪問日志,記錄了關(guān)于用戶訪問和交互的信息,可以通過分析和研究Web日志記錄中的規(guī)律,來識別網(wǎng)站的潛在用戶[1];可以用基于擴(kuò)展有向樹模型來識別用戶瀏覽序列模式,從而進(jìn)行Web日志挖掘;可以根據(jù)用戶訪問的Web記錄挖掘用戶的興趣關(guān)聯(lián)規(guī)則,存放在興趣關(guān)聯(lián)知識庫中,作為對用戶行為進(jìn)行預(yù)測的依據(jù),從而為用戶預(yù)取一些Web頁面,加快用戶獲取頁面的速度,分析這些數(shù)據(jù)還可以幫助理解用戶的行為,從而改進(jìn)站點的結(jié)構(gòu),或為用戶提供個性化的服務(wù)。

3 Web日志挖掘步驟  

      Web日志挖掘流程如圖2所示:

 
 

 

圖2 Web日志挖掘流程

3.1 Web日志記錄的主要內(nèi)容

         Web服務(wù)器日志記錄用戶訪問該教學(xué)網(wǎng)站時每個頁面的請求信息。

3.2 數(shù)據(jù)預(yù)處理

      Web日志挖掘首先要對日志中的原始數(shù)據(jù)進(jìn)行預(yù)處理,包括依賴于域的數(shù)據(jù)凈化、用戶識別、會話識別和路徑補(bǔ)充等。預(yù)處理過程是保證 Web日志挖掘質(zhì)量的關(guān)鍵步驟。
       (1)數(shù)據(jù)凈化。指刪除 Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。大多數(shù)情況,只有日志中 HTML文件與用戶會話相關(guān),所以通過檢查 URL 的后綴刪除認(rèn)為不相關(guān)的數(shù)據(jù)。例如 ,對于一個主要包含圖形文檔的站點,此時就不能將圖形文件刪除,而是自定義一套規(guī)則將它對應(yīng)到一定的HTML文件,這樣就不會將一些重要的用戶會話丟失。
      (2)識別用戶。由于本地緩存、代理服務(wù)器和防火墻的存在,使得識別用戶的任務(wù)變得很復(fù)雜。一般最常被 Web日志挖掘工具使用的技術(shù)就是基于日志/站點的方法,例如可以使用了一些啟發(fā)式規(guī)則幫助識別用戶。1)如果IP地址相同,但是日志中表明用戶的瀏覽器或操作系統(tǒng)改變了,則認(rèn)為不同的代理表示不同的用戶。2)將日志和網(wǎng)站拓?fù)浣Y(jié)構(gòu)結(jié)合,構(gòu)造用戶的瀏覽路徑。如果當(dāng)前請求的頁面同用戶已瀏覽的頁面間沒有鏈接關(guān)系,則認(rèn)為存在IP地址相同的多個用戶。
     (3)識別用戶會話。用戶會話是指用戶對服務(wù)器的一次有效訪問,通過其連續(xù)請求的頁面。我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。日志文件中不同的頁面當(dāng)然屬于不同的會話。當(dāng)用戶的頁面請求在時間上跨度較大時,就可能是該用戶多次訪問同一個網(wǎng)站。這里可以利用超時,如果兩頁間請求時間的差值超過一定界限就認(rèn)為用戶開始了一個新的會話。
     (4)識別片段。在識別用戶會話過程中的另一個問題是確定訪問日志中是否有重要的請求沒有被記錄 .這就是路徑補(bǔ)充所做的工作,解決的方法類似于用戶識別中的方法。如果當(dāng)前請求頁與用戶上一次請求頁之間沒有超文本鏈接,那么用戶很可能使用了瀏覽器上的“BACK”按鈕調(diào)用緩存在本機(jī)中的頁面。檢查引用日志確定當(dāng)前請求來自哪一頁,如果在用戶的歷史訪問記錄上有多個頁面都包含與當(dāng)前請求頁的鏈接,則將請求時間最接近當(dāng)前請求頁的頁面作為當(dāng)前請求的來源。若引用日志不完整,可以使用站點的拓?fù)浣Y(jié)構(gòu)代替。通過這種方法將遺漏的頁面請求添加到用戶的會話文件中。

3.3模式發(fā)現(xiàn)

      模式發(fā)現(xiàn)是運(yùn)用各種算法和技術(shù)對預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。這些技術(shù)包括人工智能、數(shù)據(jù)挖掘、統(tǒng)計理論、信息論等多領(lǐng)域的成熟技術(shù)。可以運(yùn)用數(shù)據(jù)挖掘中的常用技術(shù)如路徑分析,關(guān)聯(lián)規(guī)則、序列模式以及分類聚類等等。

3.4 模式分析

       該階段實現(xiàn)對用戶訪問模式的分析,基本作用是排除模式發(fā)現(xiàn)中沒有價值的規(guī)則模式,從而將有價值的模式提取出來。

4 基于Web Mining的網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站

       Web Mining指在WWW上挖掘有趣的、潛在的、有用的模式和信息的過程。 其主要目標(biāo)則是從Web網(wǎng)站的訪問日志記錄中獲取感興趣的模式,每個Web服務(wù)器都能有訪問日志文件,它記錄了訪問者的訪問和交互的信息。通過分析這些數(shù)據(jù)可以幫助網(wǎng)站管理者理解用戶的行為和Web結(jié)構(gòu),了解用戶的瀏覽習(xí)慣,調(diào)整從而改進(jìn)站點的設(shè)計。

4.1 Web日志信息

      對于一個特定的網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站來說,其拓?fù)浣Y(jié)構(gòu)是已知的,雖然不同的學(xué)習(xí)者可能有不同的訪問瀏覽模式,但從長期統(tǒng)計趨勢上說他們是穩(wěn)定的,所以經(jīng)過一段時間后會在網(wǎng)站上積累大量有用的信息(如用戶的訪問日志、注冊信息、需求信息、定單信息、交流信息等),如果不加以有效利用,會造成了資源的極大浪費(fèi)。如果采用Web Mining技術(shù)就可以充分利用這些有用信息,從而建立一個集智能化與個性化為一體的遠(yuǎn)程教學(xué)平臺。這些數(shù)據(jù)信息包含在以下幾種類型的日志文件中。
①Server log:
格式如下:
描述
日期
用戶請求頁面的日期
時間
用戶請求頁面的具體時間
用戶IP
客戶端主機(jī)IP地址或DNS入口
用戶名
客戶端的用戶名
字節(jié)數(shù)
傳輸?shù)淖止?jié)數(shù)(發(fā)送或接受)
服務(wù)器名
服務(wù)器名稱、IP地址和端口號
方法
用戶請求的方法
協(xié)議狀態(tài)
返回HTTP的狀態(tài)標(biāo)識
URL
用戶請求的頁面
所花時間
完成瀏覽所花時間
協(xié)議版本
傳輸所用的協(xié)議版本
用戶代理
服務(wù)器提供
Cookie
Cookie 標(biāo)志號
參照
用戶瀏覽的上一面   
表1 服務(wù)器日志文件中的數(shù)據(jù)格式
②Error log:
存取請求失敗的數(shù)據(jù),如:丟失連接,授權(quán)失敗,或超時。
③Cookie:
由Web server產(chǎn)生的記號并由客戶端持有,用于表示學(xué)習(xí)者和學(xué)習(xí)者的會話,Cookie是一種標(biāo)記,用于自動標(biāo)記和跟蹤站點的訪問者。

4.2 網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站W(wǎng)eb日志挖掘數(shù)據(jù)的預(yù)處理

      從學(xué)習(xí)者的訪問日志中得到的原始日志記錄并不適于挖掘,必須進(jìn)行適當(dāng)?shù)奶幚聿拍苓M(jìn)行挖掘。因此,需要通過日志清理,去除無用的記錄;對于某些記錄,我們還需要通過站點結(jié)構(gòu)信息,把URL路徑補(bǔ)充成完整的訪問序列;然后劃分學(xué)習(xí)者,并把學(xué)習(xí)者的會話劃分成多個事務(wù)。

4.3網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站W(wǎng)eb日志數(shù)據(jù)挖掘的模式發(fā)現(xiàn)

       一旦學(xué)習(xí)者會話和事務(wù)識別完成,就可以采用下面的技術(shù)進(jìn)行模式發(fā)現(xiàn)。
① 路徑分析
     它可以被用于判定在一個站點中最頻繁訪問的路徑,還有一些其它的有關(guān)路徑的信息通過路徑分析可以得出。例如:70% 的學(xué)習(xí)者在訪問/ E-Business /M2時,是從/EB開始,經(jīng)過/ E-Business /SimpleDescription,/ E-Business /M1;65%的學(xué)習(xí)者在瀏覽4個或更少的頁面內(nèi)容后就離開了。利用這些信息就可以改進(jìn)站點的設(shè)計結(jié)構(gòu)。
② 關(guān)聯(lián)規(guī)則
    使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法,可以從Web的訪問事務(wù)中找到如下的相關(guān)性:40%的學(xué)習(xí)者訪問頁面/ E-Business /M2時,也訪問了/ E-Business /M7;30%的用戶在訪/ E-Business /
SimpleDescription時,同時也訪問了/ E-Business /reference。利用這些相關(guān)性,可以更好的組織站點的Web空間,實行有效的教學(xué)策略。
③ 序列模式
    在時間戳有序的事務(wù)集中,序列模式的發(fā)現(xiàn)就是指那些如“一些項跟隨另一個項”這樣的內(nèi)部事務(wù)模式。例如:在訪問/E-Business /M2的用戶中,有80%的人曾在過去的一個星期里用關(guān)鍵字“液晶顯示器”在baidu上作過查詢。發(fā)現(xiàn)序列模式,能夠便于預(yù)測學(xué)習(xí)者的訪問模式,有助于針對這種模式,開展有針對性的教學(xué)。
④ 分類和聚類
    發(fā)現(xiàn)分類規(guī)則可以給出識別一個特殊群體的公共屬性的描述,這種描述可以用于分類學(xué)習(xí)者。例如:在/ E-Business /M4學(xué)習(xí)過的學(xué)習(xí)者中有40%是20左右的女大學(xué)生。聚類分析可以從Web訪問信息數(shù)據(jù)中聚類出具有相似特性的學(xué)習(xí)者。在Web事務(wù)日志中,聚類學(xué)習(xí)者信息或數(shù)據(jù)項能夠便于開發(fā)和設(shè)計未來的教學(xué)模式和學(xué)習(xí)群體。

4.4  網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站中Web日志數(shù)據(jù)挖掘的模式分析

      模式分析是Web日志挖掘中最后一項重要步驟。其通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值轉(zhuǎn)換為知識,再經(jīng)過模式分析得到有價值的模式,即我們感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。

5 結(jié)束語 

      進(jìn)一步的工作我們可以將Web訪問日志的挖掘和其他的Web內(nèi)容和Web鏈接結(jié)構(gòu)挖掘結(jié)合起來用于Web頁面的等級劃分、Web文檔的分類和多層次Web信息庫的構(gòu)造等方面,總之對Web數(shù)據(jù)進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘是非常有意義的。當(dāng)然,數(shù)據(jù)挖掘所帶來的好處,是與用戶的需求及數(shù)據(jù)挖掘技術(shù)本身的發(fā)展相關(guān)的。在充分了解學(xué)習(xí)者的愛好、需求的基礎(chǔ)上。利用各種Web挖掘技術(shù),設(shè)計出能滿足不同用戶群體需要的個性化網(wǎng)絡(luò)遠(yuǎn)程教學(xué)網(wǎng)站,從而提供給學(xué)習(xí)者更加滿意的服務(wù)。

參考文獻(xiàn)

1 韓家煒,孟小峰,王靜,李盛恩Web挖掘研究.計算機(jī)研究與發(fā)展,2001,4:405~414.
2 Ha H S,Bae S M,Park S C.Web mining for distance education.IEEE,2000,2:715~719.
3 王玉珍. Web使用模式挖掘在電子商務(wù)中的應(yīng)用[J].計算機(jī)應(yīng)用研究,2003,10:155-157
4 宋擒豹,沈鈞毅.Web日志的高效多能挖掘算法.計算機(jī)與發(fā)展,2001,3:328~333
收稿日期:3月2日
修改日期:3月14日
作者簡介:
汪波(1977-),講師,研究方向為現(xiàn)代網(wǎng)絡(luò)技術(shù)。
楊欣(1962-),副教授,研究方向為現(xiàn)代網(wǎng)絡(luò)技術(shù)。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
網(wǎng)絡(luò)課程的模式設(shè)計
Web(互聯(lián)網(wǎng))2.0,沿革、發(fā)展;政策與對策
淺談web分析----2
遠(yuǎn)程教育學(xué)習(xí)支持服務(wù)
網(wǎng)頁設(shè)計論文
【科研工具】一分鐘學(xué)會遠(yuǎn)程使用Web of Science
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服