国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
試用Web-HarvestJava開源Web數(shù)據(jù)抽取

                
        Web-Harvest是一個Java開源Web數(shù)據(jù)抽取工具。它能夠收集指定的Web頁面并從這些頁面中提取有
用的數(shù)據(jù)。Web-Harvest主要是運用了像XSLT,XQuery,正則表達式等這些技術來實現(xiàn)對text/xml的操作。
       個人感覺,這個工具的設計構想很好,利用寫好的xml腳本把指定的html轉化成xml,然后再利用xml
解析器從中抽取信息。這樣在編寫網頁信息抽取工具時,我們就不用擔心網頁格式的變化,會影響到信息
抽取的結果,因為整個抽取信息的部分都是通過配置對應的腳本實現(xiàn)的,我們只要修改腳本就可以了,不
用更改程序代碼。
 下面是我按照這個開源工具自己帶的例子改寫的一個提取yahoo搜索信息的腳本,用Web-Harvest執(zhí)行它
,可以提取以"KMS"為關鍵字在yahoo搜索引擎上搜索得到的結果。

腳本xml:
<?xml version="1.0" encoding="UTF-8"?>
<config charset="ISO-8859-1">
   
    <include path="functions.xml"/>
   
    <var-def name="search">KMS</var-def>
 <var-def name="url">
     <template>http://search.yahoo.com/search?p=${search}</template>
 </var-def>
           
    <!-- collects all tables for individual products -->
    <var-def name="products">   
        <call name="download-multipage-list">
            <call-param name="pageUrl"><var name="url"/></call-param>
            <call-param name="nextXPath">//big[.='Next']/a/@href</call-param>
            <call-param name="itemXPath">//ol/li</call-param>
            <call-param name="maxloops">10</call-param>
        </call>
    </var-def>
   
    <!-- iterates over all collected products and extract desired data -->
    <file action="write" path="myyahoo.xml" charset="UTF-8">
        <![CDATA[ yahoo ]]>
        <loop item="item" index="i">
            <list><var name="products"/></list>
            <body>
                <xquery>
                    <xq-param name="item"><var name="item"/></xq-param>
                    <xq-expression><![CDATA[
                            let $name := data($item//div[1]/a[1])
                            let $src := data($item//div[1]/a[1]/@href)
                            let $abs := data($item//div[2])
                                return
                                    <product>
                                        <name>{normalize-space($name)}</name>
                                        <src>{normalize-space($src)}</src>
                                        <abs>{normalize-space($abs)}</abs>
                                    </product>
                    ]]></xq-expression>
                </xquery>
            </body>
        </loop>
        <![CDATA[ yahoo ]]>
    </file>

</config>

結果xml:
<yahoo><product>
   <name>KMSResearch</name>
   <src>http://rds.yahoo.com/_ylt=A0geuodL05lFpaEArQxXNyoA;_ylu=X3oDMTB2b2gzdDdtBGNvb
G8DZQRsA1dTMQRwb3MDMQRzZWMDc3IEdnRpZAM-/SIG=11fph2etm/EXP=1167795403/**http%3a//www.kmshaircare.com/</src>
   <abs>Learn about each subbrand which has its own purpose and look to support your way of
life, mood, or whim.</abs>
</product>
.
.
.
<product>
   <name>Summer - KMS promotional items</name>
   <src>http://rds.yahoo.com/_ylt=A0geupZ705lFwVkAMQZXNyoA;_ylu=X3oDMTExYm1vY2p0BGNvb
G8DZQRsA1dTMQRwb3MDMTAwBHNlYwNzcgR2dGlkAw--/SIG=11q4tb45p/EXP=1167795451/**http%3a//kms-fra.com/en/products/sommer/</src>
   <abs>KMS Design. Special designs. Onpacks and Inpacks ... KMS presents the smallest solar
charger available. ... The KMS SoftFrisbee - this UFO is foldable! ...</abs>
</product></yahoo>

        如果你對xml,xpath,xquery這些技術都有了解,在看過Web-Harvest的幫助(http://web-harvest.sourceforge.net/manual.php)后,相信上面的腳本xml應該不難理解。
       在整個試用過程中,我也發(fā)現(xiàn)了Web-Harvest的一些問題,比如他使用tagsoup對html網頁進行清洗
,會造成一些格式不太規(guī)范的網頁數(shù)據(jù)丟失(比如google的搜索頁面),希望Web-Harvest的開發(fā)者能夠
注意到這個問題,畢竟現(xiàn)在能夠嚴格遵守HTML4.0規(guī)范的網頁并不多,更多的是xml出現(xiàn)之前就已經存在
的網頁?,F(xiàn)在的web信息抽取使用xml技術實現(xiàn)無疑是最理想的,而Web-Harvest已經為我們搭建了一個
可供選擇的抽取模型,如何解決對大量不規(guī)范網頁的無損xml轉換,將是這個工具能否運用到實際中的關
鍵環(huán)節(jié)。
        還有,由于本人水平有限,在利用Web-Harvest抽取中文的網頁,還沒發(fā)現(xiàn)完全沒有亂碼的網頁。
        這篇文章的目的是希望能夠拋磚引玉,能有更多的人關注Web-Harvest這個工具。因為Web-Harvest
還有很多高級的應用我還沒有研究;還有很多需要改進的地方。但它至少給我一個啟示,完全結構化的,
動態(tài)化的網頁信息抽取是可以實現(xiàn)的,而且并不難。
參考文獻:
Web-Harvest:http://web-harvest.sourceforge.net/
XPath教程:http://www.zvon.org/xxl/XPathTutorial/Output_chi/introduction.html
XQuery教程:http://www.w3pop.com/tech/school/xquery/default.asp

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
用 web-harvest 挖掘需要的數(shù)據(jù)-非決定性因素-搜狐博客
使用Eclipse構建Maven的SpringMVC項目
項目筆記
從服務器端獲得數(shù)據(jù)并用Flex展示
urlRewriteFilter來實現(xiàn)url的美化
tomcat虛擬路徑
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服