首先,讓我們來回顧一下這種數(shù)據(jù)集成的生命周期所包含的7個(gè)步驟。通過這7個(gè)步驟使得數(shù)據(jù)變得可視化,使得它的價(jià)值變得可以評定,以及它的形式和使用變得更易于理解:
訪問:盡管它的形式可能極不容易理解和存檔,并且它的數(shù)據(jù)源也在一定程度上不透明,但是數(shù)據(jù)必須習(xí)慣于擁有某種生命或者意義。數(shù)據(jù)可以來源于許多地方,其中包括以前的應(yīng)用程序和系統(tǒng),數(shù)據(jù)庫,現(xiàn)在流行的應(yīng)用程序,各種各樣的XML消息,以及成千上百種不同形式的文檔(例如電子數(shù)據(jù)表,項(xiàng)目計(jì)劃,文本文檔等等)。
發(fā)現(xiàn):其中包括把所有數(shù)據(jù)源變得公開,尤其是記錄非常不好理解或者描述的數(shù)據(jù)源的使用和結(jié)構(gòu)。這也是數(shù)據(jù)語義學(xué)(從它的結(jié)構(gòu)和使用中顯露出來的形式和規(guī)則)和質(zhì)量體系為了以后進(jìn)一步的研究需要特別注意和標(biāo)志之處。
清洗:清洗數(shù)據(jù)以保證它的正確性,準(zhǔn)確性和完全性。清洗包括探測和修改錯(cuò)誤,添加遺漏的元素和值,強(qiáng)制執(zhí)行數(shù)據(jù)的標(biāo)準(zhǔn),確認(rèn)以及清除重復(fù)的條目。
集成:給所有系統(tǒng)和應(yīng)用程序強(qiáng)加一個(gè)單獨(dú)并且全面的對數(shù)據(jù)的解釋,以此來保證片斷的數(shù)據(jù)源能夠被合并以及被傳輸,從而消除數(shù)據(jù)結(jié)構(gòu),定義和表達(dá)上的矛盾和差異。這也經(jīng)常意味著解決不同上下文中同樣的術(shù)語不一致的使用和意義。
傳輸:所有需要此使用權(quán)的用戶和應(yīng)用程序,都可以在適當(dāng)?shù)男问较录皶r(shí)地得到正確相關(guān)的數(shù)據(jù)。這可能意味著需要響應(yīng)一些查詢請求,這些查詢請求可能得到單條記錄或者小的結(jié)果數(shù)據(jù)集合,從而為趨向分析和企業(yè)范圍的報(bào)告?zhèn)鬏斖暾臄?shù)據(jù)集合。這個(gè)步驟同樣也解決了數(shù)據(jù)安全性,易得性,隱私性和與訪問和使用有關(guān)的需求的靈活性(例如用于醫(yī)療記錄的HIPAA等等)。
開發(fā)和管理:這是基于XML的工具集合真正得到認(rèn)可的步驟,它使得那些管理數(shù)據(jù)的人,商業(yè)分析家,架構(gòu)師,開發(fā)者和經(jīng)理們一起努力,共同創(chuàng)造出一個(gè)廣泛的集合,其中包括數(shù)據(jù)集成規(guī)則,過程,實(shí)施和程序,從而捕獲和實(shí)現(xiàn)所有以上五個(gè)步驟得到的大量工作。這個(gè)步驟同時(shí)也解決了一些主要的企業(yè)應(yīng)用程序和服務(wù)中與表現(xiàn),靈活性和使用性需求相關(guān)的關(guān)鍵問題。
審核,監(jiān)控和報(bào)告:一旦它的語義和使用已經(jīng)被捕獲,遺漏被修補(bǔ),錯(cuò)誤被改正,并且質(zhì)量得到檢驗(yàn)和認(rèn)可,這時(shí)就需要進(jìn)行觀測和分析以保證數(shù)據(jù)干凈,正確,可靠和易得。這個(gè)部分的過程使得標(biāo)記潛在問題成為可能——因?yàn)樗鼈兺ㄟ^生命周期發(fā)生和循環(huán)回來,從而保證它們得到解決。審核同時(shí)也幫助保證數(shù)據(jù)的可視,可控制,以及可以監(jiān)督以后的變化和增補(bǔ)。
在所有這些步驟中,XML能夠起到主要作用。尤其是在第1步到第4步中,XML表示方法和元數(shù)據(jù)能夠清楚地顯示出數(shù)據(jù)結(jié)構(gòu),語義,使用形式以及行為規(guī)則。XML同樣能夠幫助協(xié)調(diào)這些數(shù)據(jù)模擬的真實(shí)情況中可能存在的潛在沖突問題。通過使得難以理解和難以存檔的數(shù)據(jù)集合變得容易理解,正確,并且使得它們的管理得到發(fā)展,企業(yè)組織可以獲得巨大的收益。