国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
大數(shù)據(jù)相關(guān)概念的界定與淺析

2013-10-9 16:46

通過(guò)對(duì)大數(shù)據(jù)相關(guān)概念進(jìn)行明確界定,企業(yè)可以正確地規(guī)劃自己的數(shù)據(jù)體系,并且對(duì)傳統(tǒng)的技術(shù)方法與新興的技術(shù)方法進(jìn)行合適地定位。

IT技術(shù)迅猛發(fā)展,新技術(shù)層出不窮,但業(yè)界卻普遍對(duì)許多基本概念產(chǎn)生混淆。在當(dāng)今最為流行的大數(shù)據(jù)領(lǐng)域也出現(xiàn)了這樣的情況。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等概念被頻繁引用,卻各方往往各執(zhí)一詞。對(duì)數(shù)據(jù)概念的混淆已經(jīng)在很大程度上影響了企業(yè)對(duì)其數(shù)據(jù)體系進(jìn)行清晰、正確的規(guī)劃。本文的作者從實(shí)際工作出發(fā),試圖對(duì)一些關(guān)鍵的大數(shù)據(jù)相關(guān)概念給出明確的定義,并進(jìn)行簡(jiǎn)要的解析。

一、按數(shù)據(jù)特征分類(lèi)

■結(jié)構(gòu)化數(shù)據(jù)

定義:目前其實(shí)專指的是關(guān)系模型數(shù)據(jù),即以關(guān)系型數(shù)據(jù)庫(kù)表形式管理的數(shù)據(jù)。絕大多數(shù)的企業(yè)業(yè)務(wù)數(shù)據(jù)都以此格式進(jìn)行存放。

簡(jiǎn)析:雖然從專業(yè)角度講,結(jié)構(gòu)化就是關(guān)系模型的說(shuō)法并不準(zhǔn)確。但針對(duì)目前業(yè)內(nèi)現(xiàn)狀,還是將其定義為關(guān)系模型數(shù)據(jù)為最為妥當(dāng),因?yàn)樗逦鴾?zhǔn)確地代表了我們傳統(tǒng)上最熟悉的企業(yè)業(yè)務(wù)數(shù)據(jù),基本沒(méi)有歧義。

■半結(jié)構(gòu)化數(shù)據(jù)

定義:半結(jié)構(gòu)化與非結(jié)構(gòu)化常常一同被提及,兩者其實(shí)專指所有其他“非”結(jié)構(gòu)化數(shù)據(jù)。但如果想更加清晰地描述,可以將“半結(jié)構(gòu)化數(shù)據(jù)”定義為:那些非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù),例如應(yīng)用日志文件、XML文檔、JSON文檔和電子郵件等。

簡(jiǎn)析:從專業(yè)的角度講,上述結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)都屬結(jié)構(gòu)化數(shù)據(jù),但建議目前還是采用本定義為妥,否則會(huì)引起更大混淆。

■非結(jié)構(gòu)化數(shù)據(jù)

定義:除去結(jié)構(gòu)化與半結(jié)構(gòu)化的所有數(shù)據(jù),即沒(méi)有固定結(jié)構(gòu)模式的數(shù)據(jù),例如WORD、PDF、PPT、EXL文檔,以及各種格式的圖片和視頻等。

簡(jiǎn)析:區(qū)分半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的意義在于,目前在企業(yè)內(nèi)對(duì)兩者的處理方法(包括存儲(chǔ)、訪問(wèn)與分析)是不同的。非結(jié)構(gòu)化數(shù)據(jù)大多采用內(nèi)容管理的方法,但對(duì)半結(jié)構(gòu)化數(shù)據(jù)基本沒(méi)有有效管理方法。

事實(shí)上,結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)分,實(shí)際上只是按數(shù)據(jù)格式進(jìn)行分類(lèi),并且由來(lái)已久。嚴(yán)格來(lái)講,結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)都是有基本固定結(jié)構(gòu)模式的數(shù)據(jù)(即專業(yè)意義上的結(jié)構(gòu)化數(shù)據(jù))。但目前業(yè)界的情況是,將其中的關(guān)系模型數(shù)據(jù)單獨(dú)定義為結(jié)構(gòu)化數(shù)據(jù),這對(duì)企業(yè)數(shù)據(jù)管理現(xiàn)狀是可取的,并具有一定的現(xiàn)實(shí)意義。

另外,半結(jié)構(gòu)與非結(jié)構(gòu)化數(shù)據(jù)與目前流行的大數(shù)據(jù)之間只是有領(lǐng)域重疊的關(guān)系。本質(zhì)來(lái)講,兩者并無(wú)必然關(guān)系。業(yè)界有將大數(shù)據(jù)認(rèn)同為半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的說(shuō)法,只是因?yàn)榇髷?shù)據(jù)技術(shù)最先是在半結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域發(fā)揮作用。上面的認(rèn)識(shí)誤區(qū)是將數(shù)據(jù)處理技術(shù)與數(shù)據(jù)格式概念混淆,這是不正確的。

二、按數(shù)據(jù)處理技術(shù)分類(lèi)

大數(shù)據(jù)(技術(shù))

定義:大數(shù)據(jù)是最近幾年興起的概念,業(yè)界普遍將其定義為具有4個(gè)V(數(shù)據(jù)量大Volume、變化速度快Velocity、多類(lèi)型Variety與價(jià)值密度低Value)特征的數(shù)據(jù)。實(shí)際上,大數(shù)據(jù)的概念準(zhǔn)確地講應(yīng)該是指大數(shù)據(jù)技術(shù),指對(duì)海量數(shù)據(jù)不同于SQL體系的新的、低成本的處理技術(shù),而不是指數(shù)據(jù)格式或者其他。

簡(jiǎn)析:業(yè)界對(duì)大數(shù)據(jù)的定義最為混亂,大致有以下幾個(gè)誤區(qū):有將大數(shù)據(jù)等同于半結(jié)構(gòu)/非結(jié)構(gòu)化數(shù)據(jù)的,而實(shí)際上大數(shù)據(jù)技術(shù)只是最先在半結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域發(fā)揮作用,現(xiàn)在已經(jīng)滲透到多結(jié)構(gòu)領(lǐng)域;有將大數(shù)據(jù)等同于Hadoop的,而實(shí)際上Hadoop只是在掀起大數(shù)據(jù)熱潮方面發(fā)揮了巨大作用;有說(shuō)大數(shù)據(jù)就是除企業(yè)業(yè)務(wù)數(shù)據(jù)庫(kù)之外的所有數(shù)據(jù),但卻有很多企業(yè)用大數(shù)據(jù)方法有效地分析與存儲(chǔ)某些業(yè)務(wù)數(shù)據(jù)。

另外,被內(nèi)容管理手段管理起來(lái)的數(shù)據(jù)又該如何界定呢?有的說(shuō)大數(shù)據(jù)就是互聯(lián)網(wǎng)特征的數(shù)據(jù),那傳統(tǒng)企業(yè)就沒(méi)有大數(shù)據(jù)了嗎?有的說(shuō)大數(shù)據(jù)就是量很大的數(shù)據(jù),這更是無(wú)法界定了。其實(shí),仔細(xì)分析,還是將其定義為數(shù)據(jù)處理技術(shù)最為準(zhǔn)確。除SQL體系與內(nèi)容管理技術(shù)外,大數(shù)據(jù)技術(shù)目前具有很豐富的內(nèi)容。除此之外,大數(shù)據(jù)技術(shù)一定是強(qiáng)調(diào)低成本的。

■關(guān)系數(shù)據(jù)庫(kù)技術(shù)

定義:與數(shù)據(jù)格式分類(lèi)中的關(guān)系模型相比,這里是指SQL處理體系。
簡(jiǎn)析:關(guān)系數(shù)據(jù)庫(kù)技術(shù)依然是企業(yè)數(shù)據(jù)管理的核心,大數(shù)據(jù)技術(shù)的定位需要進(jìn)一步地考慮與研究。

■內(nèi)容管理技術(shù)

定義:主要是指企業(yè)對(duì)非結(jié)構(gòu)化數(shù)據(jù),也包括部分結(jié)構(gòu)化數(shù)據(jù)按“內(nèi)容”特征組織、管理與訪問(wèn)的處理方法,是企業(yè)目前除關(guān)系型數(shù)據(jù)庫(kù)技術(shù)之外,最常用的另一重要的技術(shù)方法與工具。

簡(jiǎn)析:是企業(yè)目前處理非結(jié)構(gòu)化數(shù)據(jù)最主要的手段,企業(yè)對(duì)半結(jié)構(gòu)化數(shù)據(jù)目前基本沒(méi)有有效管理與利用。

■其他技術(shù)

定義:企業(yè)還可能采用如低成本的分布式文件系統(tǒng)、MySQL聯(lián)邦、海量?jī)?nèi)存數(shù)據(jù)管理技術(shù),以及介于Hadoop與SQL體系之間的新技術(shù)(適用于歷史數(shù)據(jù)管理)等其他數(shù)據(jù)管理技術(shù),這些技術(shù)部分可以歸入大數(shù)據(jù)技術(shù)的范疇。

簡(jiǎn)析:互聯(lián)網(wǎng)行業(yè)常用的MySQL聯(lián)邦是采用關(guān)系模型的結(jié)構(gòu)化數(shù)據(jù),但卻不是等同于分布式關(guān)系型數(shù)據(jù)庫(kù),因?yàn)樗鼱奚送暾P(guān)系型數(shù)據(jù)庫(kù)全局的一致性、完整性保證,卻獲得了更優(yōu)秀的擴(kuò)展性。因此,它也屬于大數(shù)據(jù)技術(shù)。

除此之外,分布式文件系統(tǒng)使企業(yè)對(duì)海量小文件管理有了新的方法,也屬于大數(shù)據(jù)技術(shù);低成本海量?jī)?nèi)存數(shù)據(jù)管理技術(shù)使交易系統(tǒng)的能力進(jìn)一步實(shí)現(xiàn)低成本地提升,也屬于大數(shù)據(jù)技術(shù)。可見(jiàn),大數(shù)據(jù)技術(shù)是面向結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的,而不只是針對(duì)半結(jié)構(gòu)化數(shù)據(jù)。

因此,大數(shù)據(jù)更多的是指技術(shù)方法,而不是指數(shù)據(jù)格式,是指除SQL體系與內(nèi)容管理技術(shù)之外,新出現(xiàn)的一些數(shù)據(jù)管理技術(shù)。而大數(shù)據(jù)所謂的“大”并沒(méi)有相關(guān)的標(biāo)準(zhǔn)。在大數(shù)據(jù)技術(shù)中,Hadoop只是最重要的一個(gè),而不是唯一的一個(gè),其他還有NoSQL、分布式文件系統(tǒng)、MySQL關(guān)系型數(shù)據(jù)庫(kù)聯(lián)邦、海量?jī)?nèi)存數(shù)據(jù)管理技術(shù)等。

大數(shù)據(jù)技術(shù)可以應(yīng)對(duì)的數(shù)據(jù)類(lèi)型中,企業(yè)目前還沒(méi)有有效管理和處理的半結(jié)構(gòu)化數(shù)據(jù)只是其最早發(fā)揮作用的部分。而實(shí)際上,它還可以應(yīng)對(duì)包括結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化在內(nèi)的所有數(shù)據(jù)類(lèi)型。

另外,需要澄清和明確的是,大數(shù)據(jù)技術(shù)一定要是低成本的,否則沒(méi)有立足點(diǎn)。同時(shí),關(guān)系型數(shù)據(jù)庫(kù)技術(shù)仍然是企業(yè)數(shù)據(jù)管理的核心。內(nèi)容管理是目前企業(yè)組織、存儲(chǔ)與訪問(wèn)非結(jié)構(gòu)化數(shù)據(jù)的主要手段,如果引入大數(shù)據(jù)技術(shù)來(lái)處理非結(jié)構(gòu)化數(shù)據(jù),除更低成本的考慮外,應(yīng)該是指內(nèi)容管理技術(shù)尚未涉及的數(shù)據(jù)分析領(lǐng)域,例如圖片、視頻分析,但這對(duì)于銀行等行業(yè)實(shí)際需求應(yīng)該還比較遙遠(yuǎn)。

企業(yè)IT人員對(duì)以上概念應(yīng)該明確界定,可將其數(shù)據(jù)類(lèi)型分為“結(jié)構(gòu)化”、“半結(jié)構(gòu)化”和“非結(jié)構(gòu)化”三種。同時(shí),企業(yè)可以將數(shù)據(jù)處理方法劃分為“關(guān)系數(shù)據(jù)庫(kù)技術(shù)”、“大數(shù)據(jù)技術(shù)”、“內(nèi)容管理技術(shù)”及其他。在清晰地概念定義基礎(chǔ)上,企業(yè)不但可以正確地規(guī)劃自己的數(shù)據(jù)體系,并且可以對(duì)傳統(tǒng)的技術(shù)方法與新興的技術(shù)方法進(jìn)行合適地定位。

原文地址:http://www.cnw.com.cn/software-database/htm2013/20130114_262852_2.shtml

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
“大數(shù)據(jù)“的神話創(chuàng)造傳奇色彩
數(shù)據(jù)管理和分析趨勢(shì)正在改變世界
數(shù)據(jù)湖還沒(méi)玩明白,就別想著湖倉(cāng)一體了! by 傅一平
八部電影幫你看懂大數(shù)據(jù)
大數(shù)據(jù)時(shí)代如何做好數(shù)據(jù)治理
2014大數(shù)據(jù)值得關(guān)注的8個(gè)發(fā)展方向
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服