国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
DT時(shí)代的核心競爭力

數(shù)據(jù)分析與挖掘,指的是通過對(duì)大量的數(shù)據(jù)進(jìn)行觀察與分析。發(fā)掘其中的未知的,潛在的、對(duì)決策有價(jià)值的關(guān)系、模式和趨勢,并利用這些規(guī)則建立決策模型、提供預(yù)測性支持的方法和過程。

作為一名大數(shù)據(jù)開發(fā)工程師,什么能力才是我們我們的核心競爭力,答案是肯定的,那就是數(shù)據(jù)分析與挖掘。只有讓數(shù)據(jù)產(chǎn)生價(jià)值才是數(shù)據(jù)開發(fā)工程師的職責(zé)。下面我將從幾個(gè)方面介紹數(shù)據(jù)挖掘:

1.數(shù)據(jù)挖掘的基本任務(wù)

數(shù)據(jù)挖據(jù)的基本任務(wù)包括利用分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、偏差檢驗(yàn)、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值,提高企業(yè)的競爭力。

2.數(shù)據(jù)挖掘的過程

2.1 定義數(shù)據(jù)挖掘目標(biāo)

針對(duì)具體的數(shù)據(jù)挖掘需求,我們首先要做的就是明確本次數(shù)據(jù)挖掘的目標(biāo)是什么?預(yù)期達(dá)到怎樣的效果?因此我們在進(jìn)行數(shù)據(jù)挖掘工作前,必須先了解項(xiàng)目相關(guān)背景知識(shí),弄清用戶的需求。比如某電商平臺(tái)的數(shù)據(jù)挖掘應(yīng)用,可定義一下數(shù)據(jù)挖掘目標(biāo):

(1) 分析挖掘用戶數(shù)據(jù),建立用戶畫像與物品畫像等

(2) 基于用戶畫像實(shí)現(xiàn)動(dòng)態(tài)商品智能推薦,幫助用戶快速發(fā)現(xiàn)自己感興趣的商品,同時(shí)確保給用戶推薦的也是企業(yè)所期望的,實(shí)現(xiàn)用戶與企業(yè)的雙贏。

(3) 對(duì)平臺(tái)客戶進(jìn)行群體細(xì)分,了解不同客戶的貢獻(xiàn)度與消費(fèi)特征,分析哪些客戶是最有價(jià)值的,哪些是需要重點(diǎn)的,對(duì)不同價(jià)值的客戶采取不同的營銷策略,將有限的資源投放到最有價(jià)值的客戶身上,實(shí)現(xiàn)精準(zhǔn)化營銷。

(4) 基于商品的歷史銷售情況,綜合節(jié)假日、氣候和競爭對(duì)手等影響因素,對(duì)商品銷售量進(jìn)行趨勢預(yù)測,方便企業(yè)準(zhǔn)備庫存。

2.2 數(shù)據(jù)抽樣

在明確了數(shù)據(jù)挖掘的目標(biāo)后,接下來要做的工作就是抽取企業(yè)的數(shù)據(jù)挖掘庫中的數(shù)據(jù)子集,隨著現(xiàn)在大數(shù)據(jù)技術(shù)的發(fā)展,也有很多企業(yè)進(jìn)行全量數(shù)據(jù)的抽取,不過為了數(shù)據(jù)挖掘的效率,可以選擇抽樣使用數(shù)據(jù),節(jié)省系統(tǒng)資源。抽樣有很多的方法:比如隨機(jī)抽樣、等距抽樣、分層抽樣、分類抽樣等。

2.3 數(shù)據(jù)預(yù)處理

當(dāng)采集的數(shù)據(jù)維度過大,如何進(jìn)行降維處理、缺失值處理等都是數(shù)據(jù)預(yù)處理過程中要解決的問題。如何對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以改善數(shù)據(jù)質(zhì)量,并最終達(dá)到完善數(shù)據(jù)挖掘結(jié)果。目前數(shù)據(jù)預(yù)處理一般包括:數(shù)據(jù)篩選、數(shù)據(jù)質(zhì)量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)規(guī)約等。

2.4 挖掘建模

數(shù)據(jù)挖掘建模是數(shù)據(jù)挖掘的核心工作,選擇哪種算法進(jìn)行模型構(gòu)建?在生成最終的數(shù)據(jù)集后,就可以在此基礎(chǔ)上建立模型來進(jìn)行聚類分析了。建立模型階段主要是選擇和應(yīng)用各種建模技術(shù),同時(shí)對(duì)它們的參數(shù)進(jìn)行校準(zhǔn)以達(dá)到最優(yōu)值。在明確建模技術(shù)和算法后需要確定模型參數(shù)和輸入變量。模型參數(shù)包括類的個(gè)數(shù)和最大迭代步數(shù)等。在建模過程中,我們采用多種技術(shù)手段,并將建模效果進(jìn)行對(duì)比。需要挑選合適的變量參與建模。參與建模的變量太多會(huì)削弱主要業(yè)務(wù)屬性的影響,并給理解分群結(jié)果帶來困難;變量太少則不能全面覆蓋需要考察的各方面屬性,可能會(huì)遺漏一些重要的屬性關(guān)系。輸入變量的選擇對(duì)建立滿意的模型至關(guān)重要。

建立模型是一個(gè)螺旋上升,不斷優(yōu)化的過程,在每一次聚類結(jié)束后,需要判斷聚類結(jié)果在業(yè)務(wù)上是否有意義,其各群特征是否明顯。如果結(jié)果不理想,則需要調(diào)整聚類模型,對(duì)模型進(jìn)行優(yōu)化,稱之為聚類優(yōu)化。聚類優(yōu)化可通過調(diào)整聚類個(gè)數(shù)及調(diào)整聚類變量輸入來實(shí)現(xiàn),也可以通過多次運(yùn)行,選擇滿意的結(jié)果。通??梢砸罁?jù)以下原則判斷聚類結(jié)果是否理想:類間特征差異是否明顯;群內(nèi)特征是否相似;聚類結(jié)果是否易于管理及是否具有業(yè)務(wù)指導(dǎo)意義。

2.5 模型評(píng)價(jià)

建模的過程中會(huì)得到一系列的分析結(jié)果,它們是對(duì)目標(biāo)問題多側(cè)面的描述,這時(shí)需要對(duì)它們進(jìn)行驗(yàn)證和評(píng)價(jià),以得到合理的,完備的決策信息。對(duì)產(chǎn)生的模型結(jié)果需要進(jìn)行對(duì)比驗(yàn)證、準(zhǔn)確度驗(yàn)證、支持度驗(yàn)證等檢驗(yàn)以確定模型的價(jià)值。在這個(gè)階段需要引入更多層面和背景的用戶進(jìn)行測試和驗(yàn)證,通過對(duì)幾種模型的綜合比較,產(chǎn)生最后的優(yōu)化模型。根據(jù)業(yè)務(wù)對(duì)模型進(jìn)行解釋應(yīng)用,不同的模型的評(píng)價(jià)方法往往也不同。

3.常用的數(shù)據(jù)挖據(jù)建模工具

3.1 SAS Enterprise Miner

Enterprise Miner(EM)是SAS提供的一個(gè)圖形化界面、菜單驅(qū)動(dòng)的、拖拉式操作、對(duì)用戶非常友好且功能非常強(qiáng)大的集成的數(shù)據(jù)挖掘系統(tǒng)。它集成了:

(1) 數(shù)據(jù)獲取工具

(2) 數(shù)據(jù)抽樣工具

(3) 數(shù)據(jù)篩選工具

(4) 數(shù)據(jù)變量轉(zhuǎn)換工具

(5) 數(shù)據(jù)挖據(jù)數(shù)據(jù)庫

(6) 數(shù)據(jù)挖掘過程

(7) 多種形式的回歸工具

(8) 為建立決策樹的數(shù)據(jù)剖分工具

(9) 決策樹瀏覽工具

(10) 人工神經(jīng)元網(wǎng)絡(luò)

(11) 數(shù)據(jù)挖據(jù)的評(píng)價(jià)工具

在SAS/EM中,可利用具有明確代表意義的圖形化的模塊將這些數(shù)據(jù)挖掘工具單元組成一個(gè)數(shù)據(jù)流程圖,并以此來組織你的數(shù)據(jù)挖掘過程。對(duì)于有經(jīng)驗(yàn)的數(shù)據(jù)挖掘?qū)<?,SAS/EM提供大量的選項(xiàng),可讓有經(jīng)驗(yàn)的數(shù)據(jù)分析人員進(jìn)行精細(xì)化調(diào)整分析處理。

3.2 IBM SPSS Modeler

IBM SPSS Modeler原名Clementine,2009年被IBM收購以后對(duì)產(chǎn)品進(jìn)行性能和功能進(jìn)行了大幅度的改進(jìn)和提升,幾乎一年一個(gè)版本。它封裝了了先進(jìn)的統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘技術(shù)來獲取預(yù)測分析。SPSS Modeler提供圖形化的界面,屏蔽了數(shù)據(jù)挖據(jù)算法的復(fù)雜性和操作的繁瑣,讓使用者只需要聚焦如何使用數(shù)據(jù)挖掘技術(shù)去解決實(shí)際的商業(yè)問題。

3.3 Python

Python是一種面向?qū)ο?、解釋型的?jì)算機(jī)程序設(shè)計(jì)語言,它擁有高效的數(shù)據(jù)結(jié)構(gòu),能簡單的進(jìn)行面向?qū)ο蟮木幊獭ython本身不提供數(shù)據(jù)挖掘環(huán)境,但是python它有各種數(shù)據(jù)挖掘的擴(kuò)展庫。比如比較常見的有:Numpy、Scipy、Matplotlib等,他們分別為Python提供快速數(shù)組處理、科學(xué)計(jì)算以及繪圖的能力,在用到機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)時(shí),我們會(huì)用到SKlearn庫和Keras庫,它提供了完善的機(jī)器學(xué)習(xí)工具箱,包括:數(shù)據(jù)的預(yù)處理、分析、回歸、預(yù)測、模型分析等。正是由于有了這些擴(kuò)展庫,python才是數(shù)據(jù)分析與挖據(jù)常用的語言。

3.4 SQL Server

微軟公司的SQL Server中集成了數(shù)據(jù)挖掘組件--Analysis Servers,借助于SQL Server數(shù)據(jù)庫管理功能可以很好的集成在SQL Servers中,SQL Server 2008中提供很多數(shù)據(jù)挖掘算法,比如:決策樹算法、聚類分析算法、Native Bayes算法、關(guān)聯(lián)規(guī)則算法等9種算法。但是這些模型的建立都依賴與SQL Server平臺(tái),所以平臺(tái)移植性比較差。

3.5 RapidMiner

RapidMiner也成為YALE,提供圖形化的操作界面,采用樹狀結(jié)構(gòu)來組織分析組件,樹上每個(gè)節(jié)點(diǎn)表示不同的運(yùn)算符。RapidMiner中提供了大量的運(yùn)算符,包括數(shù)據(jù)預(yù)處理、變換、建模、評(píng)估等各個(gè)環(huán)節(jié)。RapidMiner是基于Java開發(fā)的,基于Weka來構(gòu)建的,所以Yale可以調(diào)用Weka中的組件,Yale中還提供擴(kuò)展套件Radoop,可以和Hadoop結(jié)合起來用,在Hadoop集群中運(yùn)行任務(wù)。

3.6 Weka

Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費(fèi)的,非商業(yè)化(與之對(duì)應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine )的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machine learning)以及數(shù)據(jù)挖掘(data mining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是New Zealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來自New Zealand的the University of Waikato。WEKA作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。跟很多電子表格或數(shù)據(jù)分析軟件一樣,WEKA所處理的數(shù)據(jù)集是一個(gè)二維的表格。

3.7 Knime

KNIME是一個(gè)基于Eclipse平臺(tái)開發(fā),模塊化的數(shù)據(jù)挖掘系統(tǒng)。它能夠讓用戶可視化創(chuàng)建數(shù)據(jù)流(也就常說的pipeline),選擇性的執(zhí)行部分或所有分解步驟,然后通過數(shù)據(jù)和模型上的交互式視圖研究執(zhí)行后的結(jié)果。可以擴(kuò)展使用Weka中的算法,同時(shí)Knime也提供基于數(shù)據(jù)流的方式來組織數(shù)據(jù)挖掘過程,每個(gè)節(jié)點(diǎn)都有數(shù)據(jù)的輸入/輸出端口,用接收或輸出計(jì)算結(jié)果。

3.8 TipDM

TipDM(頂尖大數(shù)據(jù)挖掘平臺(tái))使用Java語言開發(fā),能從各種數(shù)據(jù)源獲取數(shù)據(jù),構(gòu)建數(shù)據(jù)挖掘模型。TipDM目前已經(jīng)集成了數(shù)十種預(yù)測算法和分析技術(shù),支持?jǐn)?shù)據(jù)挖掘流程所需要的主要過程,并提供開發(fā)的應(yīng)用接口和算法,能夠滿足各種復(fù)雜的應(yīng)用需求。

來源:網(wǎng)絡(luò)大數(shù)據(jù)

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
盤點(diǎn):為 Java 開發(fā)者量身定制的五款機(jī)器學(xué)習(xí)庫
機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)建模的技術(shù)擔(dān)當(dāng),20款免費(fèi)預(yù)測分析軟件
數(shù)據(jù)分析界的一條龍服務(wù):你想要的都能給你
建模高手與初學(xué)者的差別在哪里?需要什么樣的人來建模?
《大數(shù)據(jù)》精華連載6:如何開展大數(shù)據(jù)研發(fā)
學(xué)習(xí)筆記5:數(shù)據(jù)預(yù)處理與數(shù)據(jù)挖掘十大經(jīng)典算法
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服