隨著互聯(lián)網(wǎng)技術(shù)的進(jìn)步,新數(shù)據(jù)生成的速度和體量越來越大,比如,在波音公司的“魚鷹”項(xiàng)目中,為提升“魚鷹”直升機(jī)起飛和降落的效率,需要協(xié)同傳感器記錄的大量數(shù)據(jù)。每次起飛或降落的數(shù)據(jù)多達(dá)1TB,10次起降的數(shù)據(jù)與美國(guó)國(guó)會(huì)圖書館的數(shù)據(jù)存儲(chǔ)量相當(dāng)。
這樣的情況在日常工作中同樣不勝枚舉,不運(yùn)用可視化工具,要從數(shù)據(jù)的規(guī)律和異常中發(fā)現(xiàn)問題,將是不可能完成的任務(wù)。數(shù)據(jù)分析過程主要包括6個(gè)既相對(duì)獨(dú)立又互有聯(lián)系的階段(如圖所示)
大多數(shù)情況下,人們更愿意接受圖形這種數(shù)據(jù)展現(xiàn)方式,因?yàn)樗芨佑行А⒅庇^地傳遞出分析師所要表達(dá)的觀點(diǎn)。一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的。常用的數(shù)據(jù)圖表包括餅圖、柱形圖、條形圖、折線圖、散點(diǎn)圖、雷達(dá)圖等,我們可以對(duì)這些圖表進(jìn)一步整理加工,使之變?yōu)槲覀兯枰膱D形,例如金字塔圖、矩陣圖、漏斗圖、帕累托圖等。
在之前的文章中,數(shù)獵哥給大家介紹過,在什么場(chǎng)景下使用什么可視化圖表最為合適(詳情參考《活用這23種圖表,讓你的數(shù)據(jù)分析勝人一籌》)。今天我們就來給大家說說如何熟練的運(yùn)用數(shù)據(jù)可視化工具,生成這些圖表,讓你的數(shù)據(jù)分析能力提升數(shù)十倍。(本文主要借助 DataHunter 自主研發(fā)的 Data Analytics 數(shù)據(jù)可視化軟件制作圖表)
一、數(shù)據(jù)源導(dǎo)入
要進(jìn)行數(shù)據(jù)分析,在明確了分析的目的和思路之后,就需要進(jìn)行數(shù)據(jù)的收集與準(zhǔn)備。如今企業(yè)的數(shù)據(jù)源有多種類型,如何將各種不同類型的數(shù)據(jù)進(jìn)行整合,是有效提高數(shù)據(jù)利用的關(guān)鍵。Data Analytics 支持各種數(shù)據(jù)類型,企業(yè)本地和云端的內(nèi)外部Excel/CSV等數(shù)據(jù)文件,還支持企業(yè)各種業(yè)務(wù)系統(tǒng)、第三方互聯(lián)網(wǎng)數(shù)據(jù)、公共數(shù)據(jù)服務(wù)平臺(tái)等來源。
1.Excel文件導(dǎo)入
登錄工作臺(tái)以后,可以看到“看板”“故事板”“數(shù)據(jù)關(guān)聯(lián)”“工作表”等4大功能板塊,點(diǎn)擊右側(cè)“工作表”,進(jìn)入到操作界面,點(diǎn)擊“新建工作表”,然后點(diǎn)擊“Excel”,上傳所需工作表,成功以后點(diǎn)擊“保存”即完成了數(shù)據(jù)源的導(dǎo)入。
2.數(shù)據(jù)庫導(dǎo)入
點(diǎn)擊“新建工作表”,進(jìn)入數(shù)據(jù)來源選擇頁面,Data Analytics 目前支持My SQL、Postgre SQL、SQL Server、Hive、GreenPlum、Oracle等主流數(shù)據(jù)庫。以My SQL為例,點(diǎn)擊“My SQL”,填寫相關(guān)信息,點(diǎn)擊鏈接,選擇要保存的數(shù)據(jù),在默認(rèn)分組下可看到導(dǎo)入的數(shù)據(jù)源。
3.公共數(shù)據(jù)源導(dǎo)入
目前 Data Analytics 支持的公共數(shù)據(jù)來源有統(tǒng)計(jì)數(shù)據(jù)(全國(guó)地區(qū)農(nóng)產(chǎn)品價(jià)格指數(shù)、全國(guó)居民GNP統(tǒng)計(jì)、人口結(jié)構(gòu)比、人口增長(zhǎng)率、普通高校畢業(yè)人數(shù)、全國(guó)地區(qū)人口統(tǒng)計(jì)、全國(guó)地區(qū)GDP統(tǒng)計(jì)、人民幣外匯牌價(jià))、金融數(shù)據(jù)(滬市A股收盤詳情、滬市A股實(shí)時(shí)詳情)、天氣實(shí)時(shí)數(shù)據(jù)。以滬深A(yù)股收盤詳情為例,點(diǎn)擊“新建工作表”,點(diǎn)擊公共數(shù)據(jù),選擇“滬深A(yù)股收盤詳情”并保存,即可在默認(rèn)分組中可以看到添加的數(shù)據(jù)。
二、數(shù)據(jù)關(guān)聯(lián)
數(shù)據(jù)關(guān)聯(lián)分析是從大量數(shù)據(jù)集中發(fā)現(xiàn)關(guān)聯(lián)性和相關(guān)性,從而描述一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。一個(gè)典型例子是購物籃分析,該過程通過發(fā)現(xiàn)顧客放入其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分。
Data Analytics 也支持各種數(shù)據(jù)源的關(guān)聯(lián),在工作臺(tái)點(diǎn)擊“數(shù)據(jù)關(guān)聯(lián)”,然后點(diǎn)擊右側(cè)有一個(gè)“?”按鈕,添加我們之前上傳好的數(shù)據(jù)表,重復(fù)上述步驟再添加一個(gè)數(shù)據(jù)表。完成以后對(duì)兩個(gè)表進(jìn)行數(shù)據(jù)關(guān)聯(lián),只需要將它們拖動(dòng)到一起,系統(tǒng)就會(huì)彈出“表關(guān)聯(lián)配置”對(duì)話框。然后選取需要關(guān)聯(lián)的字段即可。右側(cè)的加號(hào)還可關(guān)聯(lián)多個(gè)字段,垃圾箱可刪除關(guān)聯(lián)字段。
鼠標(biāo)懸停“表關(guān)聯(lián)配置”的綠色圖標(biāo)上,可顯示四種關(guān)聯(lián)方式(全部聯(lián)接、左側(cè)聯(lián)接、右側(cè)聯(lián)接、內(nèi)部聯(lián)接),系統(tǒng)默認(rèn)全部聯(lián)接。如果沒有特殊需求,點(diǎn)擊“提交”就完成了兩個(gè)表的數(shù)據(jù)關(guān)聯(lián)。如果想查看詳細(xì)數(shù)據(jù)點(diǎn)擊中間“綠色圓點(diǎn)”即可查看。
三、圖表制作
1.簡(jiǎn)單拖拽、更換圖表
在完成數(shù)據(jù)源的導(dǎo)入和數(shù)據(jù)關(guān)聯(lián)之后,我們就可以進(jìn)行數(shù)據(jù)可視化圖表的制作了。在工作臺(tái)的“看板”模塊,點(diǎn)擊“新建看板”并命名。找到該看板,點(diǎn)擊右上角“?”添加需要的圖表類型,選擇對(duì)應(yīng)的工作表。然后工作區(qū)域列出了剛剛上傳的工作表名稱,字段部分列出了工作表中所有字段類型(T表示文字,#表示數(shù)字,日歷圖標(biāo)表示時(shí)間)。
在制作圖標(biāo)時(shí),需要注意度量項(xiàng)只能放數(shù)值類型的字段,維度項(xiàng)可以是文本、時(shí)間、數(shù)字等類型字段。比如,將日期拖入維度項(xiàng),銷售收入和銷售毛利拖入度量項(xiàng),就生成了簡(jiǎn)單的柱狀圖。如果更換其他圖表樣式,在切換圖表區(qū)域點(diǎn)擊對(duì)應(yīng)的圖標(biāo)即可。值得注意的是在針對(duì)不同圖表時(shí),對(duì)維度項(xiàng)和度量項(xiàng)的要求會(huì)在下方提示,如果你拖入的字段不符合維度和度量要求,該圖表的圖標(biāo)會(huì)顯示灰色,也就無法生成相應(yīng)的圖表。
2.函數(shù)計(jì)算
除了直接利用數(shù)據(jù)生成圖表外,還可以利用函數(shù)計(jì)算來做圖表可視化。這里以銷售成本為例,點(diǎn)擊度量項(xiàng)里的“添加計(jì)算”,在輸入框中填寫銷售收入減去銷售毛利,點(diǎn)擊確定即可在圖表上看到新的銷售成本了。
四、常見圖表制作
1.柱狀圖
柱狀圖是一種應(yīng)用得很廣泛的圖形,它表征分類型變量與數(shù)值型變量的關(guān)系,常用于多個(gè)維度的比較和變化。柱形圖至少需要一個(gè)數(shù)值型維度,通常文本維度/時(shí)間維度通常作為X軸,數(shù)值型維度作為Y軸。
在看板模塊點(diǎn)擊右上角“?”,選擇圖表類型為柱狀圖,添加工作表。準(zhǔn)備完畢后,把“系列”拖入維度項(xiàng),“銷售成本”拖入度量項(xiàng),生成柱狀圖后把空值去掉,將“系列”拖入篩選器,去掉空值,最后命名“系列銷售成本”即可完成。
2.折線圖
折線圖是用來觀察數(shù)據(jù)的趨勢(shì),主要展示數(shù)據(jù)隨時(shí)間或有序類別的波動(dòng)情況的趨勢(shì)變化。對(duì)比時(shí)使用,常見時(shí)間維度對(duì)比。如果是無序類別則無法展示數(shù)據(jù)特點(diǎn)。
比如我們使用折線圖反應(yīng)2017年上半年銷售變化,在看板模塊點(diǎn)擊右上角“?”,選擇圖表類型為折線圖,添加工作表。準(zhǔn)備完畢后,把“日期”拖入維度項(xiàng),“銷售收入”拖入度量項(xiàng),將“日期”拖入篩選器,去掉空值,最后進(jìn)行圖表命名即可完成。
3.餅圖
餅圖經(jīng)常表示一組數(shù)據(jù)的占比,需要數(shù)值維度。餅圖也是有缺陷的,例如30%和35%在餅圖上憑肉眼是難以分辨出區(qū)別的。當(dāng)類別過多,也不適宜在餅圖上表達(dá)。因此在使用餅圖時(shí)我們需要順時(shí)針降序排列,同時(shí)維度取值在10個(gè)以內(nèi)。
餅圖如何進(jìn)行制作呢?在看板模塊點(diǎn)擊右上角“?”,選擇圖表類型為餅圖,添加所需工作表。比如我們想探究各系列利潤(rùn)對(duì)比,將“系列”拖入維度項(xiàng),“銷售毛利”拖入度量項(xiàng),除此之外對(duì)大類進(jìn)行簡(jiǎn)單篩選,去掉空值,并命名“各系列利潤(rùn)對(duì)比”即可完成。
4.散點(diǎn)圖
散點(diǎn)圖在報(bào)表中不常用到,但是數(shù)據(jù)分析中比較常見。散點(diǎn)圖通過坐標(biāo)軸來揭示數(shù)據(jù)間的關(guān)系,發(fā)掘變量與變量之間的關(guān)聯(lián),當(dāng)存在大量數(shù)據(jù)點(diǎn),結(jié)果更精準(zhǔn),比如回歸分析。當(dāng)數(shù)據(jù)量小的時(shí)候會(huì)比較混亂。氣泡圖是散點(diǎn)圖的變種,它使用氣泡代替散點(diǎn)圖的數(shù)值點(diǎn),面積大小代表數(shù)值大小。
在看板模塊點(diǎn)擊右上角“?”,選擇圖表類型為散點(diǎn)圖,添加工作表。準(zhǔn)備完畢后,把“大類”拖入維度項(xiàng),“銷售收入”與“銷售成本”拖入度量項(xiàng),去掉空值,并命名“各大類銷售收入與成本對(duì)比”。如果想生成氣泡圖,將“大類”拖入篩選器,將“銷售收入”拖入大小篩選器即可完成。
5.地圖
一切和空間屬性有關(guān)的分析都可以用到地理圖。比如各地區(qū)銷量,或者某商業(yè)區(qū)域店鋪密集度等。一般用顏色深淺或氣泡大小來展示區(qū)域范圍的數(shù)值大小。比如人口密度、各地區(qū)銷量,或者某商業(yè)區(qū)域店鋪密集度等。
在看板模塊點(diǎn)擊右上角“?”,選擇圖表類型為地圖,添加所需工作表。準(zhǔn)備完畢后,將省份拖入維度項(xiàng),銷售收入拖入度量項(xiàng),并命名“各省銷售狀況”即可完成。
五、數(shù)據(jù)篩選
1.圖表篩選
篩選功能可以幫你更迅速的編輯圖表,并查看數(shù)據(jù)。比如在生成的柱狀圖中日期維度有很明顯的空值,這時(shí)只需要將“日期”拖入篩選框,然后點(diǎn)擊非空值即完成了篩選。
再比如我們現(xiàn)在想查看1-3月份的銷售數(shù)據(jù),這時(shí)點(diǎn)擊篩選框內(nèi)“日期”按鈕,然后點(diǎn)擊離散日期選項(xiàng)卡,選擇相對(duì)應(yīng)的月份就可以了。這里不同類型的字段有不同的篩選方式,文本類型有常規(guī)、條件、空值三種篩選方式;日期類型有相對(duì)日期、離散日期、時(shí)間范圍、空值篩選四種方式;數(shù)值類型有范圍、條件、空值篩選方式。
2.篩選器
(1)單選、多選、數(shù)值篩選
在上文中我們分享了針對(duì)單個(gè)圖表的篩選功能,但如果我們需要同時(shí)針對(duì)多個(gè)圖表進(jìn)行篩選,可以使用篩選器功能,Data Analytics 支持四種篩選器(單選、多選、時(shí)間、數(shù)值),可以方便用戶在不同維度下查看各個(gè)圖表中的數(shù)據(jù)特性。
進(jìn)入看板模塊,點(diǎn)擊綠色“?”,在下方選擇單選篩選器,將“城”市拖入篩選字段,這里可以看到上文中制作的所有圖表,中間顯示了對(duì)應(yīng)的城市,右側(cè)還可以更換篩選器。完成設(shè)置后,點(diǎn)擊左上角的返回,勾選“九江”即可看到所有圖表都做了篩選。
(2)時(shí)間篩選
時(shí)間篩選器的操作步驟同上,需要補(bǔ)充的是在右側(cè)的日期篩選器樣式有:標(biāo)準(zhǔn)日期控件、滑塊控件、默認(rèn)項(xiàng)選擇。這里我們以滑塊控件來舉例,點(diǎn)擊后退回到看板頁面,在滑塊上選擇不同的時(shí)間范圍,可以看到各圖表對(duì)應(yīng)的時(shí)間變化。
六、顏色搭配
1.簡(jiǎn)單配色
最后我們需要對(duì)生成的可視化圖表進(jìn)行配色,主要的目的是讓配色容易辨識(shí)與區(qū)分,方便查看數(shù)據(jù)的人進(jìn)行分析。Data Analytics 支持各種顏色的搭配。如果想要對(duì)默認(rèn)配色進(jìn)行修改,可以在顏色區(qū)域進(jìn)行設(shè)置,例如,我們想把銷售收入的藍(lán)色改為橙色,點(diǎn)擊顏色區(qū)域編輯圖標(biāo),在左側(cè)數(shù)據(jù)項(xiàng)選擇需要改色的銷售收入,勾選橙色即可,這里還可以自定義顏色。
2.條件配色
此外各圖表還支持條件著色功能,方便我們?nèi)ゲ榭磾?shù)據(jù),比如打開一個(gè)交叉表,將銷售收入拖入顏色選項(xiàng)卡,選擇條件著色,限定條件為大于等于50萬,勾選顏色,最后點(diǎn)擊確定即可看到效果。如果想進(jìn)行多條件著色,在條件著色選項(xiàng)里點(diǎn)擊“?”即可。
七、小結(jié)
聯(lián)系客服