巧婦難為無米之炊。數(shù)據(jù)分析師的米就是數(shù)據(jù)。作為一名數(shù)據(jù)分析師,通常有自己常用的數(shù)據(jù)來源。比如公司業(yè)務(wù)平臺(tái)產(chǎn)生的數(shù)據(jù),也可以是去從公開網(wǎng)站抓取的數(shù)據(jù),甚至是紙質(zhì)的或腦中記憶的數(shù)據(jù)。無論原來的數(shù)據(jù)在哪里,如果需要用到Excel,我們都需要有一個(gè)數(shù)據(jù)輸入到Excel中的環(huán)節(jié)(除非原始數(shù)據(jù)形式已經(jīng)是Excel)。
首先我們要知道Excel中有三類數(shù)據(jù)類型:分別是數(shù)值、文本、公式。
以上數(shù)字格式除最后一項(xiàng)是文本外,其他對(duì)應(yīng)數(shù)據(jù)類型均是數(shù)字,只是將數(shù)值以不同格式化方式顯示,本質(zhì)上仍是數(shù)值,包括日期和時(shí)間。
為什么日期和時(shí)間也是數(shù)值?因?yàn)樵贓xcel中日期是按整數(shù)來存儲(chǔ)的,時(shí)間則是按小數(shù)。比如在Excel輸入數(shù)字1,然后在數(shù)字格式中應(yīng)用“短日期”數(shù)字格式,你會(huì)發(fā)現(xiàn),這一天是1990年1月1日。你感興趣的話,還可以輸入0和-1試試,結(jié)果是不一樣的哦。Excel支持從1900年1月1日到9999年12月31日(序號(hào)為2958465)的日期,一般也夠用了吧。如果把12:00:00改為數(shù)值,則是小數(shù)0.5,對(duì)應(yīng)一整天的一半。這樣,時(shí)間和日期的差值就跟普通的加減乘除是一樣的了,用不著復(fù)雜的函數(shù)。
生成日期戳或時(shí)間戳的快捷鍵:
當(dāng)前日期:Ctrl+;
當(dāng)前時(shí)間:Ctrl+Shift+;
我們根據(jù)數(shù)據(jù)的來源形式將Excel數(shù)據(jù)輸入分為三類:
錄入
導(dǎo)入
抓取
建議在錄入之前,先想好大概有幾行幾列。然后選中單元格,從第一個(gè)單元格開始錄入。Excel默認(rèn)情況下,輸入之后按Enter是往下單元格,按Tab是往右單元格,同時(shí)按住Shift則是往上或往左。如果選中幾行幾列的單元格區(qū)域,按Tab則活動(dòng)單元格在選擇區(qū)域中按Z字形循環(huán)移動(dòng),按Enter則是活動(dòng)單元格在選擇區(qū)域中按N字形循環(huán)移動(dòng)。
加速錄入的方法:
輸入連續(xù)序列——自動(dòng)填充
輸入相同值(數(shù)值、文本或公式)——快捷鍵
輸入連續(xù)序列,只需要輸入其中一個(gè),然后把鼠標(biāo)放在單元格右下角變成實(shí)心十字架,拖住十字架往一個(gè)方向(某些情況下可雙擊十字架)就可以輸入后續(xù)的一連串連續(xù)序列了。
但要注意的是,如果是數(shù)字,需要連續(xù)輸入兩個(gè)數(shù),再選中這兩個(gè)單元格之后拖十字架才能生成序列。這兩個(gè)數(shù)可以如果不連續(xù),則拖出來的數(shù)字是等差序列。但如果只輸入了一個(gè)數(shù),則拖十字架也只有那一個(gè)數(shù)字。
Excel中自帶的序列有:
支持自定義序列。
輸入相同值(數(shù)值、文本或公式),除了使用拖十字架或雙擊十字架的方法外,還可以使用快捷鍵。最常用的是Ctrl+D(往下復(fù)制)和Ctrl+R(往右復(fù)制)。比復(fù)制粘貼起碼少一個(gè)操作。
復(fù)制粘貼
從文件導(dǎo)入
Excel文件
文本文件csv txt
導(dǎo)入xml文件
獲取網(wǎng)站表格
獲取文件夾文件列表
反向透視表
導(dǎo)入到指定區(qū)域,保持不變
前面都是很常見的導(dǎo)入方式,主要講最常見的問題:
1. 中文亂碼問題
一般從系統(tǒng)或者網(wǎng)站下下載下來的文本文件是UTF-8的編碼,直接用Excel打開中文會(huì)顯示亂碼。這里有兩個(gè)方法,一個(gè)通過notepad++將文件編碼轉(zhuǎn)換為ANSI,然后再用Excel打開,另一個(gè)是,先用notepad++或其他文本編輯器打開再?gòu)?fù)制粘貼到Excel中。如果這兩種方法都沒能很好的分列的話,再使用數(shù)據(jù)-分列功能即可。一個(gè)好消息是,Excel2019已經(jīng)支持UTF-8格式,不需要轉(zhuǎn)換一道了。
2. 分列錯(cuò)誤
csv文本文件是以逗號(hào)分隔,但如果列文本中本身包含逗號(hào),則會(huì)將錯(cuò)誤地將文本分隔為兩列。為避免這種問題,應(yīng)當(dāng)在csv文件本身入手。csv在導(dǎo)出的時(shí)候選擇文本用引號(hào)包圍,或者在導(dǎo)出前把可能含有逗號(hào)的文本中的逗號(hào)替換為其他文本,或者將文本分隔符替換為一個(gè)不太常用的其他分隔符(比如“《”書名號(hào)),然后在Excel分列中選擇分隔符也是“《”。
3. 文本數(shù)值
兩種方法。當(dāng)數(shù)據(jù)比較多的時(shí)候我會(huì)用第二種——原文本數(shù)值乘以1強(qiáng)制轉(zhuǎn)換為數(shù)值。
其他一些導(dǎo)入情況比較少見,這里也簡(jiǎn)單介紹一下。
如果碰到xml文件,先不要驚慌地去找其他方法,Excel可以導(dǎo)入一些xml文件的,先試試直接打開行不行。
獲取網(wǎng)站表格
Excel路徑:數(shù)據(jù)-獲取外部數(shù)據(jù)-自網(wǎng)站
比如國(guó)家統(tǒng)計(jì)局
把鏈接輸入進(jìn)去,等加載完之后選中黃色箭頭,點(diǎn)擊“導(dǎo)入”,搞定。
這個(gè)方法比直接復(fù)制粘貼好在,可以一次導(dǎo)入多個(gè)表格。
獲取網(wǎng)站數(shù)據(jù)
數(shù)據(jù)-獲取和轉(zhuǎn)換-新建查詢-從其他源-從web
獲取文件夾文件列表
數(shù)據(jù)-獲取和轉(zhuǎn)換-新建查詢-從文件-從文件夾
逆向透視表
字面意思,就是把向透視表那樣的二維表逆向轉(zhuǎn)變?yōu)橐痪S表。
數(shù)據(jù)抓取
WEBSERVICE(url)和FILTERXML(xml, xpath)配合使用
WEBSERVICE(url)返回網(wǎng)頁xml,然后用FILTERXML(xml, xpath)解析
這就是一個(gè)簡(jiǎn)單的函數(shù)版爬蟲。但這種方式只適合部分網(wǎng)頁的少量信息爬取,如果要正兒八經(jīng)搞爬蟲,建議還是用Python。
Excel數(shù)據(jù)輸入是數(shù)據(jù)處理的第一步,就先講到這里了。
下一篇講數(shù)據(jù)處理。
你的點(diǎn)贊和收藏,是我堅(jiān)持寫下去的助力~謝謝
聯(lián)系客服