數(shù)據(jù)分析過程中,需要對獲取到的數(shù)據(jù)進行分析,往往第一步就是導入數(shù)據(jù)。導入數(shù)據(jù)有很多方式,不同的數(shù)據(jù)文件需要用到不同的導入方式,相同的文件也會有幾種不同的導入方式。下面總結(jié)幾種常用的文件導入方法。
大多數(shù)情況下,會使用NumPy
或Pandas
來導入數(shù)據(jù),因此在開始之前,先執(zhí)行:
import numpy as np
import pandas as pd
很多時候?qū)σ恍┖瘮?shù)方法不是很了解,此時Python提供了一些幫助信息,以快速使用Python對象。
info
方法。np.info(np.ndarray.dtype)
help(pd.read_csv)
filename = 'demo.txt'
file = open(filename, mode='r') # 打開文件進行讀取
text = file.read() # 讀取文件的內(nèi)容
print(file.closed) # 檢查文件是否關(guān)閉
file.close() # 關(guān)閉文件
print(text)
使用上下文管理器 -- with
with open('demo.txt', 'r') as file:
print(file.readline()) # 一行一行讀取
print(file.readline())
print(file.readline())
使用 Numpy 讀取 Flat 文件
Numpy 內(nèi)置函數(shù)處理數(shù)據(jù)的速度是 C 語言級別的。
Flat 文件是一種包含沒有相對關(guān)系結(jié)構(gòu)的記錄的文件。(支持Excel、CSV和Tab分割符文件 )
用于分隔值的字符串跳過前兩行。
在第一列和第三列讀取結(jié)果數(shù)組的類型。
filename = 'mnist.txt'
data = np.loadtxt(filename,
delimiter=',',
skiprows=2,
usecols=[0,2],
dtype=str)
兩個硬的要求:
跳過表頭信息 區(qū)分橫縱坐標
filename = 'titanic.csv'
data = np.genfromtxt(filename,
delimiter=',',
names=True,
dtype=None)
使用 Pandas 讀取Flat文件
filename = 'demo.csv'
data = pd.read_csv(filename,
nrows=5, # 要讀取的文件的行數(shù)
header=None, # 作為列名的行號
sep='\t', # 分隔符使用
comment='#', # 分隔注釋的字符
na_values=['']) # 可以識別為NA/NaN的字符串
Pandas中的ExcelFile()
是pandas中對excel表格文件進行讀取相關(guān)操作非常方便快捷的類,尤其是在對含有多個sheet的excel文件進行操控時非常方便。
file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
skiprows=[0],
names=['Country',
'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
sheet_name=0,
parse_cols=[0],
skiprows=[0],
names=['Country'])
使用sheet_names
屬性獲取要讀取工作表的名稱。
data.sheet_names
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統(tǒng)。其保存的文件即sas是統(tǒng)計分析文件。
from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
df_sas = file.to_data_frame()
Stata 是一套提供其使用者數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計軟件。其保存的文件后綴名為.dta
的Stata文件。
data = pd.read_stata('demo.dta')
python中幾乎所有的數(shù)據(jù)類型(列表,字典,集合,類等)都可以用pickle來序列化。python的pickle模塊實現(xiàn)了基本的數(shù)據(jù)序列和反序列化。通過pickle模塊的序列化操作我們能夠?qū)⒊绦蛑羞\行的對象信息保存到文件中去,永久存儲;通過pickle模塊的反序列化操作,我們能夠從文件中創(chuàng)建上一次程序保存的對象。
import pickle
with open('pickled_demo.pkl', 'rb') as file:
pickled_data = pickle.load(file) # 下載被打開被讀取到的數(shù)據(jù)
與其相對應的操作是寫入方法pickle.dump()
。
HDF5文件是一種常見的跨平臺數(shù)據(jù)儲存文件,可以存儲不同類型的圖像和數(shù)碼數(shù)據(jù),并且可以在不同類型的機器上傳輸,同時還有統(tǒng)一處理這種文件格式的函數(shù)庫。
HDF5 文件一般以 .h5
或者 .hdf5
作為后綴名,需要專門的軟件才能打開預覽文件的內(nèi)容。
import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')
其由matlab將其工作區(qū)間里的數(shù)據(jù)存儲的后綴為.mat
的文件。
import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)
from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')
使用table_names()
方法獲取一個表名列表
table_names = engine.table_names()
con = engine.connect()
rs = con.execute('SELECT * FROM Orders')
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()
使用上下文管理器 -- with
with engine.connect() as con:
rs = con.execute('SELECT OrderID FROM Orders')
df = pd.DataFrame(rs.fetchmany(size=5))
df.columns = rs.keys()
df = pd.read_sql_query('SELECT * FROM Orders', engine)
數(shù)據(jù)導入后會對數(shù)據(jù)進行初步探索,如查看數(shù)據(jù)類型,數(shù)據(jù)大小、長度等一些基本信息。這里簡單總結(jié)一些。
data_array.dtype # 數(shù)組元素的數(shù)據(jù)類型
data_array.shape # 陣列尺寸
len(data_array) # 數(shù)組的長度
df.head() # 返回DataFrames前幾行(默認5行)
df.tail() # 返回DataFrames最后幾行(默認5行)
df.index # 返回DataFrames索引
df.columns # 返回DataFrames列名
df.info() # 返回DataFrames基本信息
data_array = data.values # 將DataFrames轉(zhuǎn)換為NumPy數(shù)組