国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
大數(shù)據(jù)測試學(xué)習(xí)筆記之Python工具集

這是2018年度業(yè)余主要學(xué)習(xí)和研究的方向的筆記:大數(shù)據(jù)測試

整個學(xué)習(xí)筆記以短文為主,記錄一些關(guān)鍵信息和思考

預(yù)計每周一篇短文進(jìn)行記錄,可能是理論、概念、技術(shù)、工具等等

學(xué)習(xí)資料以IBM開發(fā)者社區(qū)、華為開發(fā)者社區(qū)以及搜索到的相關(guān)資料為主

我的公眾號:開源優(yōu)測

大數(shù)據(jù)測試學(xué)習(xí)筆記之Python工具集

簡介

在本次筆記中主要匯總Python關(guān)于大數(shù)據(jù)處理的一些基礎(chǔ)性工具,個人掌握這些工具是從事大數(shù)據(jù)處理和大數(shù)據(jù)測必備技能

主要工具有以下(包括但不限于):

  • numpy

  • pandas

  • SciPy

  • Scikit-Learn

  • Spark

  • Matplotlib

對于上述工具,筆者之前已經(jīng)從安裝部署、學(xué)習(xí)其官方示例等等均已經(jīng)初步做了一些學(xué)習(xí),但在實(shí)戰(zhàn)方面有待進(jìn)一步提升,有興趣的朋友可以加入和我一起學(xué)習(xí)提升

關(guān)注公眾:開源優(yōu)測, 一起提升學(xué)習(xí),謝謝

numpy

NumPy系統(tǒng)是Python的一種開源的數(shù)值計算擴(kuò)展。可用來存儲和處理大型矩陣,比Python自身的嵌套列表(nested list structure)結(jié)構(gòu)要高效的多(該結(jié)構(gòu)也可以用來表示矩陣(matrix)).

包括:

  1. 一個強(qiáng)大的N維數(shù)組對象Array

  2. 比較成熟的(廣播)函數(shù)庫

  3. 用于整合C/C++和Fortran代碼的工具包

  4. 實(shí)用的線性代數(shù)、傅里葉變換和隨機(jī)數(shù)生成函數(shù)。

numpy和稀疏矩陣運(yùn)算包scipy配合使用更加方便。

筆者注:numpy是基礎(chǔ)數(shù)值計算的庫,更是必須掌握的,便于我們深入理解原理,為后續(xù)學(xué)習(xí)其他庫打下扎實(shí)的基礎(chǔ)。

pandas

Python Data Analysis Library 或 pandas 是基于NumPy 的一種工具,該工具是為了解決數(shù)據(jù)分析任務(wù)而創(chuàng)建的。Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。pandas提供了大量能使我們快速便捷地處理數(shù)據(jù)的函數(shù)和方法。

主要數(shù)據(jù)結(jié)構(gòu)有:

  1. Series:一維數(shù)組,與Numpy中的一維array類似。二者與Python基本的數(shù)據(jù)結(jié)構(gòu)List也很相近,其區(qū)別是:List中的元素可以是不同的數(shù)據(jù)類型,而Array和Series中則只允許存儲相同的數(shù)據(jù)類型,這樣可以更有效的使用內(nèi)存,提高運(yùn)算效率。

  2. Time- Series:以時間為索引的Series。

  3. DataFrame:二維的表格型數(shù)據(jù)結(jié)構(gòu)。很多功能與R中的data.frame類似。可以將DataFrame理解為Series的容器。以下的內(nèi)容主要以DataFrame為主。

  4. Panel :三維的數(shù)組,可以理解為DataFrame的容器。

筆者注:pandas相對于numpy易用性更友好,有一定編碼經(jīng)驗(yàn)的前提下基本上對官方文檔的十分鐘入門教程進(jìn)行初步學(xué)習(xí)即可開始使用干活了。

Scipy

SciPy是一款方便、易于使用、專為科學(xué)和工程設(shè)計的Python工具包.它包括統(tǒng)計,優(yōu)化,整合,線性代數(shù)模塊,傅里葉變換,信號和圖像處理,常微分方程求解器等等.

scipy是Python中科學(xué)計算程序的核心包; 它用于有效地計算numpy矩陣,來讓numpy和scipy協(xié)同工作。

Scikit-learn

Scikit-learn是Python機(jī)器學(xué)習(xí)開源庫,基本功能主要被分為六大部分:分類,回歸,聚類,數(shù)據(jù)降維,模型選擇和數(shù)據(jù)預(yù)處理。

  • 分類
    是指識別給定對象的所屬類別,屬于監(jiān)督學(xué)習(xí)的范疇,最常見的應(yīng)用場景包括垃圾郵件檢測和圖像識別等。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:支持向量機(jī)(SVM),最近鄰,邏輯回歸,隨機(jī)森林,決策樹以及多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)等等。

注:Scikit-learn本身不支持深度學(xué)習(xí),也不支持GPU加速,因此對于MLP的實(shí)現(xiàn)并不適合于處理大規(guī)模問題。有相關(guān)需求的朋友可以查看對Python有良好支持的Keras和Theano等框架。

  • 回歸
    是指預(yù)測與給定對象相關(guān)聯(lián)的連續(xù)值屬性,最常見的應(yīng)用場景包括預(yù)測藥物反應(yīng)和預(yù)測股票價格等。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:支持向量回歸(SVR),脊回歸,Lasso回歸,彈性網(wǎng)絡(luò)(Elastic Net),最小角回歸(LARS ),貝葉斯回歸,以及各種不同的魯棒回歸算法等??梢钥吹剑@里實(shí)現(xiàn)的回歸算法幾乎涵蓋了所有開發(fā)者的需求范圍,而且更重要的是,Scikit-learn還針對每種算法都提供了簡單明了的用例參考。

  • 聚類
    是指自動識別具有相似屬性的給定對象,并將其分組為集合,屬于無監(jiān)督學(xué)習(xí)的范疇,最常見的應(yīng)用場景包括顧客細(xì)分和試驗(yàn)結(jié)果分組。目前Scikit-learn已經(jīng)實(shí)現(xiàn)的算法包括:K-均值聚類,譜聚類,均值偏移,分層聚類,DBSCAN聚類等。

  • 數(shù)據(jù)降維
    是指使用主成分分析(PCA)、非負(fù)矩陣分解(NMF)或特征選擇等降維技術(shù)來減少要考慮的隨機(jī)變量的個數(shù),其主要應(yīng)用場景包括可視化處理和效率提升。

  • 模型選擇
    是指對于給定參數(shù)和模型的比較、驗(yàn)證和選擇,其主要目的是通過參數(shù)調(diào)整來提升精度。目前Scikit-learn實(shí)現(xiàn)的模塊包括:格點(diǎn)搜索,交叉驗(yàn)證和各種針對預(yù)測誤差評估的度量函數(shù)。

  • 數(shù)據(jù)預(yù)處理
    是指數(shù)據(jù)的特征提取和歸一化,是機(jī)器學(xué)習(xí)過程中的第一個也是最重要的一個環(huán)節(jié)。這里歸一化是指將輸入數(shù)據(jù)轉(zhuǎn)換為具有零均值和單位權(quán)方差的新變量,但因?yàn)榇蠖鄶?shù)時候都做不到精確等于零,因此會設(shè)置一個可接受的范圍,一般都要求落在0-1之間。而特征提取是指將文本或圖像數(shù)據(jù)轉(zhuǎn)換為可用于機(jī)器學(xué)習(xí)的數(shù)字變量。

需要特別注意的是,這里的特征提取與上文在數(shù)據(jù)降維中提到的特征選擇非常不同。特征選擇是指通過去除不變、協(xié)變或其他統(tǒng)計上不重要的特征量來改進(jìn)機(jī)器學(xué)習(xí)的一種方法。

總結(jié),Scikit-learn實(shí)現(xiàn)了一整套用于數(shù)據(jù)降維,模型選擇,特征提取和歸一化的完整算法/模塊,雖然缺少按步驟操作的參考教程,但Scikit-learn針對每個算法和模塊都提供了豐富的參考樣例和詳細(xì)的說明文檔。

Spark

Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類Hadoop MapReduce的通用并行框架,Spark,擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。

Spark提供了Scala和Python版本,因Scala的學(xué)習(xí)曲線相對漫長,筆者建議軟件測試人員學(xué)習(xí)Python版本即可。

Matplotlib

Matplotlib是一個Python的2D繪圖庫,它以各種硬拷貝格式和跨平臺的交互式環(huán)境生成出版質(zhì)量級別的圖形。
通過 Matplotlib,開發(fā)者可以僅需要幾行代碼,便可以生成繪圖

  • 直方圖

  • 功率譜

  • 條形圖

  • 錯誤圖

  • 散點(diǎn)圖

  • 等等。

總結(jié)

大數(shù)據(jù)處理及測試,必然需要掌握基礎(chǔ)技術(shù),不僅僅需要去了解,更需要去掌握技術(shù)并具備實(shí)際的項(xiàng)目能力,將技術(shù)、測試、業(yè)務(wù)融會貫通。

接下來會逐步的開始深入到這些技術(shù)的學(xué)習(xí)當(dāng)中,并記錄成筆記。

開源優(yōu)測

分享軟件測試開源技術(shù)、經(jīng)驗(yàn)、方案的首發(fā)平臺

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
【譯】數(shù)據(jù)科學(xué)之5個最佳Python庫,為初學(xué)者定制的教程
金融科技領(lǐng)域最受歡迎的八個Python庫
十大最受數(shù)據(jù)科學(xué)歡迎的Python庫
從理論到學(xué)習(xí)時間表:教你正月30天速成Python
Python機(jī)器學(xué)習(xí)庫TOP10
Python 數(shù)據(jù)科學(xué)十大利器,你用過幾個?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服