2006年,英國數(shù)學(xué)家Clive Humbly和Tesco俱樂部卡的設(shè)計(jì)師創(chuàng)造了“數(shù)據(jù)就是新油(Data is the new oil)”這句話。他說:
“數(shù)據(jù)是新的石油。它很有價(jià)值,但如果未經(jīng)提煉就不能使用。它必須轉(zhuǎn)變?yōu)樘烊粴猓芰?,化學(xué)品等,以創(chuàng)造一個(gè)有價(jià)值的實(shí)體驅(qū)動(dòng)盈利的活動(dòng); 所以,必須對數(shù)據(jù)進(jìn)行分解和分析,才能使其具有價(jià)值?!?/em>
數(shù)據(jù)科學(xué)是一個(gè)多學(xué)科領(lǐng)域。它是以下領(lǐng)域之間的交集:
我們的重點(diǎn)將是簡化數(shù)據(jù)科學(xué)的機(jī)器學(xué)習(xí)方面。在本文中,我將首先介紹數(shù)據(jù)科學(xué)中的原理,一般過程和問題類型。
關(guān)鍵原理
處理
根據(jù)第二條原則,現(xiàn)在讓我強(qiáng)調(diào)一下數(shù)據(jù)科學(xué)的過程部分。以下是一個(gè)典型的數(shù)據(jù)科學(xué)項(xiàng)目的階段:
1.定義業(yè)務(wù)問題
阿爾伯特愛因斯坦曾引用“每件事都應(yīng)該盡可能地簡單,但不能越簡單越好”。這句話是定義業(yè)務(wù)問題的關(guān)鍵。需要開發(fā)和構(gòu)建問題陳述,需要建立明確的成功標(biāo)準(zhǔn)。根據(jù)我的經(jīng)驗(yàn),業(yè)務(wù)團(tuán)隊(duì)忙于處理他們的操作任務(wù)。這并不意味著他們沒有需要解決的挑戰(zhàn)。頭腦風(fēng)暴會(huì)議,研討會(huì)和訪談可以幫助發(fā)現(xiàn)這些挑戰(zhàn)并提出假設(shè)。讓我用一個(gè)例子來說明這一點(diǎn)。讓我們假設(shè)一家電信公司由于客戶群減少而導(dǎo)致其同比收入下降。在這種情況下,業(yè)務(wù)問題可能定義為:
2.分解為機(jī)器學(xué)習(xí)任務(wù)
業(yè)務(wù)問題一旦定義,就需要分解為機(jī)器學(xué)習(xí)任務(wù)。讓我們詳細(xì)說明我們在上面設(shè)置的示例。如果組織需要通過定位新的細(xì)分市場并減少客戶流失來擴(kuò)大客戶群,那么我們?nèi)绾螌⑵浞纸鉃闄C(jī)器學(xué)習(xí)問題?以下是分解的示例:
3.數(shù)據(jù)準(zhǔn)備
一旦我們定義了業(yè)務(wù)問題并將其分解為機(jī)器學(xué)習(xí)問題,我們就需要深入研究數(shù)據(jù)。數(shù)據(jù)理解應(yīng)該明確手頭的問題。它應(yīng)該有助于我們制定正確的分析策略。需要注意的關(guān)鍵事項(xiàng)是數(shù)據(jù)來源,數(shù)據(jù)質(zhì)量,數(shù)據(jù)偏差等。
4.探索性數(shù)據(jù)分析
宇航員穿越宇宙的未知。同樣,數(shù)據(jù)科學(xué)家遍歷數(shù)據(jù)模式的未知,窺探其特征的奧秘并制定出未被探索的內(nèi)容。探索性數(shù)據(jù)分析(EDA)是一項(xiàng)令人興奮的任務(wù)。我們可以更好地理解數(shù)據(jù),研究其中的細(xì)微差別,發(fā)現(xiàn)隱藏的模式,開發(fā)新特性并制定建模策略。
5.建模
在EDA之后,我們進(jìn)入建模階段。在這里,我們根據(jù)具體的機(jī)器學(xué)習(xí)問題,我們應(yīng)用有用的算法,如回歸,決策樹,隨機(jī)森林等。
6.部署和評估
最后,對所開發(fā)的模型進(jìn)行了部署。它們被持續(xù)監(jiān)測,以觀察它們在現(xiàn)實(shí)世界中的行為,并據(jù)此進(jìn)行校準(zhǔn)。
通常,建模和部署部分僅占工作量的20%。80%的工作是接觸數(shù)據(jù),探索數(shù)據(jù)并理解數(shù)據(jù)。
機(jī)器學(xué)習(xí)問題類型
一般來說,機(jī)器學(xué)習(xí)有兩種任務(wù):
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)任務(wù),其中存在已定義的目標(biāo)。從概念上講,建模者將監(jiān)督機(jī)器學(xué)習(xí)模型以實(shí)現(xiàn)特定目標(biāo)。監(jiān)督學(xué)習(xí)可以進(jìn)一步分為兩類:
回歸
回歸是機(jī)器學(xué)習(xí)任務(wù)的主力。它們用于估計(jì)或預(yù)測數(shù)值變量?;貧w模型的幾個(gè)例子可以是:
分類
顧名思義,分類模型對某些事物進(jìn)行了分類。估計(jì)哪個(gè)最合適。分類模型經(jīng)常用于所有類型的應(yīng)用程序。分類模型的例子很少:
無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)是一類沒有目標(biāo)的機(jī)器學(xué)習(xí)任務(wù)。由于無監(jiān)督學(xué)習(xí)沒有任何特定目標(biāo),因此有時(shí)難以解釋其產(chǎn)生的結(jié)果。有許多類型的無監(jiān)督學(xué)習(xí)任務(wù)。關(guān)鍵是:
機(jī)器學(xué)習(xí)任務(wù)從模型到算法
一旦我們將業(yè)務(wù)問題分解為機(jī)器學(xué)習(xí)任務(wù),一個(gè)或多個(gè)算法就可以解決給定的機(jī)器學(xué)習(xí)任務(wù)。通常,模型是在多種算法上訓(xùn)練的。選擇提供最佳結(jié)果的算法或算法集用于部署。
Azure Machine Learning具有30多種預(yù)先構(gòu)建的算法,可用于訓(xùn)練機(jī)器學(xué)習(xí)模型。
Azure Machine Learning備忘錄將有助于瀏覽它。
結(jié)論
數(shù)據(jù)科學(xué)是一個(gè)廣闊的領(lǐng)域。這是一個(gè)令人興奮的領(lǐng)域。這是一門藝術(shù),這是一門科學(xué)。在本文中,我們剛剛探討了冰山的表面。如果不知道“為什么”,那么“如何”將是徒勞的。在隨后的文章中,我們將探討機(jī)器學(xué)習(xí)的“原理”。