国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
微軟高級數(shù)據(jù)科學家教你如何做數(shù)據(jù)科學

1.學會獲取更多的數(shù)據(jù)

數(shù)據(jù)科學的數(shù)據(jù)源是數(shù)字和字段的集合。測量、價格、日期、時間、產(chǎn)品、標題等,都是簡單的數(shù)據(jù)集;你也可以用圖像、音頻、視頻等復雜結(jié)構(gòu)的數(shù)據(jù)集,這時需要你去降維分解成數(shù)字和字段的集合。數(shù)據(jù)獲取是一個復雜的機制,數(shù)據(jù)工程師各種被揉捏,但本篇文章重點是講述數(shù)據(jù)科學,數(shù)據(jù)獲取將會是下一個topic。

2.學會聰明的提出問題

簡單點講,就是提出的問題要問到點子上。數(shù)據(jù)科學是通過對數(shù)字和字段組成的數(shù)據(jù)集合進行處理,然后回答問題。你描述的問題越精確,越容易找到令你滿意的精確答案。含糊不清的問法:“我的數(shù)據(jù)能為業(yè)務提供什么?”,”有了數(shù)據(jù)我該做什么?”;相對應地,清晰的問法:“第三季度在蒙特利爾賣了多少Q(mào)型小物件?” 你有了一個問題,現(xiàn)在你得看自己的數(shù)據(jù)是否可以回答。如果你的問題是“我的股票下周的銷售價是多少?”,那需要確保你的數(shù)據(jù)包括股票的歷史數(shù)據(jù);如果你的問題是“88型發(fā)動機多少小時會發(fā)生故障?”,那需要確保你的數(shù)據(jù)包括88型發(fā)動機失敗的次數(shù)。這些問答案例被稱之為目標,你的目標是定量或者分類預測或任務。如果你沒有任何目標數(shù)據(jù),需要回到步驟1,獲取更多的數(shù)據(jù)。

3.裝載數(shù)據(jù)進表

大部分機器學習算法都是假設數(shù)據(jù)以表的形式呈現(xiàn)。每行是一個事件、item、或者實體;每列是行數(shù)據(jù)的一個特征或者屬性。一個描述美國足球比賽的數(shù)據(jù)集,每行代表一場比賽,每列分為主場足球隊、客場足球隊、主場得分、客場得分、日期、開始時間和出場等等。選擇你所需的數(shù)據(jù)行經(jīng)常有許多種方式將數(shù)據(jù)集分割成行,但只有一種方法能幫助你回答問題:每行有且僅有一個目標實體。拿零售店數(shù)據(jù)舉例,一條交易記錄一行,一天的記錄一行,一個零售店一行,一個顧客的數(shù)據(jù)一行,等等。如果你的問題是”剛進過店的顧客會回訪嗎?“,那數(shù)據(jù)以一個顧客為一行來組織為好。你的目標whether_the_customer_returned將呈現(xiàn)在每行;但如果以一個零售店或者一天進行數(shù)據(jù)組織,將不能回答目標問題。有時你必須向上鉆取數(shù)據(jù)來獲得相應的維度數(shù)據(jù)。如果你的問題是“我每天能賣多少拿鐵咖啡?”,那你需要每行一天的數(shù)據(jù)記錄(目標列為number_of_lattes_sold),但是你的數(shù)據(jù)是每次的交易記錄(帶有日期和時間)。為了獲取每行一天的數(shù)據(jù)記錄,你必須向上鉆取數(shù)據(jù)。

4.數(shù)據(jù)質(zhì)量校驗

數(shù)據(jù)檢查接下來是仔細的查看數(shù)據(jù)。檢查數(shù)據(jù)有兩個目的:第一,發(fā)現(xiàn)錯誤數(shù)據(jù),修復或者去除它;第二,對每行每列有足夠的了解。檢查每列數(shù)據(jù),它的符號是什么?符號意味著什么?有文檔解釋列的意思嗎?數(shù)據(jù)是如何測試的?誰來測試的?如果你足夠的幸運知道記錄數(shù)據(jù)的人,可以去問問他們是怎樣測試這些數(shù)據(jù)。把數(shù)據(jù)列作為縱軸畫圖表,看下整體分布是否符合預期?是否有異常數(shù)據(jù)點?異常點是否有意義?校正縱觀所有的數(shù)據(jù)列,你能發(fā)現(xiàn)字段和文檔的錯誤,并記錄下來你學到了什么,這樣你會比其他人都要了解這些數(shù)據(jù)(除了紀錄數(shù)據(jù)的人外)。你也可能發(fā)現(xiàn)一些值是錯誤的。一些值超過了正常范圍,比如,一個人72米高,或一個“7777777777 Mani St”的地址。當這些事情發(fā)生后你有三種選擇:如果這個值很容易更改正確,比如,把高72米改成72英寸;如果錯誤的值不明顯,你可以直接刪除或者缺失;如果這個值是關鍵信息,你應該刪除整行或者整列,這可以讓你訓練的模型遠離錯誤數(shù)據(jù),因為錯誤的數(shù)據(jù)對你的訓練模型的影響比缺失數(shù)據(jù)更大。替換缺失的值在大部分情況下,數(shù)據(jù)集都存在缺失的值。但不管什么情況,機器學習算法都要希望數(shù)據(jù)無缺失或者填充默認值。對于你來說,你比機器學習算法更懂你的數(shù)據(jù),所有補全缺失數(shù)據(jù)的工作你更適合。有許多替換缺失值的方法,最保險的一種是采用其它正常數(shù)據(jù)的平均值來替代。

5.抽取特征

在做機器學習之前有一個非常重要的步驟:特征工程。特征工程簡單講,就是對現(xiàn)有特征數(shù)據(jù)進行組合,以獲得更好的特征來預測目標。舉個例子,火車到達和離開的時間相減獲得運輸時間,這個特征對預測速度的峰值更有用。嚴格來講,特征工程并不會增加任何數(shù)據(jù)信息,只是使用各種方法對原有數(shù)據(jù)進行組合。特征工程是數(shù)據(jù)科學的“黑科技”,并沒有什么特別的、大一統(tǒng)的處理原則,雖然很多深度學習試圖自動化這個過程,但都是失敗了,特征工程一般是數(shù)據(jù)科學家的經(jīng)驗決定。不過即使你沒有特征工程的技能,也有些小技巧可以使用。你可以對變量畫圖,并標記不同的顏色,可以幫你方便的發(fā)現(xiàn)變量之間的關系。如果你發(fā)現(xiàn)經(jīng)過特征工程之后還未找到特征來預測目標,那你得重寫回到第一步獲取數(shù)據(jù)。

6.正確的回答問題

現(xiàn)在到了數(shù)據(jù)科學家鐘愛的部分:機器學習,有許多資源講這部分,這里就不再總結(jié)所有的方法。簡單地講,你可以在參考文章《你的問題屬于哪種算法?》和《選擇一到多種算法》來選擇算法,并用傳統(tǒng)機器學習技術(shù)來分割數(shù)據(jù)進行訓練、調(diào)優(yōu)、測試數(shù)據(jù)、根據(jù)選擇的模型優(yōu)化參數(shù)。如果你的模型并不能很好的解決問題,或者你想避免使用機器學習,也有兩種非傳統(tǒng)的方法回答:第一種,簡單的看你收集數(shù)據(jù)的圖像,有一半的情況下可視化數(shù)據(jù)就可以找到答案。比如,如果你的問題是“在波士頓明年7月4號的最高溫度是多少?”,對過去100年的溫度可視化,查看直方圖就基本可以解決問題。第二種,更多技術(shù)需求。如果由于數(shù)據(jù)集太小而得不到結(jié)果,你可以考慮優(yōu)化。機器學習是基于弱先驗假設的結(jié)構(gòu)化數(shù)據(jù)。這種方法的優(yōu)點在于你使用算法之前你不需要知道太多數(shù)據(jù),它能夠訓練出一個大范圍的模型;副作用就是需要大量數(shù)據(jù)才能獲得一個可信的答案。

7.應用數(shù)據(jù)

不管你如何優(yōu)雅的回答提出的問題,但數(shù)據(jù)科學家的工作直到用戶去使用才算完成。把結(jié)果以某種形式呈現(xiàn)給用戶作為參考來做對應的決策,展示的形式有很多種:將結(jié)果在web頁面上畫出來;把你發(fā)現(xiàn)的有用信息保存成PDF;在GitHub上分享你的代碼;把結(jié)論做成視頻給你的商業(yè)客戶,等等。總之一句話,要把你做的工作讓其他人來使用。

原文來自:http://www.l-ch.net

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
已經(jīng)證實提高機器學習模型準確率的八大方法
從1到無窮大—機器學習篇
開發(fā)者成功使用機器學習的十大訣竅
推薦 :如何成為一名卓越的數(shù)據(jù)科學家
用戶特征工程詳細解讀
*****什么是機器學習?看完就明白了
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服