由于經(jīng)常接到私信要求在這個(gè)書單之內(nèi)再推薦兩三本,每個(gè)人的行業(yè)背景也不一樣,所以就把下面的書單歸類整理一下。
入門讀物:
- 深入淺出數(shù)據(jù)分析 這書挺簡(jiǎn)單的,基本的內(nèi)容都涉及了,說得也比較清楚,最后談到了 R 是大加分。難易程度:非常易。
- 啤酒與尿布 通過案例來說事情,而且是最經(jīng)典的例子。難易程度:非常易。
- 數(shù)據(jù)之美 一本介紹性的書籍,每章都解決一個(gè)具體的問題,甚至還有代碼,對(duì)理解數(shù)據(jù)分析的應(yīng)用領(lǐng)域和做法非常有幫助。難易程度:易。
- 數(shù)學(xué)之美 這本書非常棒啦,入門讀起來很不錯(cuò)!
數(shù)據(jù)分析:
- SciPy and NumPy 這本書可以歸類為數(shù)據(jù)分析書吧,因?yàn)?numpy 和 scipy 真的是非常強(qiáng)大啊。
- Python for Data Analysis 作者是 Pandas 這個(gè)包的作者,看過他在 Scipy 會(huì)議上的演講,實(shí)例非常強(qiáng)!
- Bad Data Handbook 很好玩的書,作者的角度很不同。
適合入門的教程:
- 集體智慧編程 學(xué)習(xí)數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)人員應(yīng)該仔細(xì)閱讀的第一本書。作者通過實(shí)際例子介紹了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的算法,淺顯易懂,還有可執(zhí)行的 Python 代碼。難易程度:中。
- Machine Learning in Action 用人話把復(fù)雜難懂的機(jī)器學(xué)習(xí)算法解釋清楚了,其中有零星的數(shù)學(xué)公式,但是是以解釋清楚為目的的。而且有 Python 代碼,大贊!目前中科院的王斌老師(微博: 王斌_ICTIR)已經(jīng)翻譯這本書了 機(jī)器學(xué)習(xí)實(shí)戰(zhàn) 。這本書本身質(zhì)量就很高,王老師的翻譯質(zhì)量也很高。難易程度:中。我?guī)У难芯可腴T必看數(shù)目之一!
- Building Machine Learning Systems with Python 雖然是英文的,但是由于寫得很簡(jiǎn)單,比較理解,又有 Python 代碼跟著,輔助理解。
- 數(shù)據(jù)挖掘?qū)д?/a> 最近幾年數(shù)據(jù)挖掘教材中比較好的一本書,被美國(guó)諸多大學(xué)的數(shù)據(jù)挖掘課作為教材,沒有推薦 Jiawei Han 老師的那本書,因?yàn)閭€(gè)人覺得那本書對(duì)于初學(xué)者來說不太容易讀懂。難易程度:中上。
- Machine Learning for Hackers 也是通過實(shí)例講解機(jī)器學(xué)習(xí)算法,用 R 實(shí)現(xiàn)的,可以一邊學(xué)習(xí)機(jī)器學(xué)習(xí)一邊學(xué)習(xí) R。
稍微專業(yè)些的:
- Introduction to Semi-Supervised Learning 半監(jiān)督學(xué)習(xí)必讀必看的書。
- Learning to Rank for Information Retrieval 微軟亞院劉鐵巖老師關(guān)于 LTR 的著作,啥都不說了,推薦!
- Learning to Rank for Information Retrieval and Natural Language Processing 李航老師關(guān)于 LTR 的書,也是當(dāng)時(shí)他在微軟亞院時(shí)候的書,可見微軟亞院對(duì) LTR 的研究之深,貢獻(xiàn)之大。
- 推薦系統(tǒng)實(shí)踐 這本書不用說了,研究推薦系統(tǒng)必須要讀的書,而且是第一本要讀的書。
- Graphical Models, Exponential Families, and Variational Inference 這個(gè)是 Jordan 老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research 上的創(chuàng)刊號(hào),可以免費(fèi)下載,比較難懂,但是一旦讀通了,graphical model 的相關(guān)內(nèi)容就可以踏平了。
- Natural Language Processing with Python NLP 經(jīng)典,其實(shí)主要是講 NLTK 這個(gè)包,但是啊,NLTK 這個(gè)包幾乎涵蓋了 NLP 的很多內(nèi)容了??!
機(jī)器學(xué)習(xí)教材:
- The Elements of Statistical Learning 這本書有對(duì)應(yīng)的中文版:統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ) 。書中配有 R 包,非常贊!可以參照著代碼學(xué)習(xí)算法。
- 統(tǒng)計(jì)學(xué)習(xí)方法 李航老師的扛鼎之作,強(qiáng)烈推薦。難易程度:難。
- Machine Learning 去年出版的新書,作者 Kevin Murrphy 教授是機(jī)器學(xué)習(xí)領(lǐng)域中年少有為的代表。這書是他的集大成之作,寫完之后,就去 Google 了,產(chǎn)學(xué)研結(jié)合,沒有比這個(gè)更好的了。
- Machine Learning 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 之前做過我?guī)У难芯可滩?,由于配有代碼,所以理解起來比較容易。
- Pattern Recognition And Machine Learning 經(jīng)典中的經(jīng)典。
- Bayesian Reasoning and Machine Learning 看名字就知道了,徹徹底底的 Bayesian 學(xué)派的書,里面的內(nèi)容非常多,有一張圖將機(jī)器學(xué)習(xí)中設(shè)計(jì)算法的關(guān)系總結(jié)了一下,很棒。
- Probabilistic Graphical Models 鴻篇巨制,這書誰要是讀完了告訴我一聲。
- Convex Optimization 凸優(yōu)化中最好的教材,沒有之一了。課程也非常棒,Stephen 老師拿著紙一步一步推到,圖一點(diǎn)一點(diǎn)畫,太棒了。