導(dǎo)讀:3月31日,2020年圖靈獎(jiǎng)重磅出爐,頒給了哥倫比亞大學(xué)計(jì)算機(jī)科學(xué)名譽(yù)教授 Alfred Vaino Aho 和斯坦福大學(xué)計(jì)算機(jī)科學(xué)名譽(yù)教授 Jeffrey David Ullman。 Jeff Ullman 是數(shù)據(jù)科學(xué)領(lǐng)域的巨擘,他的研究興趣包括數(shù)據(jù)庫理論、數(shù)據(jù)庫集成、數(shù)據(jù)挖掘等。在去年撰寫的一篇評(píng)論文章中,他用淺顯的語言重新定義了,統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)之間的交叉點(diǎn),并破除了其中的誤讀。他認(rèn)為,盡管機(jī)器學(xué)習(xí)非常重要,但它遠(yuǎn)非實(shí)現(xiàn)有效數(shù)據(jù)科學(xué)所需的唯一工具。 「我并不認(rèn)為機(jī)器學(xué)習(xí)可以完全取代數(shù)據(jù)庫社區(qū)開發(fā)的算法?!?/section>來源:智源社區(qū)作者:Jeff Ullman 編譯:夢(mèng)佳 原文鏈接為:http://sites.computer.org/debull/A20june/p8.pdf
01
Have we missed the boat again? 多年來,數(shù)據(jù)庫領(lǐng)域有一種言論認(rèn)為,數(shù)據(jù)庫系統(tǒng)正在變得無關(guān)緊要。大家似乎持一種絕望的心態(tài)。“have we missed the boat-again”這句話,在數(shù)據(jù)庫社區(qū)里似乎司空見慣[8]。 但我想論證,數(shù)據(jù)庫以及由數(shù)據(jù)庫研究而產(chǎn)生的技術(shù),對(duì)于“數(shù)據(jù)科學(xué)”仍然是必不可少的,特別是在解決科學(xué)、商業(yè)、醫(yī)學(xué)等應(yīng)用領(lǐng)域的重要問題上。數(shù)據(jù)庫系統(tǒng)的核心,一直是如何盡最大可能處理最大的數(shù)據(jù)量,無論是以MB為單位的企業(yè)工資單數(shù)據(jù)、TB為單位的基因組信息,還是PB為單位的的衛(wèi)星輸出信息。因此,數(shù)據(jù)庫的工作就是:研究一切相關(guān)數(shù)據(jù)。 為了論證這一觀點(diǎn),我主要回答三個(gè)問題:1. 統(tǒng)計(jì)真的是數(shù)據(jù)科學(xué)的重要組成部分嗎?2. 機(jī)器學(xué)習(xí)就是數(shù)據(jù)科學(xué)的全部嗎?3. 數(shù)據(jù)科學(xué)是否會(huì)對(duì)社會(huì)規(guī)范是否構(gòu)成威脅? 我對(duì)這三個(gè)問題的回答都是“no”。我將試著依次回答這三個(gè)問題。
02
數(shù)據(jù)科學(xué) vs. 統(tǒng)計(jì)學(xué):誰是誰的子集? 幾年前,我受邀參加了國家研究委員會(huì)(NRC)一個(gè)叫做“數(shù)據(jù)-科學(xué)-教育圓桌會(huì)議”的小組(詳見 [16])。這個(gè)圓桌不是由 NRC 的計(jì)算機(jī)科學(xué)部門組織的,而是由統(tǒng)計(jì)部門組織的。參與者中,統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家的數(shù)量差不多,加上其他學(xué)科的一些人。當(dāng)時(shí)的收獲主要是看統(tǒng)計(jì)學(xué)家如何思考這個(gè)數(shù)據(jù)的世界及其應(yīng)用。最明顯的一點(diǎn)是,統(tǒng)計(jì)學(xué)領(lǐng)域?qū)?shù)據(jù)科學(xué)視為自己的領(lǐng)域。公平地講,首先讓我們明確一點(diǎn),我非常尊重統(tǒng)計(jì)學(xué)家和他們所做的工作。統(tǒng)計(jì)學(xué)在現(xiàn)代數(shù)據(jù)研究中變得越來越重要,包括但不限于機(jī)器學(xué)習(xí)。許多統(tǒng)計(jì)學(xué)家開始像數(shù)據(jù)庫界或者更其他計(jì)算機(jī)科學(xué)界那樣,關(guān)注計(jì)算和數(shù)據(jù)分析。僅舉一個(gè)小例子,我最喜歡的技術(shù)之一是局部敏感哈希算法(LSH),這是一個(gè)直接來源于數(shù)據(jù)庫社區(qū)的想法。然而,我在斯坦福大學(xué)統(tǒng)計(jì)部門的一位同事 Art Owen 向我展示了關(guān)鍵步驟——最小哈希(minhashing),這一步驟很大程度上加速了這個(gè)過程——這是我們幾年前就應(yīng)該能夠弄清楚的,但是沒有弄清楚。然而,我在圓桌會(huì)議上的經(jīng)驗(yàn)也讓我感覺到,統(tǒng)計(jì)界的一些人正在努力將統(tǒng)計(jì)定義為數(shù)據(jù)科學(xué)的核心組成部分。相比之下,我更傾向于把高效處理大規(guī)模數(shù)據(jù)的算法和技術(shù)視為數(shù)據(jù)科學(xué)的中心。人們普遍認(rèn)為,數(shù)據(jù)科學(xué)是一門結(jié)合了多個(gè)領(lǐng)域知識(shí)的學(xué)科,我對(duì)此完全贊同。但這些領(lǐng)域究竟是什么,它們又是如何相互作用的呢?這個(gè)問題如此重要,以至于不同社區(qū)紛紛發(fā)表維恩圖來證明他們自己在數(shù)據(jù)科學(xué)中的中心地位。最近有一篇文章[10]對(duì)這些圖表進(jìn)行了總結(jié)和評(píng)論。其他維恩圖表示相關(guān)的所有觀點(diǎn),請(qǐng)查詢維基百科數(shù)據(jù)科學(xué)維恩圖。
有一種對(duì)數(shù)據(jù)使用的指責(zé)是,由數(shù)據(jù)產(chǎn)生的系統(tǒng)反映了說話者所反對(duì)的社會(huì)的某些東西。這種誤讀的一個(gè)明顯例子涉及 Word2Vec [13] ,這是谷歌幾年前開發(fā)的一個(gè)系統(tǒng)(后來被BERT所取代) ,該系統(tǒng)將單詞嵌入到高維向量空間中,從而使具有相似意義的單詞具有相近的向量。直觀的想法是看看通常圍繞在單詞 w 周圍的單詞。那么 w 的向量就是與其周圍關(guān)聯(lián)單詞的方向的加權(quán)組合。例如,我們預(yù)期「可口可樂」和「百事可樂」有相似的向量,因?yàn)槿藗冋務(wù)撍鼈兊姆绞酱笾孪嗤?/section>當(dāng)觀察到某些向量方程的規(guī)律時(shí),問題就出現(xiàn)了,例如作為向量,London ? England + France = Paris也就是說,倫敦和巴黎,作為各自國家的首都和最大的城市,周圍有許多反映這種地位的詞匯。我們預(yù)期倫敦周圍會(huì)有更多與英格蘭有關(guān)的詞匯,所以把它們拿走,代之以與法國有關(guān)的詞匯。這個(gè)觀察結(jié)果無關(guān)緊要,但是其他方程式引起了一些嚴(yán)重的爭(zhēng)議,例如,doctor ? man + woman = nurse這個(gè)方程式,它是在要求“給我找一個(gè)像醫(yī)生一樣的職業(yè)詞匯,但要更傾向于女性。”。大約50% 的醫(yī)生是女性,但接近90% 的護(hù)士是女性。我們希望醫(yī)生和護(hù)士這兩個(gè)詞是相似的,但是后者更多地出現(xiàn)在「她」這樣的詞附近。所以這個(gè)等式是有一定道理的。這些負(fù)面例子真正反映的是,在這個(gè)社會(huì)中,女性更有可能和護(hù)理崗位聯(lián)系到一起。我同意,很可能在不遠(yuǎn)的將來,情況會(huì)變化。但我的觀點(diǎn)是: 不要責(zé)怪?jǐn)?shù)據(jù)。像 Word2Vec 或者 BERT 這樣的系統(tǒng),當(dāng)在一個(gè)像維基百科這樣的大型語料庫上訓(xùn)練時(shí),將會(huì)反映出廣大公眾使用的語言,而這種數(shù)據(jù)的使用又會(huì)反映出人們普遍認(rèn)為是真實(shí)的東西,不管我們是否喜歡這個(gè)真實(shí)。
The Last Word
我希望讀者可以吸收到以下想法:·數(shù)據(jù)及其管理仍然是數(shù)據(jù)科學(xué)的本質(zhì)。·盡管機(jī)器學(xué)習(xí)非常重要,但它遠(yuǎn)非實(shí)現(xiàn)有效數(shù)據(jù)科學(xué)所需的唯一工具或想法。·盡管數(shù)據(jù)有誤用的情況,但如果數(shù)據(jù)反映的是世界的本來面目,而不是我們希望的那樣,我們就不應(yīng)該責(zé)怪?jǐn)?shù)據(jù)本身。 參考文獻(xiàn):[1] R. Agrawal, T. Imielinski, and A. Swami, “Mining associations between sets of items in massive databases,” Proc.ACM SIGMOD Intl. Conf. on Management of Data, pp. 207–216, 1993. [2] R. Agrawal and R. Srikant, “Fast algorithms for mining association rules,” Intl. Conf. on Very Large Databases,pp. 487–499, 1994. [3] T. Bolukbasi, K.-W. Chang, J. Zou, V. Saligrama, and A. Kalai, “Man is to computer programmer as woman is tohomemaker? Debiasing word embeddings,” 30th Conference on Neural Information Processing Systems, Barcelona,2016. [4] A.Z. Broder, M. Charikar, A.M. Frieze, and M. Mitzenmacher, “Min-wise independent permutations,” ACM Symposiumon Theory of Computing, pp. 327–336, 1998. [5] T. Buonocore, “Man is to doctor as woman is to nurse: the gender bias of word embeddings,”https://towardsdatascience.com/gender-bias-word-embeddings-76d9806a0e17 [6] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers forlanguage understanding,” arXiv:1810.04805, 2018. [7] A. Gionis, P. Indyk, and R. Motwani, “Similarity search in high dimensions via hashing,” Proc. Intl. Conf. on VeryLarge Databases, pp. 518–529, 1999. [8] B. Howe, M.J. Franklin, L.M. Haas, T. Kraska, and J.D. Ullman: “Data science education: we’re missing the boat,again,” ICDE, pp. 1473–1474, 2017. [9] https://www.kaggle.com/ [10] https://www.kdnuggets.com/2016/10/battle-data-science-venn-diagrams.html [11] J. Leskovec, A. Rajaraman, and J.D.Ullman, Mining of Massive Datasets 3rd edition, Cambridge Univ. Press, 2020.Available for download at http://www.mmds.org[12] P. Li, A.B. Owen, and C.H. Zhang. “One permutation hashing,” Conf. on Neural Information Processing Systems2012, pp. 3122–3130. [13] T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,”ArXiv:1301.3781, 2013. [14] https://www.nationalacademies.org/event/10-20-2017/docs/DCE05D1E271C31C585455B25E43AE9E5462ED3312DB2 [15] https://www.nationalacademies.org/event/12-08-2017/docs/D8EE65EFC7F4B0C368D267EDAD10E5AB1BAFBE3369D2 [16] https://www.nationalacademies.org/our-work/roundtable-on-data-science-postsecondary-education [17] https://en.wikipedia.org/wiki/Right to explanation