文 | 邱澤奇
今天下午,我準(zhǔn)備與大家討論三個(gè)問題:第一,什么是大數(shù)據(jù)。關(guān)于大數(shù)據(jù)大家說的很多,但是其中錯(cuò)誤概念也非常多,我想從我的角度來給澄清一下大數(shù)據(jù)是什么。第二,大數(shù)據(jù)和社會(huì)學(xué)研究到底有沒有關(guān)系。相信這也是大家比較關(guān)心的議題。第三個(gè),大數(shù)據(jù)對社會(huì)學(xué)研究帶來了什么挑戰(zhàn)。大數(shù)據(jù)給當(dāng)今社會(huì)帶來的挑戰(zhàn)非常多,但對社會(huì)學(xué)研究而言,到底有什么樣的挑戰(zhàn)呢?我自己有三點(diǎn)看法與各位分享。首先,我們來看一下什么是大數(shù)據(jù)。1什么是大數(shù)據(jù)?
大數(shù)據(jù)是痕跡數(shù)據(jù)匯集的并行化、在線化、生活化和社會(huì)化。
對社會(huì)學(xué)研究,我們最熟悉的是社會(huì)活動(dòng),我稱其為人類活動(dòng)。其實(shí)今天,不僅僅社會(huì)活動(dòng),你的私密活動(dòng)也在數(shù)據(jù)之中,我沒有加“社會(huì)”兩個(gè)字,道理就在于人類的活動(dòng)都在慢慢地?cái)?shù)據(jù)化。在人類活動(dòng)中,有一個(gè)概念叫做造痕,考古挖掘的,就是人類社會(huì)生活留下的痕跡。過去,我們通常拿這些痕跡做證據(jù),比如考古學(xué)、歷史學(xué)和社會(huì)學(xué)的許多研究活動(dòng)。這些證據(jù)有一些會(huì)被數(shù)據(jù)化,數(shù)據(jù)化了的證據(jù)就叫做數(shù)據(jù)。
對社會(huì)學(xué)研究,我們最熟悉的是社會(huì)活動(dòng),我稱其為人類活動(dòng)。其實(shí)今天,不僅僅社會(huì)活動(dòng),你的私密活動(dòng)也在數(shù)據(jù)之中,我沒有加“社會(huì)”兩個(gè)字,道理就在于人類的活動(dòng)都在慢慢地?cái)?shù)據(jù)化。在人類活動(dòng)中,有一個(gè)概念叫做造痕,考古挖掘的,就是人類社會(huì)生活留下的痕跡。過去,我們通常拿這些痕跡做證據(jù),比如考古學(xué)、歷史學(xué)和社會(huì)學(xué)的許多研究活動(dòng)。這些證據(jù)有一些會(huì)被數(shù)據(jù)化,數(shù)據(jù)化了的證據(jù)就叫做數(shù)據(jù)。
既然很早以前就有“數(shù)據(jù)”,今天怎么就出來一個(gè)大數(shù)據(jù)呢?一個(gè)非常重要的因素,就是網(wǎng)絡(luò)化匯集和網(wǎng)絡(luò)化存儲(chǔ),把過去的數(shù)據(jù)集中起來,這才構(gòu)成了大家討論的大數(shù)據(jù)。
那么,什么叫大數(shù)據(jù)?麥肯錫從行業(yè)和業(yè)務(wù)價(jià)值鏈的角度給了一個(gè)定義:數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘與運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。麥肯錫認(rèn)為,大數(shù)據(jù)將是一個(gè)生產(chǎn)力的來源。今天,我們在講“互聯(lián)網(wǎng)+”,背后有一個(gè)非常重要的概念,叫數(shù)據(jù)驅(qū)動(dòng)。過去,我們的研究活動(dòng)叫理論驅(qū)動(dòng),今天,數(shù)據(jù)驅(qū)動(dòng)已經(jīng)變成了人類社會(huì)研究中非常重要的概念。
“大數(shù)據(jù)”概念最早從哪里來呢?沒有確切的證據(jù),但是IBM很早就開始談大數(shù)據(jù)了。IBM給大數(shù)據(jù)的定義是“4個(gè)V”:數(shù)量(Volume)、形態(tài)(Variety)、價(jià)值(Value)、速度(Velocity)。這是從數(shù)據(jù)本身做的定義。
沿著IBM提出的“4個(gè)V”,先做一個(gè)簡單的說明和解釋。首先,從數(shù)量來看,大數(shù)據(jù)的數(shù)據(jù)量已經(jīng)超出了任何個(gè)人在可接受時(shí)間范圍內(nèi)搜集、利用、管理和處理數(shù)據(jù)的能力了。2012年,對數(shù)據(jù)的計(jì)量已經(jīng)從MB級(jí)躍升到TB級(jí)了?,F(xiàn)在講大數(shù)據(jù),基本都是在PB級(jí)及以上。這個(gè)量級(jí),超出任何單部計(jì)算機(jī)乃至大型機(jī)的處理能力。
其次,從數(shù)據(jù)形態(tài)來看,傳統(tǒng)的數(shù)據(jù),通常是結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)則是混合形態(tài)的數(shù)據(jù)。在大數(shù)據(jù)中,有一部分是結(jié)構(gòu)化的數(shù)據(jù),如SQL(結(jié)構(gòu)化查詢語言)數(shù)據(jù),更多的則是非結(jié)構(gòu)化的數(shù)據(jù),如日志、音頻、視頻、圖片和地理位置等數(shù)據(jù),大都是非結(jié)構(gòu)化的。
第三,從商業(yè)領(lǐng)域來看,大數(shù)據(jù)的價(jià)值密度比較低。傳統(tǒng)的數(shù)據(jù),通常是目標(biāo)導(dǎo)向數(shù)據(jù),有非常明確的價(jià)值,比如說CFPS(中國家庭動(dòng)態(tài)跟蹤調(diào)查)。大數(shù)據(jù)則是記錄導(dǎo)向的,是為了記錄數(shù)據(jù)而不是為了得到某個(gè)特定事件的數(shù)據(jù),不是為了解釋某個(gè)事件而記錄數(shù)據(jù)。這是數(shù)據(jù)獲取方式上非常重要的變化。
大數(shù)據(jù)第四個(gè)重要特征是速度。傳統(tǒng)的數(shù)據(jù),從測量到可用,需要相當(dāng)長的時(shí)間,赫爾曼·霍爾瑞斯在統(tǒng)計(jì)1890年人口普查數(shù)據(jù)時(shí),發(fā)明了讀卡機(jī),用1年的時(shí)間完成了原本耗時(shí)8年的人口普查活動(dòng);CFPS從調(diào)查結(jié)束到數(shù)據(jù)可用,也需要1-2年的時(shí)間。大數(shù)據(jù),幾乎隨時(shí)可用,每時(shí)每刻都在記錄數(shù)據(jù),每時(shí)每刻這些數(shù)據(jù)也可用;不過,可用,也有一定的約束性。對研究而言,不是針對一個(gè)具體研究問題可用,而是說,如果你想研究某個(gè)尚未模型化的問題,可以隨時(shí)截一段數(shù)據(jù)來,進(jìn)行數(shù)據(jù)清理的可用。
從社會(huì)研究的視角,我自己給大數(shù)據(jù)一個(gè)定義——大數(shù)據(jù)是痕跡數(shù)據(jù)匯集的并行化、在線化、生活化、社會(huì)化。
數(shù)據(jù)匯集的并行化是一個(gè)計(jì)算機(jī)科學(xué)概念。并行,指可以同時(shí)運(yùn)行很多個(gè)線程。在線化,就是數(shù)據(jù)本身在線上,不在你的桌面計(jì)算機(jī)或移動(dòng)硬盤中。社會(huì)化,指每個(gè)人都有可能是數(shù)據(jù)的提供者。在過去,大多數(shù)都是由機(jī)構(gòu)或者個(gè)人找“樣本”提供數(shù)據(jù);但是今天,每個(gè)人,只要接觸傳感器,甚至走在大街上,都是數(shù)據(jù)的提供者,同時(shí),也是數(shù)據(jù)的使用者。生活化,則指數(shù)據(jù)的無處不在,無論是工作中還是生活中,數(shù)據(jù)始終伴隨著人們。
簡單地說,大數(shù)據(jù),就是形態(tài)數(shù)字化、非結(jié)構(gòu)化、在線流動(dòng)著的數(shù)據(jù),容量至少在PB級(jí)或以上,與社會(huì)行為相伴生、通過設(shè)備和網(wǎng)絡(luò)匯集的數(shù)據(jù)。大數(shù)據(jù)是完整的,卻不一定是系統(tǒng)的,它無時(shí)無刻都在記錄著人類的行為。
因此,對社會(huì)學(xué)研究而言,大數(shù)據(jù)是一種新的研究數(shù)據(jù)來源,一種永不停息的、流動(dòng)的研究資源,不一定是對其他來源數(shù)據(jù)的全面替代。2大數(shù)據(jù)和社會(huì)學(xué)研究有關(guān)系嗎?
大數(shù)據(jù)和社會(huì)學(xué)研究關(guān)系密切,對其應(yīng)用,目前,看起來似乎沒那么緊迫,且主要對實(shí)證社會(huì)學(xué)產(chǎn)生較大的影響,逐漸地就會(huì)影響到社會(huì)學(xué),甚至整個(gè)社會(huì)科學(xué)。
在社會(huì)學(xué)想象力的前提下,我把社會(huì)學(xué)的研究分為三大類。
第一類——思辨的社會(huì)學(xué),社會(huì)學(xué)的鼻祖?zhèn)?,基本上都采用了思辨的方法在研究社?huì)學(xué)。后來的,比如說帕森斯、福柯、吉登斯等也是。思辯的社會(huì)學(xué),主要采用“概念”工具,而不講求對概念工具的測量,這些社會(huì)學(xué)家們,基本不用數(shù)據(jù)。
第二類——詮釋的社會(huì)學(xué),從胡塞爾以降到舒茨式的現(xiàn)象學(xué)社會(huì)學(xué)等。這些學(xué)者,主要是圍繞“意義”進(jìn)行研究。對他們來說,現(xiàn)象的代表性或許是沒有意義的,現(xiàn)象本身卻具有意義。他們的任務(wù),就是闡釋現(xiàn)象的意義。這一類社會(huì)學(xué)研究,或許也不用數(shù)據(jù)。
第三類——實(shí)證的社會(huì)學(xué),主要源于年鑒學(xué)派,也是社會(huì)學(xué)研究中作品量比較大的一類。如果把這一類社會(huì)學(xué)與前兩類社會(huì)學(xué)做一個(gè)簡單的區(qū)分,就在于是否使用假設(shè)檢驗(yàn)和經(jīng)驗(yàn)檢驗(yàn)。
目前,數(shù)據(jù)與社會(huì)學(xué)研究關(guān)系最密切的,是第三類——實(shí)證的社會(huì)學(xué),實(shí)證社會(huì)學(xué)研究離不開數(shù)據(jù)。
實(shí)證社會(huì)學(xué)有一個(gè)發(fā)展的過程。1998年,Platt對美國社會(huì)學(xué)研究做了一個(gè)長時(shí)段的回顧,發(fā)現(xiàn):1915年-1924年,35%的社會(huì)學(xué)研究文章中用的是個(gè)案,53%用的是統(tǒng)計(jì);到1964年使用統(tǒng)計(jì)方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)兩個(gè)主流的刊物。在今天,除非做純粹的社會(huì)理論研究,只要涉及到社會(huì)事實(shí)的文章,似乎都需要用數(shù)據(jù)進(jìn)行檢驗(yàn)。在中國也一樣,王文韜在2000年的研究,也證明了中國社會(huì)學(xué)研究實(shí)證化的趨勢在迅速加強(qiáng)。
過去,實(shí)證社會(huì)學(xué)研究的數(shù)據(jù)主要來自于調(diào)查活動(dòng)。二戰(zhàn)以后,從密西根大學(xué)建立ISR(Institute for Social Research)開始,數(shù)據(jù)科學(xué)開始慢慢興起。在大數(shù)據(jù)到來之前,主要有三個(gè)數(shù)據(jù)來源,分別代表了三種資源來源和三個(gè)群體的權(quán)力。第一,行政數(shù)據(jù),各國政府、各級(jí)政府,掌握的各種ID、身份、流動(dòng)、登記、就業(yè)、生產(chǎn)、消費(fèi)等信息;第二,商業(yè)數(shù)據(jù),比如說過去近三百年的金融數(shù)據(jù)、生產(chǎn)交易數(shù)據(jù)、勞動(dòng)工資數(shù)據(jù)等,都在商業(yè)機(jī)構(gòu)手里。直到1930s開始,社會(huì)科學(xué)家逐步認(rèn)識(shí)到數(shù)據(jù)的重要性,開始尋找數(shù)據(jù)。二戰(zhàn)以后,ISR逐步發(fā)展了一整套依靠學(xué)術(shù)力量獲取數(shù)據(jù)的方法,并建立了覆蓋人類社會(huì)、經(jīng)濟(jì)、教育、健康生活的各類調(diào)查數(shù)據(jù)。在一定意義上,調(diào)查數(shù)據(jù),成為學(xué)者手中一項(xiàng)資源,也是學(xué)者在社會(huì)中發(fā)出聲音的一種依據(jù)。
由此看來,從社會(huì)學(xué)研究發(fā)展的視角來看,大數(shù)據(jù)和社會(huì)學(xué)有密切關(guān)系,只是,目前看起來沖擊似乎并不大,也主要是針對實(shí)證社會(huì)學(xué)的沖擊。在將來可能就不是這樣了,對大數(shù)據(jù)的應(yīng)用不僅對社會(huì)學(xué)而言會(huì)變得十分緊迫,甚至對所有社會(huì)科學(xué)而言都將如此。3大數(shù)據(jù)給社會(huì)學(xué)帶來了什么挑戰(zhàn)?
今天,社會(huì)研究依然需要通過調(diào)查獲取數(shù)據(jù)?;蛟S大數(shù)據(jù)研究的范式重在發(fā)現(xiàn),而不是重在推論。社會(huì)研究的基本目標(biāo)還是要把握事物之間的關(guān)系模式,不過,在大數(shù)據(jù)中,這種把握的技術(shù)變了,需要運(yùn)用數(shù)據(jù)挖掘技術(shù)。不僅如此,大數(shù)據(jù)給帶來的更大挑戰(zhàn),在于對整個(gè)教育體制的挑戰(zhàn)。
在大數(shù)據(jù)應(yīng)用日益廣泛的現(xiàn)代社會(huì)中,進(jìn)行社會(huì)研究依然需要調(diào)查數(shù)據(jù)。的確,對于大數(shù)據(jù)而言,無需調(diào)查,只需選擇。調(diào)查數(shù)據(jù),是有目的、有假設(shè)地去搜集數(shù)據(jù)。對于大數(shù)據(jù)而言,沒有任何人可以做某個(gè)單一的研究假設(shè),也沒有任何人有能力做普適的研究假設(shè)。正是在這個(gè)意義上,對大數(shù)據(jù)的分析,重在發(fā)現(xiàn)。而且目前主要是機(jī)構(gòu)性的應(yīng)用,尤其是商業(yè)機(jī)構(gòu),比如阿里巴巴對大數(shù)據(jù)的應(yīng)用,在世界范圍內(nèi)名列前茅。
如今的學(xué)術(shù)研究,還沒有運(yùn)用到PB級(jí)數(shù)據(jù)。社會(huì)學(xué)的研究,運(yùn)用的基本上是大數(shù)據(jù)中的數(shù)據(jù),訪員不再向調(diào)查對象去搜集數(shù)據(jù),而是向數(shù)據(jù)(機(jī)器)搜集數(shù)據(jù)。
2013年,哈佛大學(xué)的G. King教授做了一項(xiàng)研究,從社交媒體獲得數(shù)據(jù)來看中國沉默的表達(dá),他從1382個(gè)社交媒體網(wǎng)上,運(yùn)用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù),是大數(shù)據(jù)中的數(shù)據(jù)。
2012年我做的“誰在開網(wǎng)店?”用的是淘寶600萬個(gè)店家數(shù)據(jù)中的1%店家數(shù)據(jù),也是大數(shù)據(jù)中的數(shù)據(jù)。
那么,大數(shù)據(jù)來自于哪里呢?
大數(shù)據(jù)的第一個(gè)來源,是傳感器。人類社會(huì)的對傳感器的運(yùn)用,2005年只有1.3億個(gè),到2010年就發(fā)展到了30億個(gè),今天,大概有45億個(gè)。什么叫傳感器呢?廣義地碩,任何可以監(jiān)測、數(shù)據(jù)化、傳輸?shù)墓ぞ?,都是傳感器,手機(jī)、手環(huán)、大街上的探頭等,都是傳感器。
大數(shù)據(jù)的第二個(gè)來源,是互聯(lián)網(wǎng)。谷歌每天要處理大約24PB的數(shù)據(jù),百度每天大概新增10TB的數(shù)據(jù)。
大數(shù)據(jù)的第三個(gè)來源,是社交網(wǎng)絡(luò)。像Facebook每天要處理23TB的數(shù)據(jù),Twitter每天處理7TB ,騰訊每日新增加200-300TB的數(shù)據(jù),中國電信大概每天也有10TB的話單,30個(gè)TB的上網(wǎng)日制和100TB的信令數(shù)據(jù)。
還有,如金融、零售、科研以及政府等部門的數(shù)據(jù)。譬如,每個(gè)交易周期,紐約證券交易所要捕獲1TB的交易信息。淘寶每日訂單超過1000萬,阿里巴巴已經(jīng)積累的數(shù)據(jù)量超過100個(gè)PB。
大數(shù)據(jù)給社會(huì)學(xué)研究帶來的挑戰(zhàn)到底在哪里呢?
大數(shù)據(jù)帶來的第一個(gè)挑戰(zhàn)就是還要不要調(diào)查數(shù)據(jù)。事實(shí)上,對調(diào)查數(shù)據(jù)的挑戰(zhàn),取決于對調(diào)查數(shù)據(jù)的替代程度和擴(kuò)大程度。相對于大數(shù)據(jù)而言,調(diào)查數(shù)據(jù),就是小數(shù)據(jù)。大數(shù)據(jù)與小數(shù)據(jù)有一個(gè)交集,兩種數(shù)據(jù)交集重疊的部分會(huì)怎么樣增長,取決于兩個(gè)因素,一個(gè)是傳感器技術(shù)的發(fā)展,一是數(shù)據(jù)挖掘的算法技術(shù)的發(fā)展,這兩項(xiàng)技術(shù)未來的發(fā)展,直接影響到社會(huì)科學(xué)未來發(fā)展的走向。
對于調(diào)查數(shù)據(jù)來說,比如說人口普查,健康調(diào)查之類的,這些調(diào)查到底干什么呢?對個(gè)體研究而言,他研究人的行為、健康、教育、成就、幸福;對于群體而言,研究群體的行動(dòng),結(jié)構(gòu)和動(dòng)態(tài);對于社會(huì)而言,研究社會(huì)的狀態(tài)和動(dòng)態(tài),這些研究未來有沒有可能用大數(shù)據(jù)來替代?完全有可能,如果數(shù)據(jù)整合能夠?qū)崿F(xiàn),替代的速度可能還很快!
比如,微信社交網(wǎng),就是人的人情網(wǎng)絡(luò)或人際網(wǎng)絡(luò);淘寶就是生活網(wǎng);還有交通網(wǎng),工作網(wǎng),健康網(wǎng)。大家手腕上戴的智能手環(huán)、手機(jī)、電腦、家用電器等,這些設(shè)備如果互聯(lián)互通,也會(huì)形成巨量的數(shù)據(jù)。用《信息簡史》一書中的一句話來概括:萬物皆比特。
數(shù)據(jù)就在那兒,問題是怎么用。未來,社會(huì)學(xué)研究對數(shù)據(jù)的利用,取決于數(shù)據(jù)化覆蓋的范圍。第一個(gè)覆蓋的是教育,在線教育;第二個(gè)是健康,未來的健康將是完全數(shù)據(jù)化的健康;第三個(gè)是物聯(lián)網(wǎng),所有的器物之間連通、數(shù)據(jù)化;還有硬件、工程、制造、農(nóng)業(yè)、金融等等領(lǐng)域,都將被數(shù)據(jù)化。既然各行各業(yè)都被數(shù)據(jù)化了,那么,大數(shù)據(jù)給社會(huì)學(xué)研究帶來的第一個(gè)挑戰(zhàn)就是:“社會(huì)研究還需要調(diào)查嗎?”
對這個(gè)問題,我認(rèn)為有兩個(gè)點(diǎn)值得探討——轉(zhuǎn)換和替代。第一個(gè)是轉(zhuǎn)換數(shù)據(jù),第二個(gè)轉(zhuǎn)換思維。數(shù)據(jù)的來源已經(jīng)完全變了,需要調(diào)查的東西越來越少。替代,未來也有可能完全不需要做大規(guī)模調(diào)查,調(diào)查的重要性會(huì)越來越低,這是一個(gè)大趨勢。
第二個(gè)挑戰(zhàn),社會(huì)學(xué)研究范式還有用嗎?在《大數(shù)據(jù)時(shí)代》中,作者提到過去的研究范式是抽樣、精確、因果。作者說,這三個(gè)過去我們?yōu)橹^斗的范式可能面臨著革命性的轉(zhuǎn)變。事實(shí)是否如此,現(xiàn)在依然有爭論,至少這是一個(gè)值得認(rèn)真思考的信號(hào)。
我自己有一個(gè)看法,運(yùn)用調(diào)查數(shù)據(jù)做研究,是假設(shè)檢驗(yàn)進(jìn)行推論;運(yùn)用大數(shù)據(jù)做研究,顯然是通過數(shù)據(jù)進(jìn)行總體歸納;方法上的確是一個(gè)本質(zhì)的轉(zhuǎn)換。我們知道自然科學(xué)用重復(fù)檢驗(yàn),社會(huì)科學(xué)沒有重復(fù)檢驗(yàn)的條件,只能做假設(shè)檢驗(yàn)。如果數(shù)據(jù)歸納在迭代中能夠滿足重復(fù)檢驗(yàn)的條件,是不是就會(huì)真正地“科學(xué)化”呢?目前,至少有一點(diǎn)是可以肯定的,那就是大數(shù)據(jù)研究的范式重在發(fā)現(xiàn),而不是重在推論,社會(huì)研究的基本目的沒有變,還是要把握事物之間的關(guān)系模式。
大數(shù)據(jù)的分析是從數(shù)據(jù)挖掘開始的,運(yùn)用的是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘,就是發(fā)現(xiàn)有意義的模式和規(guī)則。挖掘,是大數(shù)據(jù)分析的基本策略,不是具體方法。
大數(shù)據(jù)挖掘有一些基本步驟。首先是屬性歸類。歸類之后再降維、降低容量。降維、降容之后,就是結(jié)構(gòu)化的數(shù)據(jù)了,跟調(diào)查數(shù)據(jù)差不多,接下來,就是從數(shù)據(jù)中發(fā)現(xiàn)模式。
如此,大數(shù)據(jù)分析至少有4個(gè)步驟:第一,拿到數(shù)據(jù)使用權(quán),;第二,在高性能計(jì)算系統(tǒng)中降維降容;第三,獲取可分析數(shù)據(jù);第四,進(jìn)行分析(模式發(fā)現(xiàn))。
對社會(huì)學(xué)研究而言,這也是大數(shù)據(jù)分析的基本步驟。
降維降容之后的,就是集成的數(shù)據(jù);接下來是進(jìn)行數(shù)據(jù)選擇,數(shù)據(jù)變換;完成變換后的數(shù)據(jù),就是可以用于模式發(fā)現(xiàn)的數(shù)據(jù)了,通過建模,機(jī)器學(xué)習(xí)、發(fā)現(xiàn)模式,評(píng)估模式,直到獲得穩(wěn)定的模式,那就是知識(shí)表達(dá)。其中,數(shù)據(jù)挖掘,跟社會(huì)學(xué)研究一樣,有描述性挖掘,也有預(yù)測性挖掘。描述性挖掘,同樣是探討特征、探討社會(huì)事物的屬性;預(yù)測性研究,同樣是探討變量之間的關(guān)系。
對大數(shù)據(jù)進(jìn)行描述性研究,需要做四個(gè)方面的工作:第一個(gè)是做特征分析,點(diǎn)分析。第二個(gè)是做關(guān)聯(lián)分析,雙變量和多變量的關(guān)聯(lián)分析。第三個(gè)是做聚類分析,聚類主要是做多特征的綜合聚類,最后做離群點(diǎn)分析。
利用大數(shù)據(jù)進(jìn)行預(yù)測分析的基礎(chǔ)不是理論建模,而是數(shù)據(jù)建模。數(shù)據(jù)建模不同于統(tǒng)計(jì)建模和數(shù)學(xué)建模。統(tǒng)計(jì)建模基本上是基于理論的建模,數(shù)據(jù)建模是基于數(shù)據(jù)歸納的建模,這是兩者最重要的區(qū)別。
基本模型可以分成兩大類,一是分類模型,一是回歸模型。分類模型講類別、講特征值;回歸模型做預(yù)測。
因此,數(shù)據(jù)挖掘,是多種技術(shù)的應(yīng)用。首先得學(xué)統(tǒng)計(jì)學(xué);其次是用于多個(gè)方面的算法。我認(rèn)為,算法,是未來社會(huì)學(xué)學(xué)生至少應(yīng)該懂的東西;第三,一些其他的技術(shù)。其中,算法涉及到數(shù)據(jù)庫技術(shù)、可視化技術(shù)、機(jī)器學(xué)習(xí)技術(shù)、模式識(shí)別技術(shù)等。
大數(shù)據(jù)挖掘的統(tǒng)計(jì)技術(shù)與對調(diào)查數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的技術(shù)大題相同,也有描述統(tǒng)計(jì)、預(yù)測性統(tǒng)計(jì)等??傮w上來講,回歸是一種最常用的統(tǒng)計(jì)模型。算法,則相對復(fù)雜一些,也是數(shù)據(jù)挖掘的核心技術(shù),不僅用于數(shù)據(jù)庫構(gòu)建,機(jī)器學(xué)習(xí)等也跟它有關(guān)。
機(jī)器學(xué)習(xí),是機(jī)器根據(jù)數(shù)據(jù)建模的模型進(jìn)行學(xué)習(xí),通過迭代,讓模型穩(wěn)定化。比如說某個(gè)參數(shù),在調(diào)查數(shù)據(jù)中,參數(shù)是通過統(tǒng)計(jì)計(jì)算得到的,在大數(shù)據(jù)分析中,則是在初始模型的基礎(chǔ)上,通過機(jī)器學(xué)習(xí)獲得的。
面對大數(shù)據(jù)的挑戰(zhàn),社會(huì)學(xué)的優(yōu)勢在哪里呢?社會(huì)學(xué)曾經(jīng)的優(yōu)勢有調(diào)查數(shù)據(jù),有分析數(shù)據(jù),有運(yùn)用數(shù)據(jù)知識(shí)的積累,這是實(shí)證社會(huì)學(xué)最核心的三部分,構(gòu)成了實(shí)證社會(huì)學(xué)獨(dú)特的知識(shí)能力。
但是今天,這一切變了,社會(huì)學(xué)只剩下運(yùn)用數(shù)據(jù)知識(shí)的積累這一個(gè)優(yōu)勢了。調(diào)查數(shù)據(jù)的優(yōu)勢,在慢慢失去;分析數(shù)據(jù)的優(yōu)勢,也在慢慢丟失。唯一剩下的或許只有運(yùn)用數(shù)據(jù)知識(shí)的積累了。未來,如果社會(huì)學(xué)不能掌握大數(shù)據(jù)運(yùn)用的知識(shí)與能力,沒有超過其他學(xué)科的想象力和建模能力,基本上,社會(huì)學(xué)學(xué)者將完全淪落為各類組織的勞工。
應(yīng)對大數(shù)據(jù)帶來的挑戰(zhàn),我們要有能力把握數(shù)據(jù)化社會(huì)的特征。其實(shí),挑戰(zhàn)遠(yuǎn)不在于此,更大的挑戰(zhàn)還在于,與大數(shù)據(jù)相伴隨的“互聯(lián)網(wǎng)+”對整個(gè)教育體制的挑戰(zhàn)。大家知道大英百科全書曾經(jīng)是世界上容量最大的百科全書,今天我們還需要買大英百科全書嗎?完全不需要,維基百科上,知識(shí)的正確率高達(dá)96%,而且完全免費(fèi),比300部大英百科全書總量還要大。
不僅如此,今天,人們的學(xué)習(xí)方式也正在發(fā)生巨大的改變,甚至是革命性的變革,對知識(shí)性的內(nèi)容,人們不再需要傳統(tǒng)意義上的老師;對思維性的內(nèi)容,人們雖然依然需要傳統(tǒng)意義上的老師,可是,老師又如何保證自己的能力可以滿足人們學(xué)習(xí)的需要呢?因此我認(rèn)為,大數(shù)據(jù)帶給我們更大的挑戰(zhàn)在于正在出現(xiàn)的教育模式的革命性轉(zhuǎn)變,在于大學(xué)的教育模式的轉(zhuǎn)變。未來的教育模式是什么樣?班級(jí)模式還會(huì)不會(huì)在?這些都是值得我們深思的議題。
學(xué)習(xí)模式在變,我們的初等教育、高等教育的教育模式也要改變。斯坦福的Coursera平臺(tái),匯集了全世界有7000多門優(yōu)秀課程,全世界最好的老師在上面PK,只要講的不對,立馬就有人指出,這是教育模式革命,現(xiàn)在僅僅只是一個(gè)開始,我認(rèn)為這才是大數(shù)據(jù)帶給我們的更大挑戰(zhàn)。文章來源:“北京大學(xué)中國社會(huì)與發(fā)展研究中心”微信公眾平臺(tái)(CSRDSC_PKU)
聯(lián)系客服