酷妹我先說兩句:
大數(shù)據(jù)給人們的生活帶來了巨大的影響,文章從三個(gè)方面來講述大數(shù)據(jù)和社會(huì)研究:第一,什么是大數(shù)據(jù)?第二,大數(shù)據(jù)和社會(huì)學(xué)研究到底有沒有關(guān)系?第三,大數(shù)據(jù)對(duì)社會(huì)學(xué)研究帶來了什么挑戰(zhàn)?
什么是大數(shù)據(jù)大數(shù)據(jù)是痕跡數(shù)據(jù)匯集的并行化、在線化、生活化、社會(huì)化。麥肯錫從行業(yè)和業(yè)務(wù)價(jià)值鏈的角度給了一個(gè)定義:數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘與運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。
麥肯錫認(rèn)為.大數(shù)據(jù)將是一個(gè)生產(chǎn)力的來源。今天,我們?cè)谥v“互聯(lián)網(wǎng)+”,背后有一個(gè)非常重要的概念,叫數(shù)據(jù)驅(qū)動(dòng)。過去.我們的研究活動(dòng)叫理論驅(qū)動(dòng), 今天,數(shù)據(jù)驅(qū)動(dòng)已經(jīng)變成了人類社會(huì)研究中非常重要的概念?!按髷?shù)據(jù)”概念最早從哪里來呢?沒有確切的證據(jù).但是IBM很早就開始談大數(shù)據(jù)了。IBM給大數(shù)據(jù)的定義是“4個(gè)V”:數(shù)量(Volume)、形態(tài)(Variety)、 價(jià)值(Value)、速度(Velocity)。這是從數(shù)據(jù)本身做的定義。沿著IBM提出的“4個(gè)V”,先做一個(gè)簡單的說明和解釋。
首先從數(shù)量來看大數(shù)據(jù)的數(shù)據(jù)量已經(jīng)超出了任何個(gè)人在可接受的時(shí)間范圍內(nèi)搜集、利用、管理和處理數(shù)據(jù)的能力了。
其次從數(shù)據(jù)形態(tài)來看,傳統(tǒng)的數(shù)據(jù),通常是結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)則是混合形態(tài)的數(shù)據(jù)。
第三從商業(yè)領(lǐng)域來看,大數(shù)據(jù)的價(jià)值密度比較低。傳統(tǒng)的數(shù)據(jù),通常是目標(biāo)導(dǎo)向數(shù)據(jù),有非常明確的價(jià)值,比如說CFPS(中國家庭動(dòng)態(tài)跟蹤調(diào)查)。大數(shù)據(jù)則是記錄導(dǎo)向的,是為了記錄數(shù)據(jù)而不是為了得到某個(gè)特定事件的數(shù)據(jù),不是為某個(gè)事件而記錄數(shù)據(jù)。這是數(shù)據(jù)獲取方式上非常重要的變化。
第四大數(shù)據(jù)的第四個(gè)重要特征是速度。大數(shù)據(jù),幾乎隨時(shí)可用,每時(shí)每刻都在記錄數(shù)據(jù),每時(shí)每刻這些數(shù)據(jù)也可用;不過,也有一定的約束性。對(duì)研究而言, 不是針對(duì)一個(gè)具體研究問題可用,而是說如果你想研究某個(gè)尚未模型化的問題,就可以隨時(shí)截一段數(shù)據(jù)來,進(jìn)行數(shù)據(jù)清理后即可使用。
從社會(huì)研究的視角,我自己給大數(shù)據(jù)一個(gè)定義——大數(shù)據(jù)是痕跡數(shù)據(jù)匯集的并行化、在線化、生活化、社會(huì)化。因此,對(duì)社會(huì)學(xué)研究而言,大數(shù)據(jù)是一種新的研究數(shù)據(jù)來源,一種永不停息 的、流動(dòng)的研究資源,不一定是對(duì)其他來源數(shù)據(jù)的全面替代。
大數(shù)據(jù)和社會(huì)學(xué)研究有關(guān)系嗎?大數(shù)據(jù)和社會(huì)學(xué)研究關(guān)系密切,但對(duì)其的應(yīng)用目前看起來似乎沒那么緊迫,且大數(shù)據(jù)主要對(duì)實(shí)證社會(huì)學(xué)產(chǎn)生較大的影響,但逐漸地會(huì)影響到社會(huì)學(xué),甚至整個(gè)社會(huì)科學(xué)。在社會(huì)學(xué)想象力的前提下,我把社會(huì)學(xué)的研究分為三大類。
第一類——思辨的社會(huì)學(xué),社會(huì)學(xué)的鼻祖?zhèn)?,基本上都采用了思辨的方法?研究社會(huì)學(xué)。第二類——詮釋的社會(huì)學(xué),從胡塞爾以降到舒茨(Alfred Schutz)式的現(xiàn)象 學(xué)社會(huì)學(xué)等。這些學(xué)者,主要是圍繞“意義”進(jìn)行研究。第三類——實(shí)證的社會(huì)學(xué),主要源于年鑒學(xué)派,也是社會(huì)學(xué)研究中作品量比較大的一類。目前,數(shù)據(jù)與社會(huì)學(xué)研究關(guān)系最密切的,是第三類——實(shí)證的社會(huì)學(xué),實(shí)證社會(huì)學(xué)研究離不開數(shù)據(jù)。過去,實(shí)證社會(huì)學(xué)研究的數(shù)據(jù)主要來自于調(diào)查活動(dòng)。
二戰(zhàn)以后,從密西根大學(xué)建立ISR(Institute for Social Research,社會(huì)研究學(xué)院)開始,數(shù)據(jù)科學(xué)開始慢慢興起。在大數(shù)據(jù)到來之前,主要有三個(gè)數(shù)據(jù)來源,分別代表了三種資源來源和三個(gè)群體的權(quán)力。第一,行政數(shù)據(jù),第二,商業(yè)數(shù)據(jù),第三,調(diào)查數(shù)據(jù),二戰(zhàn)以后ISR逐步發(fā)展了一整套依靠學(xué)術(shù)力量獲取數(shù)據(jù)的方法,并建立了覆蓋人類社會(huì)、經(jīng)濟(jì)、教育、健康生活的各類凋查數(shù)據(jù)。
在一定意義上,調(diào)查數(shù)據(jù),成為學(xué)者手中的一項(xiàng)資源,也是學(xué)者在社會(huì)中發(fā)出聲音的一種依據(jù)。由此看來,從社會(huì)學(xué)研究發(fā)展的視角來看,大數(shù)據(jù)和社會(huì)學(xué)有密切關(guān)系.只是,目前看起來沖擊似乎并不大,也主要是針對(duì)實(shí)證社會(huì)學(xué)的沖擊。在將來可能就不是這樣了,對(duì)大數(shù)據(jù)的應(yīng)用不僅對(duì)社會(huì)學(xué)而言會(huì)變得十分緊迫,甚至對(duì)所有社會(huì)科學(xué)而言都將如此。大數(shù)據(jù)來自哪里呢?
大數(shù)據(jù)的第一個(gè)來源是傳感器。大數(shù)據(jù)的第二個(gè)來源是互聯(lián)網(wǎng)。谷歌每天要處理大約24PB的數(shù)據(jù),百度每天大概新增10TB的數(shù)據(jù)。大數(shù)據(jù)的第三個(gè)來源是社交網(wǎng)絡(luò)。像臉書每天要處理23TB的數(shù)據(jù),推特每天處理7TB。還有,如金融、零售、科研以及政府等部門的數(shù)據(jù)。大數(shù)據(jù)給社會(huì)學(xué)研究帶來的挑戰(zhàn)到底在哪里? 第一個(gè)挑戰(zhàn)就是還要不要凋查數(shù)據(jù)事實(shí)上,對(duì)調(diào)查數(shù)據(jù)的挑戰(zhàn),取決于對(duì)調(diào)査數(shù)據(jù)的替代程度和擴(kuò)大程度。
相對(duì)于大數(shù)據(jù)而言,凋查數(shù)據(jù),就是小數(shù)據(jù)。大數(shù)據(jù)與小數(shù)據(jù)有一個(gè)交集,兩種數(shù)據(jù)交集重疊的部分會(huì)怎樣增長,這兩項(xiàng)技術(shù)未來的發(fā)展,直接影響到社會(huì)科學(xué)未來發(fā)展的走向。數(shù)據(jù)就在那兒,問題是怎么用。未來,社會(huì)學(xué)研究對(duì)數(shù)據(jù)的利用,取決于數(shù)據(jù)化覆蓋的范圍。第一個(gè)覆蓋的是教育,在線教育;第二個(gè)是健康,未來的健康將是完全數(shù)據(jù)化的健康,第三個(gè)是物聯(lián)網(wǎng),所有的器物之間連通、數(shù)據(jù)化;此外還有硬件、工程、制造、農(nóng)業(yè)、金融等等領(lǐng)域,都將被數(shù)據(jù)化。
既然各行各業(yè)都被數(shù)據(jù)化了,那么,大數(shù)據(jù)給社會(huì)學(xué)研究帶來的第一個(gè)挑戰(zhàn)就是:“社會(huì)研究還需要調(diào)查嗎?”對(duì)這個(gè)問題.我認(rèn)為有兩個(gè)點(diǎn)值得探討——轉(zhuǎn)換和替代。第一個(gè)是轉(zhuǎn)換數(shù)據(jù),第二個(gè)是轉(zhuǎn)換思維。數(shù)據(jù)的來源已經(jīng)完全變了,需要調(diào)查的東西越來越少。替代是指未來也有可能完全不需要做大規(guī)模調(diào)査,調(diào)査的重要性會(huì)越來越低,這 是一個(gè)大趨勢。
第二個(gè)挑戰(zhàn),社會(huì)學(xué)研究范式還有用嗎?在《大數(shù)據(jù)時(shí)代》中,作者提到過去的研究范式是抽樣、精確、因果。作者說,這三個(gè)過去我們?yōu)橹^斗的范式可能面臨著革命性的轉(zhuǎn)變。事實(shí)是否如此,現(xiàn)在依然有爭論,至少這是一個(gè)值得認(rèn)真思考的信號(hào)。我自己有一個(gè)看法,運(yùn)用調(diào)査數(shù)據(jù)做研究,是通過假設(shè)檢驗(yàn)進(jìn)行推論;運(yùn)用大數(shù)據(jù)做研究,顯然是通過數(shù)據(jù)進(jìn)行總體歸納。
從方法上看這的確是一個(gè)本質(zhì)的轉(zhuǎn)換。我們知道自然科學(xué)用重復(fù)檢驗(yàn),社會(huì)科學(xué)沒有重復(fù)檢驗(yàn)的條件,只能做假設(shè)檢驗(yàn)。如果數(shù)據(jù)歸納在迭代中能夠滿足重復(fù)檢驗(yàn)的條件,是不是就會(huì)真正地“科學(xué)化”呢?目前,至少有—點(diǎn)是可以肯定的,那就是大數(shù)據(jù)研究的范式重在發(fā)現(xiàn),而不是重在推論,社會(huì)研究的基本目的沒有變,還是要把握事物之間的關(guān)系模式。
大數(shù)椐的分析是從數(shù)據(jù)挖掘開始的,運(yùn)用的是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘,就是發(fā)現(xiàn)有意義的模式和規(guī)則。挖掘,是大數(shù)據(jù)分析的堆本策略,不是具體方法。大數(shù)椐挖掘有一些基本步驟。首先是屬性歸類,歸類之后再降緯、降低容量;降維、降容之后,就是結(jié)構(gòu)化的數(shù)據(jù)了,跟調(diào)查數(shù)據(jù)差不多;接下來就是從數(shù)據(jù)中發(fā)現(xiàn)模式。
如此,大數(shù)據(jù)分析至少有四個(gè)步驟:第一,拿到數(shù)據(jù)使用權(quán);第二,在高性能計(jì)算系統(tǒng)中降維、降容;第三,獲取可分析數(shù)據(jù);第四,進(jìn)行分析(模式發(fā)現(xiàn))。
對(duì)社會(huì)學(xué)研究而言,這也是大數(shù)據(jù)分析的基本步驟。降維降容之后的,就是集成的數(shù)據(jù);接下來是迸行數(shù)據(jù)選擇,數(shù)據(jù)變換;完成變換后的數(shù)據(jù),就是可以用于模式發(fā)現(xiàn)的數(shù)據(jù)了,通過建模,機(jī)器學(xué)習(xí)、發(fā)現(xiàn)模式,評(píng)估模式,直到獲得穩(wěn)定的模式,那就是知識(shí)表達(dá)。
其中,數(shù)據(jù)挖掘,跟社會(huì)學(xué)研究一樣,有描述性挖掘,也有預(yù)測性挖掘。描述性挖掘,同樣是探討特征,探討社會(huì)事物的屬性;預(yù)測性研究,同樣是探討變量之間的關(guān)系。對(duì)大數(shù)據(jù)進(jìn)行描述性研究,需要做四個(gè)方面的工作:第一個(gè)是做特征分析,點(diǎn)分析。第二個(gè)是做關(guān)聯(lián)分析,雙變量和多變量的關(guān)聯(lián)分析。第三個(gè)是做聚類分析,聚類主要是做多特征的綜合聚類。最后是做離群點(diǎn)分析。
利用大數(shù)據(jù)進(jìn)行預(yù)測分析的基礎(chǔ)不是理論建模,而是數(shù)據(jù)建模。數(shù)據(jù)建模不同于統(tǒng)計(jì)建模和數(shù)學(xué)建模。統(tǒng)計(jì)建?;旧鲜腔诶碚摰慕#瑪?shù)據(jù)建模是基于數(shù)據(jù)歸納的建模,這是兩者最重要的區(qū)別?;灸P涂梢苑殖蓛纱箢?,一是分類模型,一是回歸模型。
分類模型講類別、講特征值;回歸模型做預(yù)測。因此,數(shù)據(jù)挖掘,是多種技術(shù)的應(yīng)用。首先得學(xué)統(tǒng)計(jì)學(xué);其次是用到多個(gè)方面的算法,我認(rèn)為算法是未來社會(huì)學(xué)學(xué)生至少應(yīng)該懂的東西;第三,一些其他的技術(shù)。其中,算法涉及數(shù)據(jù)庫技術(shù)、可視化技術(shù)、機(jī)器學(xué)習(xí)技術(shù)、模式識(shí)別技術(shù)等。大數(shù)據(jù)挖掘的統(tǒng)計(jì)技術(shù)與對(duì)調(diào)查數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的技術(shù)大體相問,也有描述統(tǒng)計(jì)、預(yù)測性統(tǒng)計(jì)等。
總體上來講,回歸是—種最常用的統(tǒng)計(jì)模塑。算法,則相對(duì)復(fù)雜一些,也是數(shù)據(jù)挖掘的核心技術(shù),不僅用于數(shù)據(jù)庫構(gòu)建,機(jī)器學(xué)習(xí)等也跟它有關(guān)。機(jī)器學(xué)習(xí),是機(jī)器根據(jù)數(shù)據(jù)建模的模型進(jìn)行學(xué)習(xí),通過迭代,讓模型穩(wěn)定化。比如說某個(gè)參數(shù),在調(diào)查數(shù)據(jù)中,參數(shù)是通過統(tǒng)計(jì)計(jì)算得到的;
在大數(shù)據(jù)分析中,則是在初始模型的基礎(chǔ)上,通過機(jī)器學(xué)習(xí)獲得的。面對(duì)大數(shù)據(jù)的挑戰(zhàn),社會(huì)學(xué)的優(yōu)勢在哪里呢?社會(huì)學(xué)曾經(jīng)的優(yōu)勢有調(diào)查數(shù)據(jù),有分析數(shù)據(jù),有運(yùn)用數(shù)據(jù)知識(shí)的積累,這是實(shí)證社會(huì)學(xué)最核心的三部分,構(gòu)成了實(shí)證社會(huì)學(xué)獨(dú)特的知識(shí)能力。但是今天,這一切變了,社會(huì)學(xué)只剩下運(yùn)用數(shù)據(jù)知識(shí)的積累這一個(gè)優(yōu)勢了。
調(diào)查數(shù)據(jù)的優(yōu)勢在慢慢失去,分析數(shù)據(jù)的優(yōu)勢也在慢慢丟失。唯一剩下的或許只有運(yùn)用數(shù)據(jù)知識(shí)的積累了。未來,如果社會(huì)學(xué)不能掌握大數(shù)據(jù)運(yùn)用的知識(shí)與能力,沒有超過其他學(xué)科的想象力和建模能力,基本上可以說社會(huì)學(xué)學(xué)者將完全淪落為各類組織的勞工。應(yīng)對(duì)大數(shù)據(jù)帶來的挑戰(zhàn),我們要有能力把握數(shù)據(jù)化社會(huì)的特征。
其實(shí),挑戰(zhàn)遠(yuǎn)不止此,更大的挑戰(zhàn)還在于,與大數(shù)據(jù)相伴隨的“互聯(lián)網(wǎng)+”對(duì)整個(gè)教育體制的挑戰(zhàn)。大家知道大英百科全書曾經(jīng)是世界上容量最大的百科全書,但今天我們還需要買大英百科全書嗎?完全不需要,維基百科上知識(shí)的正確率高達(dá)96%,而且完全免費(fèi),比300部大英百科全書的總量還要大。不僅如此,今天,人們的學(xué)習(xí)方式也正在發(fā)生巨大的改變,甚至是革命性的變革。
對(duì)知識(shí)性的內(nèi)容,人們不再需要傳統(tǒng)意義上的老師;對(duì)思維性的內(nèi)容,人們雖然依然需要傳統(tǒng)意義上的老師,可是老師又如何保證自己的能力可以滿足人們學(xué)習(xí)的需要呢?因此我認(rèn)為,大數(shù)據(jù)帶給我們更大的挑戰(zhàn)在于正在出現(xiàn)的教育模式的革命性轉(zhuǎn)變,在于大學(xué)的教育模式的轉(zhuǎn)變。未來的教育模式是什么樣?班級(jí)模式還會(huì)不會(huì)在?這些都是值得我們深思的議題。
學(xué)習(xí)模式在變,我們的初等教育、高等教育的教育模式也要改變。斯坦福的 Coursera平臺(tái)匯集了全世界7 000多門優(yōu)秀課程,全世界最好的老師在上面 PK,只要講的不對(duì)立馬就有人指出,這是教育模式革命。現(xiàn)在僅僅只是一個(gè)開始,這才是大數(shù)據(jù)帶給我們的更大挑戰(zhàn)。
本文選自:《未來已來》一書中邱澤奇先生的《邁向數(shù)據(jù)化社會(huì)》一文
禁止商用,轉(zhuǎn)載請(qǐng)注明出自網(wǎng)絡(luò)智酷!搜索公眾賬號(hào):網(wǎng)絡(luò)智酷,持續(xù)關(guān)注我們!
網(wǎng)絡(luò)智酷:人文|心理學(xué)|人工智能|科學(xué)|哲學(xué)|經(jīng)濟(jì)
關(guān)注我~加入思想者聯(lián)盟~
微博:網(wǎng)絡(luò)智酷
歡迎投稿,投稿郵箱:gexing@seec.com.cn
聯(lián)系客服