社交媒體上大V的影響力大小,信息傳播能力強弱,是社交網(wǎng)絡(luò)影響力研究的重要課題。2021年發(fā)表在《自然·人類行為》的一項研究,借助物理學中的滲流相變理論,針對大規(guī)模的微博和推特用戶數(shù)據(jù),建模了社交媒體的信息傳播過程。研究發(fā)現(xiàn),社交媒體聲音集中程度和正反饋效應(yīng),都被大大低估。社交媒體時代的網(wǎng)絡(luò)發(fā)聲,將繼續(xù)失衡,甚至加劇。
本文來自微信公眾號:集智俱樂部(ID:swarma_org),作者:李若蘭
一、被低估的社交媒體信息傳播能力
社交媒體作為一種新的基礎(chǔ)媒體,在許多重要領(lǐng)域發(fā)揮著顯著作用,理解局部個體行為是如何引發(fā)全局集體傳播行為的,近年來備受關(guān)注。人們普遍認為社交媒體上的信息傳播是一個類似于理論物理相變過程的滲流過程。然而,由于完整的實證數(shù)據(jù)的缺乏和大規(guī)模數(shù)據(jù)處理的困難,學術(shù)界一直未能在任何社交媒體上觀察到滲流相變。從這個假設(shè)提出到現(xiàn)在,近20年內(nèi)未得到證實或證偽。
研究者連續(xù)三年觀察了中國主流社交媒體微博,分析了由1億用戶形成的網(wǎng)絡(luò)結(jié)構(gòu)以及至少18萬用戶的傳播行為數(shù)據(jù),同時還分析了大量的Twitter數(shù)據(jù)。終于在真實的社交媒體上第一次觀測到滲流相變、臨界指數(shù)和臨界點。
c :98.4%的信息項被均勻滲流模型預(yù)測為處于亞臨界狀態(tài)。
研究發(fā)現(xiàn),臨界點的值遠小于之前理論預(yù)測的值,僅僅是理論預(yù)測值的1/10,同時實際觀測到的爆發(fā)開的信息,有98.4%被之前的滲流模型錯誤地預(yù)測為非爆發(fā)態(tài)。
這表明社交媒體傳播信息的能力比以往的理論預(yù)測值要高出一到兩個數(shù)量級,傳播過程必然是一種新的滲流。
社交網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)與用戶使用社交媒體的上癮行為的之間正反饋協(xié)同演化
網(wǎng)絡(luò)結(jié)構(gòu)與用戶使用社交媒體上癮行為存在正反饋協(xié)同演化,這種協(xié)同進化導(dǎo)致用戶影響力分布兩級分化嚴重。
本研究的發(fā)現(xiàn)表明信息在社交網(wǎng)絡(luò)中的傳播能力高于預(yù)期,這可能對很多信息傳播問題有影響。
二、社交網(wǎng)絡(luò)的龐大數(shù)據(jù)
為了計算社交網(wǎng)絡(luò)中的滲流相變,需要分析大量的信息傳播軌跡,上述信息傳播軌跡不僅包括轉(zhuǎn)發(fā)用戶的好友數(shù)據(jù)還包括信息接收用戶的好友數(shù)據(jù)。
由于社交媒體網(wǎng)絡(luò)的小世界性和無標度性,具有大級聯(lián)規(guī)模的信息軌跡包含幾個可以擁有數(shù)百萬追隨者(粉絲)的中樞節(jié)點(用戶)。龐大的數(shù)據(jù)量和計算難度導(dǎo)致信息級聯(lián)理論尚未被驗證,先前理論預(yù)測的滲流相變也沒有在任何社交媒體中觀察到。為了避免偏差,必須在短時間內(nèi)收集幾乎整個動態(tài)網(wǎng)絡(luò)數(shù)據(jù)。
數(shù)據(jù)集:
表1:從微博和Twitter收集到的網(wǎng)絡(luò)數(shù)據(jù)集(√表示搜集了好友關(guān)系網(wǎng)絡(luò)結(jié)構(gòu),×標志僅僅搜集了用戶的Ki(入度)和Ko(出度)。
微博數(shù)據(jù)包含三個數(shù)據(jù)集:
將近1億用戶的全部好友關(guān)系網(wǎng)絡(luò);
185000個微博用戶在近三年內(nèi)關(guān)注、粉絲和推文的演化數(shù)據(jù);
253條真實爆發(fā)信息的軌跡。
Twitter數(shù)據(jù)集是一個包括約4100萬用戶和184萬用戶的演化數(shù)據(jù)網(wǎng)絡(luò)。上述數(shù)據(jù)的獲取和使用均獲得平臺條款的支持。
表2 不同社交媒體用戶的演化數(shù)據(jù)集。收集的斷面數(shù)據(jù)(profile data)包括用戶標識(user identity ),粉絲數(shù)Ko,關(guān)注次數(shù)(followee count)Ki,推文數(shù)s?!拔⒉?013”演化數(shù)據(jù)集是“微博2014”演化數(shù)據(jù)集的組成部分。指數(shù)的標準偏差和95%置信區(qū)間CI是通過非參數(shù)Bootstrap法獲得的。
論文團隊使用裝箱方法(binning method)量化節(jié)點(用戶)活動和粉絲增長率。如果一個bin中的用戶數(shù)量過少(在微博中最少為10),則該bin被排除在分析之外。
三、信息傳播滲流模型
(A)均質(zhì)滲流模型
(B)非均質(zhì)滲流模型
節(jié)點被選中的概率與它的出度正相關(guān),出度由節(jié)點的大小來表示。在A和B中,藍色節(jié)點對應(yīng)的是被占用的節(jié)點,即人們收到消息會轉(zhuǎn)發(fā),灰色節(jié)點對應(yīng)的是被移除的節(jié)點,即不會轉(zhuǎn)發(fā)消息的人。在陰影區(qū)域內(nèi),如果帶有紅色外框的用戶發(fā)布消息,則陰影內(nèi)的用戶都會轉(zhuǎn)發(fā)該消息。我們可以看到,對于一個占用節(jié)點數(shù)相同的網(wǎng)絡(luò),異質(zhì)滲流的GOUT更大。
研究者假設(shè)對于每條消息而言,假如某些用戶對該消息感興趣,這些用戶則會在收到消息后轉(zhuǎn)發(fā)(被看作是被占用的節(jié)點occupied nodes,藍色),不感興趣的節(jié)點用戶則不會轉(zhuǎn)發(fā)(被看作是被移除的節(jié)點removed nodes ,灰色)。如果所有節(jié)點的轉(zhuǎn)發(fā)(占用)概率相同,我們稱之為均質(zhì)滲流模型(圖A),否則將被稱之為非均質(zhì)滲流模型(圖B)。
在上述兩個模型中,全球信息級聯(lián)中轉(zhuǎn)發(fā)用戶的集群對應(yīng)于點滲流模型種的巨型輸出組件(gaint out-component)(GOUT) 。
四、被低估的信息爆發(fā)臨界點
研究者利用包含約1億個用戶的微博,4100萬用戶的Twitter,以及30余萬的即時線上活躍用戶,定量確定了信息爆發(fā)的臨界點βc (見表1、2)。
(C)經(jīng)驗級聯(lián)的轉(zhuǎn)發(fā)概率β分布。βc為臨界點。98.4%的信息項被均勻滲流模型預(yù)測為處于亞臨界狀態(tài)。
對于在大小為N的社交網(wǎng)絡(luò)中給定的消息, 我們將該網(wǎng)絡(luò)中轉(zhuǎn)發(fā)該消息的用戶的比例定義為 ,將轉(zhuǎn)發(fā)該消息的用戶數(shù)定義為∞() ,將接受該消息的用戶定義為() 。信息項轉(zhuǎn)發(fā)次數(shù)越多,∞ 和值越大。假設(shè)∞ 代表所有有意轉(zhuǎn)發(fā)的用戶, 代表所有用戶,∞/≈ 。
如圖1C所示,研究發(fā)現(xiàn)98.4%憑經(jīng)驗觀察到的全球爆發(fā)信息數(shù)據(jù)被均勻滲流模型錯誤地預(yù)測局部傳播信息。
(D)經(jīng)驗級聯(lián)與均勻滲流模型模擬結(jié)果的比較。x軸以對數(shù)刻度繪制。每個藍點代表一個真實的信息級聯(lián)。
此外,實際的信息爆發(fā)臨界值也僅為滲流模型預(yù)測值的十分之一(圖1D)。這些發(fā)現(xiàn)表明前人理論研究中假設(shè)的均勻滲流概率可能嚴重低估了社交媒體網(wǎng)絡(luò)中信息的外延。
實際臨界值和先前預(yù)測臨界值之間的顯著差異促使研究者使用定量的方法來地探索信息軌跡和網(wǎng)絡(luò)結(jié)構(gòu)之間的相互作用。
五、推文越多,粉絲越多?粉絲越多,推文越多?
:粉絲, :博主, :活躍度, :推文總數(shù)。=Δ/Δ, 代表單位時間內(nèi)節(jié)點用戶發(fā)表的推文平均數(shù)。
從上兩圖可以看出,發(fā)表推文和粉絲數(shù)量成明顯正相關(guān),即發(fā)表的推文越多,博主的粉絲數(shù)越多,但是博主的粉絲并不是一直高速增長的,隨著時間的推移,粉絲增長速度趨于平緩(圖2A,3A),隨著粉絲數(shù)量的增多,博主發(fā)推的頻率也會逐漸降低(圖2A,3A)。而m和博主數(shù)量之間的相關(guān)性可以忽略不計。
三年的網(wǎng)絡(luò)演化數(shù)據(jù)分析結(jié)果表明社交網(wǎng)絡(luò)結(jié)構(gòu)與用戶活動存在協(xié)同演化正反饋效應(yīng)(圖2B,3B)。
正反饋效應(yīng)使得方程(1)的相關(guān)性隨著時間的推移而增強。如圖2A所示,微博的α值從2012年的0.158(±0.019)增加到2014年的0.284 (±0.017)(表2)。α值的增加造就了更低的信息級聯(lián)臨界值以及社交網(wǎng)絡(luò)用戶網(wǎng)絡(luò)影響的極度不平衡。
方程1表示用戶活動是異質(zhì)的,即粉絲越多的博主發(fā)布推文的頻率越高;方程2表示粉絲的增長率也是可變的,即如果該博主具有更多粉絲或更頻繁地發(fā)推,則該博主的粉絲數(shù)量增加得更快。
六、社交媒體可以讓我們平等地表達觀點嗎?
社交媒體是一個開放的平臺,使每個人都能表達自己的觀點,但是由于用戶觸發(fā)信息級聯(lián)的能力可能存在不平等。這種能力代表了社交媒體用戶的影響力,會對政治、經(jīng)濟和社會問題的輿論形成產(chǎn)生了深遠影響。
經(jīng)驗和理論分析發(fā)現(xiàn)用戶影響力隨著隨時間增加變得越來越集中(圖2F,3E)。事實上,在2014年,前0.7%的用戶擁有99.3%的影響力。相比之下,統(tǒng)一理論uniform theory預(yù)測前12%的用戶擁有88%的影響力。雖然精英用戶不可避免地擁有更大的影響力,但現(xiàn)實社會網(wǎng)絡(luò)中的不平衡比均勻滲透的預(yù)測嚴重17倍。
這一發(fā)現(xiàn)意味著,當前旨在讓人們自由表達自己的社交媒體,實際上并不像預(yù)期的那樣分散。很大一部分普通用戶的聲音仍然受到壓制。更糟糕的是,我們的實證和分析結(jié)果表明,由于正反饋效應(yīng),隨著社交媒體系統(tǒng)的發(fā)展,用戶影響力的不平衡往往變得更加嚴重。
七、結(jié)語
總結(jié)來說,本文通過上述事實經(jīng)驗證明信息傳播可以非常有效地通過非均勻滲流模型建模,并且可以在社交媒體網(wǎng)絡(luò)上檢測出相應(yīng)的二階相變。此外,網(wǎng)絡(luò)結(jié)構(gòu)和用戶上網(wǎng)上癮程度之間存在存在協(xié)同進化中的正反饋機制,正反饋機制導(dǎo)致某些用戶的信息傳播能力異常的高,以及不同用戶之間影響力的極度失衡。
本研究的結(jié)果表明有必要重新思考一些與信息級聯(lián)有關(guān)的問題,例如通常在靜態(tài)網(wǎng)絡(luò)上分析的影響最大化、社會感染(social contagion)和社交媒體的協(xié)議設(shè)計(protocol design of social media)等。
該研究模型抓住了決定信息級聯(lián)動態(tài)特性的主要因素,但不同年份和不同數(shù)據(jù)集上的變化趨勢仍存在一定的差異,尤其是網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點(用戶)活動水平隨時間變化的相關(guān)性趨勢。研究發(fā)現(xiàn)很難有一個簡單的機制來解釋這種變化,這可能是由于一些隱藏的因素沒有從數(shù)據(jù)本身觀察到??傮w而言,這一機制與優(yōu)先連接機制preferential attachment類似,但更為復(fù)雜,值得深入探索。
本文來自微信公眾號:集智俱樂部(ID:swarma_org),作者:李若蘭,論文題目:Detecting and modelling real percolation and phase transitions of information on social media;論文地址:https://www.nature.com/articles/s41562-021-01090-z