想象一下,你將要買一個新的手機,在電商上搜索之后,你鎖定了兩款價格和性能都差不多的H手機和F手機,它們唯一的區(qū)別在于評價分數(shù)和評價人數(shù)不同,如下圖(括號中的數(shù)字為評價人數(shù))。
選哪個嘞?(單選)
當然是左邊的 H
肯定是右邊的 F
這個問題看起來很簡單,絕大多數(shù)人都會選 H,畢竟它的評價人數(shù)多,評價分數(shù)也更高嘛 —— 但如果心理學家告訴你,其實選 F 更靠譜,你會不會感到不可思議?
斯坦福大學的Derek等學者依據(jù)上百萬的商品評價數(shù)據(jù),使用貝葉斯算法對消費者的“科學”購買行為建模,得出了上述結論。
在線上,我們對于商品的選擇和質量判斷,會更多依賴于商品品牌、詳情介紹,尤其是其他消費者的滿意度——買家評價的數(shù)量和評價的分數(shù)。人們都喜歡評論多、評分高的商品,這一般意味著更好的質量和更優(yōu)的選擇。
但另一方面,大量研究證實了在經(jīng)濟決策中,當面對諸如平均值、樣本大小等統(tǒng)計線索時,人們經(jīng)常使用簡化的表征或過程來做決定,最后導致并不“科學”的推理和決策偏差。
這種依據(jù)評分跟風決策的方式真的“科學”嗎?從 Derek 的研究來看,評價有用,但你可能跟錯風了。
研究者從亞馬遜上抓取了15,655,439條商品評價數(shù)據(jù),對手機及配件、數(shù)碼商品、健康美容及廚房用品4個品類的356,619種商品進行了分析,并控制了商品價格的差異。
研究使用核密度估計法(kernel density estimation),分別計算了這4類商品平均評價分數(shù)(x,取值范圍1~5)在不同評價數(shù)量(n)上的條件概率。圖2為4個商品類別的n值中P(x|n)的估計概率結果,橫軸為平均評價分數(shù)x,縱軸為評價數(shù)量n。
如圖所示,評價分數(shù)在不同的評價數(shù)量中的分布都表現(xiàn)出了一致性——在四種商品類型中,無論評價數(shù)量較多還是較少,他們的平均評價分數(shù)的概率分布都相對穩(wěn)定。
也就是說,雖然我們直覺認為好的商品會更受歡迎,但實際上評價分數(shù)和評價數(shù)量之間的關系并不大,僅僅受歡迎度(即評價數(shù)量)并不是有效的商品質量(即評價分數(shù))指標。
研究者使用貝葉斯模型(Bayesian Model)對決策行為進行建模,用樣本均值推算整體均值,從評價數(shù)據(jù)中推斷商品的質量。假定θ為總體商品評價的真值,在線評價為該總體的樣本,依據(jù)樣本中商品的平均評價分數(shù)(x)和評價數(shù)量(n)或P(θ | x,n),估計商品評價的真值(θ,取值范圍1~5)。
根據(jù)該統(tǒng)計模型,對于商品A(多評價數(shù)量)或者B(少評價數(shù)量)的選擇可以通過比較θA和θB的后驗分布計算出來,通過計算P(θA > θB | xA, nA, xB, nB),來確定哪個商品可能會更優(yōu)質。圖3為不同評論量下A商品(評價量多)優(yōu)于B商品(評價量少)的優(yōu)勢概率,橫軸為A商品評分,縱軸為A商品更優(yōu)質的概率,不同的線型表示A商品不同的評分優(yōu)勢。
模型結果表明,樣本容量越大,商品評論量越多,A商品的評分優(yōu)勢就越顯著,我們越能確信結果的穩(wěn)定性、越能證明商品質量的好或差;而當評論數(shù)量較少時,分數(shù)會更容易受到極端數(shù)據(jù)影響,商品質量的可能性也就越不穩(wěn)定。
所以,當評價較好時,該模型傾向于選擇評價數(shù)量較多的商品A(p(A優(yōu)于B) > .50),當評價較差時,該模型傾向于選擇評價數(shù)量較少的商品B(p(A優(yōu)于B) < .50)。
也就是說,當某商品的評價高于平均水平時,評價的人越多,該商品的質量就越可能有保證;但當某商品的評價低于平均水平時,選擇評價人數(shù)少的商品是更優(yōu)的決策。
好啦好啦,我能理解大家對這個結論有意見,再怎么樣,不選 H 選 F 也太離譜了 —— 但至少,我們能夠達成一個共識,那就是不能只看評價數(shù)量,對吧?
接下來是這篇研究的另一部分,也很有趣:研究者從Amazon Mechanical Turk (MTurk) 招募了138名成年人進行實驗。該實驗包含25組小測試,每組小測試都會向被試展示兩款不同的手機,讓被試從中選擇一款。每款手機都有一個平均評價分數(shù)(從1星到5星)和總的評價人數(shù);同一組小測試中兩款商品的總評價人數(shù)相差125人左右(比如,高評價人數(shù)為150人,則低評價人數(shù)為25人)。
除了告訴被試兩款手機價格差不多之外,沒有任何關于手機的詳情描述。被試每看一組商品,就需要對商品的購買意愿進行6點的評分(1為更愿購買左側商品,6為更愿購買右側商品)。也就是推文開始讓大家做的小測試啦。
被試實際上是怎么選擇的呢?他們的選擇和上一個研究的模型結果大相徑庭:總體而言,不論評價分數(shù)多少,被試都更偏愛評價數(shù)量多的商品,在25種不同條件測試的21種中,大多數(shù)參與者都選擇了評價更高的商品(符號檢測法,p < .01)。
研究結果表明,被試偏好多評價數(shù)量商品的偏見非常嚴重。
但事實上,當兩個商品的評價都很低時,評價數(shù)量越多,數(shù)據(jù)越穩(wěn)定,越能確信該商品的質量差;評價數(shù)量少時,評分會更多的受極端數(shù)據(jù)影響,相比之下這個商品反而有更高的優(yōu)質可能性。
比如,在平均評分為3.1的一對商品中,一個評價量為29,另一個評價量為154,統(tǒng)計模型顯示,評價數(shù)量少的商品有60%的可能性是更優(yōu)質的;但實際上,90%的被試卻都選擇了評論數(shù)量更多的商品。
結語
雖然社會學習可以幫助我們通過觀察別人的行為快速做決定,但啟發(fā)偏差(heuristics and biases)常常讓我們在疾馳的過程中走上錯誤的軌道,這種偏差在涉及數(shù)字的經(jīng)濟環(huán)境中尤為普遍。
所以下次再貨比三家的時候,知道怎么選了吧?雖然,這只解決了千千萬萬個決策偏差的其中一個,人的大腦還有很多漏洞,等待我們慢慢挖掘。