這是一個(gè)新的系列「信息哲學(xué)」。
距離《邏輯 | 我向你發(fā)送了一條負(fù)信息》一文發(fā)布已經(jīng)過去將近半年,在那篇文章里HW君留下了許多懸而未決的疑問。
這半年來HW君久久無法釋懷,一直在對「信息」和「熵」的概念進(jìn)行重新思考。
對這些底層基礎(chǔ)概念的重新理解,重塑了HW君的整個(gè)觀念體系,也導(dǎo)致了以前的許多文章都需要重寫。
總的來說,HW君并沒有「完全想明白」,但也是時(shí)候開始著手去做點(diǎn)什么了。
在還沒準(zhǔn)備好的情況下寫作「信息哲學(xué)」這個(gè)系列,算是為自己梳理長久以來的思路。
在這個(gè)過程中,一些原有的觀念發(fā)生改變,一些原本混亂的模糊得到解答,但更多的時(shí)候仍然是直面自己的無知。
1948年,香農(nóng)(Claude Shannon)的《通信的數(shù)學(xué)原理》(A Mathematical Theory of Communication)橫空出世,開啟了今日波瀾壯闊的信息時(shí)代。
隨之而來的,還有對于「信息」這一概念的巨大混淆。
互聯(lián)網(wǎng)上存在著這樣的兩種爭論:
(1)信息是熵。
(2)信息是負(fù)熵。
香農(nóng)本人的觀點(diǎn)是「信息是熵」。
而最早提出「信息是負(fù)熵」的應(yīng)該是維納(Norbert Wiener)。
維納是另一位和香農(nóng)幾乎在同一時(shí)期對「信息」進(jìn)行理論構(gòu)建的大師。
維納曾在麻省理工學(xué)院教過香農(nóng),給了香農(nóng)許多啟發(fā)。
維納在其集大成著作《控制論》一書中,通過分析直流電路來研究「信息」,從而推導(dǎo)出信息論的部分理論基礎(chǔ)。
維納和香農(nóng)的信息量公式,從形式上看只差了一個(gè)負(fù)號(hào)。
基于這個(gè)負(fù)號(hào)的差別,香農(nóng)認(rèn)為「信息是熵」,而維納認(rèn)為「信息是負(fù)熵」。
由此開啟了信息論歷史上最大的混淆。
許多人選擇忽視這個(gè)負(fù)號(hào),包括香農(nóng)自己也覺得這只是「數(shù)學(xué)上的文字游戲」(mathematical pun),認(rèn)為其無關(guān)緊要。
但這其中細(xì)微之處造成的混亂一直延續(xù)到了今天。
于是就出現(xiàn)了詭異的一幕。
在香農(nóng)信息論領(lǐng)域里,學(xué)術(shù)界持有類似香農(nóng)的觀點(diǎn):
信息具有不確定性。
不確定程度越大,信息量越大。
信息是熵。
但在將信息與日常生活關(guān)聯(lián)、進(jìn)行詮釋的時(shí)候,人們又不約而同轉(zhuǎn)向維納的看法:
信息具有確定性,可以消除不確定性。
不確定程度越小,信息量越大。
信息是負(fù)熵。
這是兩種截然相反的表述,竟可以共存于同一個(gè)清醒的頭腦之中。
今天有無數(shù)的人學(xué)習(xí)過或正在學(xué)習(xí)信息論,但卻很少有人會(huì)覺得這里面有所不妥。
這完全是兩種矛盾對立的觀點(diǎn),人們?nèi)魺o其事選擇忽略這種沖突,以至于產(chǎn)生了如此嚴(yán)重的「燈下黑」。
歷史上,香農(nóng)在其書信和報(bào)告中,說法都是「信息是熵」。
第一個(gè)提出「信息是負(fù)熵」觀點(diǎn)的是維納,而這個(gè)觀點(diǎn)也被更廣泛接受,因?yàn)樗现庇X。
但如果我們翻看維納《控制論》中對于「信息量」公式的推導(dǎo),就會(huì)發(fā)現(xiàn)公式一開始是有負(fù)號(hào)的,只是維納為了讓公式符合直覺中途丟掉了負(fù)號(hào)而已。
在本文結(jié)尾的附錄里,HW君會(huì)說明維納是如何丟掉這個(gè)負(fù)號(hào)的。
這個(gè)負(fù)號(hào)并不會(huì)影響工程師們對香農(nóng)信息量公式的應(yīng)用,其帶來的理解上的細(xì)微差異并不會(huì)妨礙人們構(gòu)建起今日波瀾壯闊的信息時(shí)代。
但對這個(gè)負(fù)號(hào)的認(rèn)識(shí)會(huì)影響到我們對這個(gè)世界的看法,影響到我們對于信息的哲學(xué)詮釋。
而我們這個(gè)「信息哲學(xué)」系列文章,就是從這個(gè)被忽視的負(fù)號(hào)開始。
這個(gè)系列的文章會(huì)分為幾期,圍繞著「信息」與「熵」的話題進(jìn)行展開。
本文我們先會(huì)復(fù)盤這個(gè)混淆是怎么產(chǎn)生的。
下一期文章則嘗試給出一個(gè)解釋這種混淆的詮釋。
1940年代,正值第二次世界大戰(zhàn)之際,在貝爾實(shí)驗(yàn)室?guī)椭儡娖平饷艽a的日子里,香農(nóng)面對的問題是如何從一些雜亂無章的符文密碼中解讀出正確文本。
當(dāng)時(shí)貝爾實(shí)驗(yàn)室的密碼工程師們普遍都需要操心聲音、電流、波形等具體事物,但香農(nóng)把「信息」從具體的物理世界剝離出來,為它建立了一套純數(shù)學(xué)的理論。
香農(nóng)構(gòu)建出一整套代數(shù)方法、定理和證明,使得可以對「信息」進(jìn)行更謹(jǐn)慎的研究。
這套方法需要人們對以往的思維模式進(jìn)行徹底的翻轉(zhuǎn)。
于是香農(nóng)拋出的第一個(gè)「思維翻轉(zhuǎn)」便是:
信息就是信息,而不是物質(zhì)或者能量。
當(dāng)然上述這句話其實(shí)是維納說的,維納給了香農(nóng)很多啟發(fā)。
那些戰(zhàn)爭中各式各樣的加密通信活動(dòng),無論是信件、聲音、廣播、電報(bào)、電話......其通信的形式可以多種多樣,但內(nèi)核都是相同的。
所以要對「信息」進(jìn)行更深入理解,發(fā)現(xiàn)其隱藏的模式,就需要掃除這些包裹在「信息」外層的不同形式。
假設(shè)HW君發(fā)送了一串只有0和1的二進(jìn)制數(shù)字給你,它是「1101」。
那么這串二進(jìn)制數(shù)字「1101」可以被稱為「信息」。
同樣的「0」和「101101」也都可以被稱為信息。
不局限于二進(jìn)制,十進(jìn)制的「2021」也可以被稱為信息。
并且不局限于數(shù)字,一串字母「GoneMmeme」也可以被稱為信息。
當(dāng)然,單個(gè)字母「H」或者「W」也可以稱為信息。
更進(jìn)一步,一個(gè)或一串漢字「消失的模因」也可以被稱為信息。
一幅圖像或者一段聲音也可以被稱為信息。
......
這樣的對于信息的理解符合我們的直觀感受。
「信息」是一些可以傳遞某些意義的符號(hào)或者標(biāo)記,它可以擁有不同的物理形式。
如果我們拋開蘊(yùn)含在「信息」中的意義不談,那么信息就只是某些特定的物質(zhì)。
例如紙張上特定路徑的墨水、屏幕發(fā)出特定顏色組合的光、具有某個(gè)特征的聲波、計(jì)算機(jī)電路狀態(tài)的通和斷......
而維持這些特定形式的物質(zhì),常常需要消耗能量。
所以即便我們認(rèn)為「信息不是物質(zhì)和能量」,也仍然可以斷言:
信息的存在依賴物質(zhì)和能量。
但我們關(guān)注的并不是物質(zhì)和能量,而是信息,以及信息背后所能傳遞的意義。
后來香農(nóng)證明了,世界上的所有信息的確都遵循著同一套數(shù)學(xué)規(guī)則,無論它們的物理形式是什么樣的。
這種「思維翻轉(zhuǎn)」讓今日互聯(lián)網(wǎng)的存在有了理論基礎(chǔ)。
于是無論是聲音、圖像、文字......它們都可以依靠香農(nóng)的數(shù)學(xué)規(guī)則轉(zhuǎn)變并儲(chǔ)存為一份二進(jìn)制文件,透過電信號(hào)在網(wǎng)絡(luò)中傳播。
而隨后香農(nóng)還拋出了第二個(gè)更加違反直覺感受的「思維翻轉(zhuǎn)」:
通信和「意義」無關(guān),而和「不確定性」有關(guān)。
在當(dāng)時(shí)協(xié)助美軍的大多數(shù)密碼工程師看來,通信的基本問題是使自己的意圖被接收的人理解,從而傳遞「意義」。
但在香農(nóng)看來,通信的基本問題是「如何在一點(diǎn)精確地復(fù)現(xiàn)出另一點(diǎn)的消息」。
這個(gè)問題和「意義」無關(guān),而和「不確定性」有關(guān)。
這樣的思維翻轉(zhuǎn)重新界定了通信工程的工作范圍。
即一個(gè)通信工程師根本不需要關(guān)心A想向B發(fā)送的消息有什么意義,他只需要將A的消息精確地復(fù)現(xiàn)給B,而不必理解其意義。
香農(nóng)的這個(gè)思維翻轉(zhuǎn)與香農(nóng)的工作經(jīng)歷有關(guān)。
在協(xié)助美軍破解密碼的日子里,香農(nóng)經(jīng)常要面對一串看上去毫無意義的數(shù)據(jù)流,然后從中找出真正的信號(hào)。
在這個(gè)過程中,香農(nóng)發(fā)現(xiàn)其實(shí)并不太需要去關(guān)心這些密碼真正的意義是什么,他要做的只是統(tǒng)計(jì)每個(gè)字符出現(xiàn)的概率并進(jìn)行猜測。
一份看上去像是隨機(jī)亂碼的字符數(shù)據(jù)流,我們可以通過大量地統(tǒng)計(jì)發(fā)現(xiàn)它隱藏的普遍模式:
(1)英語中e和t出現(xiàn)的頻率比較大,而z和j的頻率比較小。
(2)最常出現(xiàn)的雙字母組合是th,大概每一千個(gè)單詞出現(xiàn)168次,緊隨其后的是he、an、re和er,還有一些雙字母組合的出現(xiàn)頻率為零。
(3)緊跟在q后面的字母u是冗余,去掉后沒有影響。
(4)在單詞an后面,以輔音字母開頭的單詞出現(xiàn)的概率極小。
(5)假如一個(gè)字母以u結(jié)尾,那么這個(gè)單詞是you的概率極大。
(6)連續(xù)出現(xiàn)兩個(gè)相同字符時(shí),它們通常會(huì)是ll、ee、ss或oo。
......
應(yīng)用這種純粹數(shù)學(xué)統(tǒng)計(jì)的結(jié)果便是,香農(nóng)可以在完全不理會(huì)一份密碼想傳達(dá)的意義是什么的情況下,靠統(tǒng)計(jì)學(xué)猜出密碼的真正內(nèi)容。
這個(gè)思維翻轉(zhuǎn)使得香農(nóng)從頭開始思考「信息」具有什么樣的性質(zhì)。
而香農(nóng)最后給出的回答是:
信息具有不確定性。
不確定程度越大,信息量越大。
信息是熵。
香農(nóng)是如何得出這個(gè)結(jié)論的呢?
我們看這樣的一個(gè)最簡單的事件X:
(X)拋一枚均勻正反面的硬幣。
其結(jié)果只有兩種,要么「正面朝上」,我們記為1;
要么「背面朝上」,我們記為2。
所以這個(gè)拋硬幣的事件X有2種不確定的可能性結(jié)果,各自的概率都是1/2:
再看這樣一個(gè)稍微復(fù)雜一點(diǎn)的事件Y:
(Y)拋一顆均勻六面的骰子。
其結(jié)果有六種,骰子點(diǎn)數(shù)可以是從1到6,我們同樣將結(jié)果順序標(biāo)記為1到6。
即這個(gè)拋骰子的事件Y有六種不確定的可能性結(jié)果,從1到6,各自的概率是1/6:
現(xiàn)在我們比較事件X和事件Y的不確定性,哪個(gè)事件的「不確定程度」更大一點(diǎn)?
直觀感受顯然是事件Y的不確定程度更大,因?yàn)樗?種可能。
那么可不可以對這種「不確定程度」用數(shù)學(xué)公式進(jìn)行量化?
當(dāng)然是可以的。
香農(nóng)通過一系列嚴(yán)謹(jǐn)?shù)耐茖?dǎo),最后給出了的量化這種不確定性的香農(nóng)信息公式:
這個(gè)H就是當(dāng)今香農(nóng)信息論學(xué)術(shù)意義上的熵/ 信息熵/ 香農(nóng)熵/ 信息量,單位是比特bit。
本文末尾的附錄里,HW君會(huì)對這個(gè)公式進(jìn)行詳細(xì)分析。
這里我們簡單地將上面拋硬幣的事件X和拋骰子的事件Y代入信息公式里。
得到拋硬幣的事件X的信息量是1bit:
拋骰子的事件Y的信息量是log26,約為2.6bit:
即可以得到 H(Y)>H(X)。
于是結(jié)論是,事件Y的信息量比事件X的大,也就是事件Y比事件X擁有更多的不確定性。
即拋骰子事件Y的熵比拋硬幣事件X的熵大。
而這個(gè)計(jì)算結(jié)果的出發(fā)點(diǎn)是:
信息具有不確定性。
不確定程度越大,信息量越大。
信息是熵。
上述這3個(gè)命題便是香農(nóng)對于香農(nóng)信息公式的詮釋結(jié)果。
但這樣的詮釋是非常違反直覺的。
現(xiàn)實(shí)中對種觀點(diǎn)也存在著非常多的爭論。
例如維納就認(rèn)為「信息是負(fù)熵」,其詮釋為:
信息具有確定性,可以消除不確定性。
不確定程度越小,信息量越大。
信息是負(fù)熵。
維納的這種詮釋是非常符合直覺的。
而薛定諤在1944年出版的著作《生命是什么》(香農(nóng)到1948年才發(fā)表《通信的數(shù)學(xué)原理》)中也表述過「生命以負(fù)熵為生」。
雖然后來薛定諤在修訂版本中將此表述更換為「生命以自由能為生」。
所以如果讓薛定諤來描述信息的性質(zhì),HW君猜測薛定諤應(yīng)該會(huì)贊同維納的觀點(diǎn)。
對于「信息是熵」和「信息是負(fù)熵」的說法誰對誰錯(cuò)、存在著什么問題,我們這里暫時(shí)先擱置爭論,放在這個(gè)系列的下期文章中詳細(xì)解答。
本文我們先復(fù)盤一下為什么人們會(huì)在這個(gè)問題上產(chǎn)生完全相反的分歧,以便更好地理解整個(gè)事情的脈絡(luò)。
許多人并沒有意識(shí)到香農(nóng)于「信息」的理解和詮釋跟我們?nèi)粘I钪械母惺芙厝徊煌?br>
我們使用上面的拋硬幣事件作為例子,并給它增加一個(gè)更加具體的生活化場景。
假設(shè)A君拋出一枚均勻正反面的硬幣,拋完后A君能看到結(jié)果。
而B君背對著A君,即B君看不到拋硬幣的結(jié)果。
然后,A和B各自表述自己目前的情況:
A:拋硬幣的結(jié)果是「正面向上」。
B:我不知道拋硬幣的結(jié)果。
那么問題來了,A和B兩個(gè)人誰說的話「信息量」大。
根據(jù)香農(nóng)的信息量公式,A說了一個(gè)確定的事件,事件發(fā)生的概率是1,其「不確定程度」為0,所以信息量為0bit:
而B說了一個(gè)不確定的事情,正面和反面的概率都為1/2,其「不確定程度」為1,即信息量為1bit:
所以 H(B)>H(A),即B說的話「信息量」比較大。
更加準(zhǔn)確來說,A說的話「信息量」為0,即完全沒有信息量。
而這與我們?nèi)粘I畹闹庇^感受完全違背。
明明A說了更多的內(nèi)容,B什么都沒有說,怎么計(jì)算的結(jié)果是B的信息量比A大。
如果這還不夠直觀,我們可以假設(shè)連續(xù)拋硬幣10次,同樣A清楚全部的結(jié)果,而B完全不清楚。
那么產(chǎn)生如下的表述:
A:拋硬幣的結(jié)果是「正反反正正正反正反反」。
B:我不知道拋硬幣的結(jié)果。
在這種情況下,我們計(jì)算得到A表述的信息量為0,B表述的信息量為10bit。
于是當(dāng)B不知道的事情更多時(shí),計(jì)算出來的信息量還更大了。
在日常生活中,我們經(jīng)常說某個(gè)人說話言簡意賅,字字珠璣命中要害,會(huì)被形容為「信息量很大」。
而另外一個(gè)人口若懸河,但是廢話連篇,沒有營養(yǎng),說了很多但給人感覺什么都沒有說,即「信息量很小」。
但在香農(nóng)信息論的世界里,情況卻是反過來的。
在上面拋硬幣的事件里,A完整地描述了硬幣拋得的情況,但其信息量卻是0;
而B什么都說不出來,但其信息量卻要比A遠(yuǎn)大得多。
并且B越不確定,信息量反而越大。
信息量公式的這種對現(xiàn)實(shí)生活直觀感受的違背也影響到了維納。
維納在推導(dǎo)信息量公式時(shí),按照日常生活直覺認(rèn)為「信息具有確定性,能夠消除不確定性」,所以他在信息量公式的推導(dǎo)過程中丟棄了負(fù)號(hào),并提出「負(fù)熵」的概念,試圖讓公式更加符合直覺。
這樣的結(jié)果就是,出現(xiàn)了兩種對于信息的詮釋,它們之間是互相矛盾的。
而產(chǎn)生這種矛盾的原因可能有下列3種情況:
(1)香農(nóng)信息公式是錯(cuò)誤的。
情況(1)的概率是最小的,因?yàn)?strong>香農(nóng)信息公式已經(jīng)被反復(fù)證明是成立的。
人們對香農(nóng)信息量公式的應(yīng)用取得了令人矚目的成就,難道這些成就都是建立在錯(cuò)誤的地基上的?
今日這個(gè)波瀾壯闊的信息時(shí)代正是香農(nóng)信息量公式正確性的最好辯護(hù)。
(2)維納的詮釋是錯(cuò)誤的,即人們的直覺是錯(cuò)誤的。
情況(2)說明了我們的直覺是不靠譜的,此類情況在歷史上已經(jīng)發(fā)生多次。
例如地球不是平的而是一個(gè)球,太陽不繞地球轉(zhuǎn)而是地球繞太陽轉(zhuǎn)。
如果是這種情況,那么我們應(yīng)該調(diào)整自己的認(rèn)知去適應(yīng)公式,而不是讓修改公式適應(yīng)我們的直覺。
(3)香農(nóng)的詮釋是錯(cuò)誤的,不符合人們直覺。
情況(3) HW君:香農(nóng)只是個(gè)數(shù)學(xué)家,他根本就不懂香農(nóng)信息論。
并不是說只有HW君發(fā)現(xiàn)了這個(gè)問題。
相反,有非常多的人意識(shí)到了這種矛盾感。
為了方便討論,這里我們把日常生活中符合直覺的那個(gè)信息量概念稱為「日常信息量」,而把香農(nóng)詮釋的那個(gè)信息量稱為「香農(nóng)信息量」。
我們以拋一次硬幣的事件X作為例子。
拋一次枚均勻硬幣,A知道結(jié)果,B不知道結(jié)果,那么:
A:拋硬幣的結(jié)果是「正面向上」。
B:我不知道拋硬幣的結(jié)果。
那么B的香農(nóng)信息量為1bit,A的香農(nóng)信息量為0bit。
即可以表述為:
B的香農(nóng)信息量比A的香農(nóng)信息量大。
我們稱這個(gè)結(jié)論符合「信息的香農(nóng)詮釋」。
但我們?nèi)粘I畹闹庇X是,A的話信息量要比B的大,B的話一點(diǎn)信息量都沒有。
即可以表述為:
A的日常信息量比B的日常信息量大。
我們稱這個(gè)結(jié)論符合「信息的日常詮釋」。
也就說說,公式算得的「香農(nóng)信息量」和根據(jù)直覺感受到的「日常信息量」是矛盾的,對應(yīng)著兩種截然相反的詮釋。
在意識(shí)到矛盾之后,許多人試圖給出一些相應(yīng)的補(bǔ)丁,以彌合這種矛盾。
最常見的補(bǔ)丁便是引入時(shí)間概念,把信息分成「已知信息」的和「未知信息」兩部分:
補(bǔ)丁1:已知與未知
日常信息量:已知信息的信息量。
香農(nóng)信息量:未知信息的信息量。
將這個(gè)「補(bǔ)丁1」代入事件X中,我們就可以對這種矛盾進(jìn)行重新調(diào)和:
A:
A的香農(nóng)信息量很小,因?yàn)锳沒有未知信息。
A的日常信息量很大,因?yàn)锳有很多已知信息。
B:
B的香農(nóng)信息量很大,因?yàn)锽有很多未知信息。
B的日常信息量很小,因?yàn)锽沒有已知信息。
在打上了這個(gè)「補(bǔ)丁1」之后,一切就又好像「合理」了起來。
而類似詮釋方法,還有:
補(bǔ)丁1.1:輸入信息消除不確定性
香農(nóng)信息量:越不確定,需要輸入的信息量越大。
日常信息量:越不確定,已經(jīng)輸入的信息量越小。
以及
補(bǔ)丁1.2:正說和反說
香農(nóng)信息量:還能再說什么
日常信息量:已經(jīng)說了什么
不過在HW君看來,「補(bǔ)丁1.1」和「補(bǔ)丁1.2」都是同一類,是「補(bǔ)丁1」的馬甲。
它們都把信息分成了「已知信息」和「未知信息」的兩個(gè)部分。
實(shí)話實(shí)說,像「補(bǔ)丁1」這樣用時(shí)間來解釋矛盾的說法非常具有迷惑性,不仔細(xì)分析的話很難發(fā)現(xiàn)其中的問題。
假設(shè)這樣一個(gè)場景,A君連續(xù)拋硬幣4次。
這里用0表示正面,用1表示反面,*表示未知,現(xiàn)在拋4次硬幣的結(jié)果為「1101」。
那么按照「補(bǔ)丁1」的邏輯有:
在最初,A不知道拋硬幣的結(jié)果,那么A已知信息的信息量為0bit,未知信息的信息量為4bit,記為「****」。
當(dāng)A看到了第一枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「1***」。
當(dāng)A看到了第二枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「11**」。
當(dāng)A看到了第三枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「110*」。
當(dāng)A看到了第四枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「1101」。
這樣的邏輯看上去是不是非常「合理」。
然而它只是看上去合理。
真相是什么?
「補(bǔ)丁1」的問題出在哪里?
答案是,不存在這樣的一個(gè)信息量會(huì)發(fā)生變化的「已知信息」。
或者說,上面的所有已知信息的信息量都應(yīng)該是0bit。
所謂「已知信息」的信息量,也就是「已知信息」的「不確定程度」。
但既然是已知的,那就是確定的,其不確定程度一定為0。
即按照「補(bǔ)丁1」的邏輯,其「日常信息量」都應(yīng)該一直恒為0bit,它不會(huì)有一個(gè)變大或者變小的過程。
同樣的,「補(bǔ)丁1.1」的「已輸入消息」和「補(bǔ)丁1.2」的「已經(jīng)說了什么」的部分的信息量,都恒為0bit。
到這里我們可以得到一個(gè)確定的結(jié)論:
所有已知的信息,沒有不確定性。
「已知的」就是「確定的」,所有確定的信息,沒有不確定性。
它是一個(gè)同義反復(fù),是個(gè)真命題。
因此類似「補(bǔ)丁1」的說法,在邏輯是不自洽的。
這個(gè)不自洽非常難被發(fā)現(xiàn)。
其實(shí)相當(dāng)多的人意識(shí)到了「補(bǔ)丁1」的問題, 發(fā)現(xiàn)香農(nóng)信息論中的香農(nóng)信息量與我們生活里使用的日常信息量概念的矛盾無法調(diào)和。
這種情況下他們不再試圖彌合這種矛盾,而是否認(rèn)兩種信息概念本身是相同的。
這種思路即可以表述為:
補(bǔ)丁2:香農(nóng)信息≠日常信息
「補(bǔ)丁2」和「補(bǔ)丁1」的差異為:
「補(bǔ)丁1」認(rèn)為,「香農(nóng)信息量」和「日常信息量」之所以會(huì)不同,原因是「香農(nóng)」(未知)和「日常」(已知)是不同的,而「信息量」是相同的,兩個(gè)概念共享一個(gè)數(shù)學(xué)性質(zhì)相同的「信息」。
即同一個(gè)物體,它可以被分為「香農(nóng)部分」和「日常部分」這兩個(gè)不同部分,對這兩個(gè)不同部分用同一個(gè)數(shù)學(xué)公式求得的「信息量」結(jié)果不同。
「補(bǔ)丁2」認(rèn)為,「香農(nóng)信息量」和「日常信息量」之所以會(huì)不同,原因是「香農(nóng)信息」和「日常信息」是不同的,因此它們的「量」的計(jì)算方式也是不同的,也就是存在兩種數(shù)學(xué)性質(zhì)不同的「量」,盡管它們都被稱為「信息量」。
即同一個(gè)物體,它作為一個(gè)整體不可以被分割,但存在兩個(gè)不同的數(shù)學(xué)公式一個(gè)是「香農(nóng)公式」另一個(gè)是「日常公式」,用這兩個(gè)不同的數(shù)學(xué)公式可以對同一個(gè)物體求得兩個(gè)不同的結(jié)果,這兩個(gè)不同的結(jié)果看上去恰好是相反的,因此會(huì)和我們的直覺相違背。
「補(bǔ)丁2」的邏輯便是,既然這兩種信息量的大小總是無法一致,那就說明了同一信息中存在著兩種完全不同的「信息量」。
即香農(nóng)信息論中的「香農(nóng)信息量」和我們生活中使用的「日常信息量」是完全不同的兩個(gè)東西,雖然都被叫做「信息量」。
在研究通信原理和進(jìn)行工程實(shí)踐時(shí),人們選擇使用「香農(nóng)信息量」的概念去進(jìn)行計(jì)算和推演,它是管用的。
而回到日常生活中時(shí),他們便重新使用回那個(gè)約定俗成的「日常信息量」的概念,它符合直覺。
大部分學(xué)習(xí)信息論的人都持有這樣的觀點(diǎn),地將學(xué)術(shù)和日常分隔開。
他們認(rèn)為香農(nóng)信息論中的「香農(nóng)信息量」和我們?nèi)粘I钪惺褂玫哪莻€(gè)「日常信息量」是完全不同的,企圖將它們調(diào)和在一起是白費(fèi)力氣、無用的。
不過也有一部分人認(rèn)真地思考過這個(gè)問題,但受限于各種原因沒有得出有效的結(jié)論,于是最后選擇妥協(xié)采取了「補(bǔ)丁2」。
HW君所尊敬的哲學(xué)家丹尼爾·丹尼特(Daniel C. Dennett)在其2017年的著作
《From Bacteria to Bach and Back:The Evolution of Minds》第六章談到信息時(shí),就認(rèn)為「香農(nóng)信息」和我們?nèi)粘I钪惺褂玫男畔⒏拍畈煌つ崽胤Q我們?nèi)粘I钪惺褂玫男畔椤?strong>語義信息」(semantic information)。
他認(rèn)為一條信息既有其「香農(nóng)信息」也有其「語義信息」,并認(rèn)為我們目前對于「語義信息」概念的了解所知甚少。
連丹尼特都無法對「信息」進(jìn)行合理詮釋,可見這個(gè)思維翻轉(zhuǎn)的難度之大。
而從結(jié)果上看,「補(bǔ)丁2」的思路是優(yōu)于「補(bǔ)丁1」的。
因?yàn)椤?strong>補(bǔ)丁1」在邏輯上是不自洽的,而「補(bǔ)丁2」在邏輯上是自洽的。
但「補(bǔ)丁2」要求存在著兩個(gè)獨(dú)立的數(shù)學(xué)體系,一個(gè)用來解釋「香農(nóng)信息量」,另一個(gè)用來解釋「日常信息量」。
兩者并不兼容,也無法統(tǒng)一,但是又似乎剛好呈現(xiàn)出一種負(fù)相關(guān)的關(guān)系。
雖然「補(bǔ)丁2」遵循實(shí)用主義原則認(rèn)為這兩種信息是不同的,但它沒有辦法解釋這兩種信息為什么是不同的。
那么存不存在著一個(gè)更優(yōu)的「補(bǔ)丁3」:
這個(gè)「補(bǔ)丁3」即是邏輯自洽的,避免犯類似「補(bǔ)丁1」的錯(cuò)誤。
又可以用同一個(gè)數(shù)學(xué)體系來統(tǒng)一描述「香農(nóng)信息量」和「日常信息量」,并詮釋為什么公式的計(jì)算結(jié)果和我們的直觀感受相反。
這樣的一個(gè)「補(bǔ)丁3」顯然會(huì)比「補(bǔ)丁2」要更加符合「奧卡姆剃刀原則」。
HW君的「信息哲學(xué)」系列文章,就是嘗試給出這樣的一個(gè)「補(bǔ)丁3」。
本文是此系列的第一篇,我們介紹了「信息論」的一個(gè)重大的混淆。
這個(gè)混淆給人們帶來了非常違背日常生活直觀感受的矛盾。
而針對這個(gè)矛盾,人們又發(fā)展出了一些補(bǔ)丁,試圖調(diào)和這些矛盾。
但在HW君看來,這些補(bǔ)丁各有各的問題。
受限于篇幅,如何重新對「信息」進(jìn)行哲學(xué)詮釋,會(huì)放到下一期文章里詳細(xì)展開。
下一期文章,HW君將會(huì)嘗試回答這兩個(gè)問題:
(1)「信息是熵」和「信息是負(fù)熵」的說法誰對誰錯(cuò)。
(2)為什么「公式算出的香農(nóng)信息量」和「直觀感受到的日常信息量」,兩者大小是矛盾的。
歷史上,維納和香農(nóng)幾乎在同一時(shí)期推導(dǎo)出了信息量公式。
維納推導(dǎo)信息量公式是為了分析直流電路。
而香農(nóng)推導(dǎo)的信息量公式在理論上會(huì)顯得更純粹和普適。
我們先看香農(nóng)在1948年的《通信的數(shù)學(xué)原理》(A Mathematical Theory of Communication)論文的第6章(左)和附錄2(右):
香農(nóng)先假定了有一個(gè)事件集合,這些事件發(fā)生的概率為:
這些事件發(fā)生的概率是已知的,但究竟會(huì)發(fā)生什么,我們是不確定的。
然后我們用一個(gè)量H來度量這種不確定性,H是關(guān)于概率pi的函數(shù),H反應(yīng)了事件的不確定程度。
那么香農(nóng)接著推論這個(gè)H需要滿足這樣的3個(gè)條件:
條件(1)H應(yīng)當(dāng)關(guān)于pi連續(xù)。
這里的「連續(xù)」是指對于所有的pi,都能找到一個(gè)與之對應(yīng)的H,不會(huì)存在斷點(diǎn)。
即在規(guī)定的體系內(nèi),所有的概率為pi的事件都必然會(huì)帶來不確定程度H的改變。
即便是完全確定的概率pi=1,也會(huì)給系統(tǒng)增加大小為0的不確定程度。
不存在「在pi處沒有H」的情況。
條件(2)如果所有pi都相等,即pi=1/n,則H應(yīng)當(dāng)是n的單調(diào)增函數(shù)。如果事件的可能性相等,那可能事件越多,選擇或者說不確定性也更多。
這里講的是等概率事件的信息量變化。
這和我們在文章第2小節(jié)的拋硬幣事件X和拋骰子事件Y的例子類似。
一枚均勻正反面的硬幣,拋得正面的概率和反面的相等,為1/2。
一顆均勻六面的骰子,拋得各個(gè)面的概率相等,為1/6。
因?yàn)閽侘蛔拥目赡苁录蕉?,所?strong>不確定程度越高。
因此H應(yīng)當(dāng)是n的單調(diào)增函數(shù)。
條件(3)如果一項(xiàng)選擇被分解為兩個(gè)連續(xù)選擇,則原來的H應(yīng)當(dāng)是各個(gè)H值的加權(quán)和。
香農(nóng)用了一張圖來說明這個(gè)性質(zhì):
這里我們舉一個(gè)更直觀的例子。
假設(shè)有兩個(gè)黑箱子,第一個(gè)黑箱子里有AB兩個(gè)小球,第二個(gè)黑箱子里有xyz三個(gè)小球。
HW君在同一時(shí)刻伸手在兩個(gè)箱子里各摸1個(gè)小球,那么摸到的結(jié)果組合起來可能會(huì)有6種情況:
Ax、Ay、Az、Bx、By、Bz
這6種情況發(fā)生的概率是相等的,都是1/6。
當(dāng)然這里我們?yōu)樗鼧?gòu)造3個(gè)事件,以展示不同的概率。
事件1:摸到Ax或Ay或Az
事件2:摸到Bx或By
事件3:摸到Bz
那么很顯然可以得到:
p1=1/2
p2=1/3
p3=1/6
現(xiàn)在HW君不再是同一時(shí)刻摸球了,而是將摸球的動(dòng)作分解為兩個(gè)連續(xù)的動(dòng)作。
先從裝AB小球的黑箱子的摸一個(gè),再從裝xyz小球的黑箱子里又摸一個(gè)。
我們單獨(dú)看第一次動(dòng)作,它會(huì)產(chǎn)生兩種情況,可能摸到A或者B,概率為1/2。
事件a:摸到A
事件b:摸到B
事件的概率為:
pa=1/2
pb=1/2
而單獨(dú)看第二次動(dòng)作,它會(huì)產(chǎn)生三種情況,可能摸到x或y或z,概率各自為1/3。
我們同樣構(gòu)造一些事件:
事件m:摸到x或y
事件n:摸到z
則事件的概率為:
pm=2/3
pn=1/3
如果我們比較同時(shí)摸和分開摸的概率,就可以得到:
p1=pa=1/2
p2=pb*pn=1/3
p3=pb*pm=1/6
這里其實(shí)是在說明一個(gè)非常簡單甚至都不需要明說的情況:
「同一時(shí)刻摸兩個(gè)小球」和「分成兩次連續(xù)摸,每次摸一個(gè)小球」這兩個(gè)情況我們面對的概率是相同的,也即是這兩種情況我們面對的不確定程度是相同的。
因此:
一個(gè)整體事件面對的不確定性H,會(huì)是各個(gè)子事件的H的加權(quán)和。
用H來表示上面的例子,即為:
而滿足條件(1)(2)(3)的H具有這樣的形式:
其中k是一個(gè)正的常數(shù)。
我們可以將k取1,即得到香農(nóng)信息量公式:
然后香農(nóng)將這個(gè)量H稱為「熵」。
香農(nóng)還在附錄2里進(jìn)行更加詳細(xì)地推論為何滿足條件(1)(2)(3)的H一定是上面的這個(gè)形式。
這部分比較復(fù)雜,這里不詳細(xì)展開,有興趣的朋友可以自己查閱。
我們再來看一下維納《控制論》中第三章對于信息量公式的推導(dǎo):
維納的信息量公式推導(dǎo)的難點(diǎn)在于二進(jìn)制和十進(jìn)制之間的切換,清楚這一點(diǎn)后比較好理解。
并且我們會(huì)很容易發(fā)現(xiàn)維納在中途沒有充分的理由便地丟掉了負(fù)號(hào),并提出負(fù)熵的概念。
對于「如何測量信息量」,維納從一個(gè)最簡單的拋硬幣事件開始構(gòu)想。
拋一枚均勻正反面硬幣,要么是正面,要么是反面。
我們可以用0表示正面,1表示反面。
那么可以認(rèn)為最簡單的拋一次硬幣產(chǎn)生的信息量為1個(gè)單位。
構(gòu)造一個(gè)無窮二進(jìn)制小數(shù),用來表示拋無限次硬幣的過程:
這里的每個(gè)an代表該二進(jìn)制小數(shù)的第n位小數(shù),數(shù)值是0或者1。
如果用十進(jìn)制的a來表示這個(gè)無窮二進(jìn)制小數(shù),則可得:
那么十進(jìn)制數(shù)a的取值范圍是0到1。
這些構(gòu)造出來的數(shù)是為后面的場景服務(wù)。
然后維納構(gòu)建了一個(gè)使用這些數(shù)的場景。
假設(shè)數(shù)軸上有個(gè)從0到1的區(qū)間,表示事件的所有可能性。
然后有一個(gè)數(shù)隨機(jī)均勻地落到這個(gè)0到1的區(qū)間上,表示隨機(jī)事件的發(fā)生。
我們要怎么去測量這個(gè)數(shù)的值是多少?
最簡單的測量方法就是二分法,也就是拋硬幣:
首先確定這個(gè)數(shù)是否比1/2大,這是第一次判斷;
然后再確定這個(gè)數(shù)是否比1/4或3/4大,這是第二次判斷;
......
這樣的二分法判斷可以進(jìn)行無限次,以不斷逼近那個(gè)數(shù)值。
在這個(gè)過程中,我們每測量一次,就是做一次選擇(拋一次硬幣),產(chǎn)生1單位信息量。
那么上面構(gòu)造的無窮二進(jìn)制小數(shù):
可以用來描述我們進(jìn)行測量的全部過程。
而實(shí)際情況中,任何測量都是不完全精確的,我們假設(shè)這個(gè)測量過程中存在誤差。
那么可以再構(gòu)建另一個(gè)無窮二進(jìn)制小數(shù)來描述這個(gè)誤差:
其中bn代表這個(gè)二進(jìn)制小數(shù)的第n位數(shù),其值是0或1。
而bk的值為1,在bk之前的所有值都為0。
同樣,用十進(jìn)制的b來表示這個(gè)二進(jìn)制小數(shù),則可得:
綜合起來,隨機(jī)均勻落在0到1區(qū)間的那個(gè)數(shù)我們用a表示,而測量的誤差是b。
也就是實(shí)際測量時(shí),測得的數(shù)為(a+b)。
因?yàn)閺腷1到bk-1都是0,所以a1到ak-1都是精確的,
而從第k位開始產(chǎn)生誤差,后面的測量就都是沒有意義的。
也就是,為了測量a值,我們進(jìn)行了k次有意義的二分測量(拋了k次硬幣)。
前面說了,每一次測量產(chǎn)生1單位信息量,那么k次測量產(chǎn)生k單位信息量。
那么求事件的信息量,就是要求這個(gè)k值。
如何求這個(gè)k值呢?
我們對誤差b進(jìn)行操作,可以得:
以及:
綜上得到:
所以我們可以用-log2b來表示k值。
這里維納的原話是:
The number of decisions made is certainly not far from
-log2.b1b2...bn...
and we shall take this quantity as the precise formula for the amount of information and its definition.
所做決定的數(shù)目當(dāng)然接近于
-log2.b1b2...bn...
我們將取這個(gè)量作為信息量的精確公式和它的定義。
注意,此時(shí)維納的信息量公式里是有負(fù)號(hào)的。
事實(shí)上,維納推導(dǎo)出的這個(gè)信息量公式就是香農(nóng)信息論中的自信息。
然后,維納定義事件發(fā)生后增加的信息量為:
這里「(0,1)的測度」就是1,而「(a,b)的測度」就是b。
所以其結(jié)果仍然是-log2b。
到這一步,維納的公式里還是有負(fù)號(hào)的。
后面接著的是將連續(xù)分布的概率乘上其信息量,再對其進(jìn)行積分,思路其實(shí)和香農(nóng)信息公式中的「加權(quán)和」相似,這里不作展開。
但是奇怪的事情發(fā)生了,到了公式(3.05)的時(shí)候,「log」前的負(fù)號(hào)被去掉了:
并且在去掉負(fù)號(hào)之后,維納將這個(gè)信息量解釋為熵的負(fù)數(shù)。
維納當(dāng)時(shí)的想法已經(jīng)無從得知。
但HW君猜測,維納覺得求得的這個(gè)量,它度量的是「不確定性」,這個(gè)量越大越不確定。
而我們在日常生活中的感受是:
信息具有確定性,可以消除不確定性。
不確定程度越小,信息量越大。
于是他將那個(gè)量取負(fù)值,以符合日常生活的直覺,然后提出「負(fù)熵」的概念。
維納的原話是:
The quantity we here define as amount of information is the negative of the quantity usually defined as entropy in similar situations.
這里我們定義為信息量的量,是在類似情況下通常定義為熵的那個(gè)量的負(fù)數(shù)。
在HW君看來,維納去掉負(fù)號(hào)的做法是考慮欠佳的。
面對同樣的公式,香農(nóng)選擇相信公式,而維納選擇相信直覺。
但是香農(nóng)對于公式的詮釋,就是正確的嗎?
(本章節(jié)完,盡請期待下一節(jié))
By HW君 @ 2021-04-27
聯(lián)系客服