国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
信息哲學(xué) | #1 信息是熵還是負(fù)熵?

本文目錄:

    0. 一個(gè)被忽視的負(fù)號(hào)
    1. 香農(nóng)的兩個(gè)思維翻轉(zhuǎn)
    2. 信息與不確定性
    3. 違反日常感受的信息量
    4. 調(diào)和矛盾的補(bǔ)丁

            4.1 補(bǔ)丁1:已知與未知
            4.2 補(bǔ)丁2:不同的概念
            4.3 更優(yōu)的補(bǔ)丁3

    5. 附錄:香農(nóng)與維納的信息量推導(dǎo)



0. 一個(gè)被忽視的負(fù)號(hào)

這是一個(gè)新的系列「信息哲學(xué)」。

距離《邏輯 | 我向你發(fā)送了一條負(fù)信息》一文發(fā)布已經(jīng)過去將近半年,在那篇文章里HW君留下了許多懸而未決的疑問。

這半年來HW君久久無法釋懷,一直在對「信息」和「」的概念進(jìn)行重新思考。

對這些底層基礎(chǔ)概念的重新理解,重塑了HW君的整個(gè)觀念體系,也導(dǎo)致了以前的許多文章都需要重寫。

總的來說,HW君并沒有「完全想明白」,但也是時(shí)候開始著手去做點(diǎn)什么了。

在還沒準(zhǔn)備好的情況下寫作「信息哲學(xué)」這個(gè)系列,算是為自己梳理長久以來的思路。

在這個(gè)過程中,一些原有的觀念發(fā)生改變,一些原本混亂的模糊得到解答,但更多的時(shí)候仍然是直面自己的無知。

1948年,香農(nóng)(Claude Shannon)的《通信的數(shù)學(xué)原理》(A Mathematical Theory of Communication)橫空出世,開啟了今日波瀾壯闊的信息時(shí)代。

隨之而來的,還有對于「信息」這一概念的巨大混淆。

互聯(lián)網(wǎng)上存在著這樣的兩種爭論:

(1)信息是熵。

(2)信息是負(fù)熵。

香農(nóng)本人的觀點(diǎn)是「信息是熵」。

而最早提出「信息是負(fù)熵」的應(yīng)該是維納(Norbert Wiener)。

維納是另一位和香農(nóng)幾乎在同一時(shí)期對「信息」進(jìn)行理論構(gòu)建的大師。

維納曾在麻省理工學(xué)院教過香農(nóng),給了香農(nóng)許多啟發(fā)。

維納在其集大成著作《控制論》一書中,通過分析直流電路來研究「信息」,從而推導(dǎo)出信息論的部分理論基礎(chǔ)。

維納和香農(nóng)的信息量公式,從形式上看只差了一個(gè)負(fù)號(hào)。

基于這個(gè)負(fù)號(hào)的差別,香農(nóng)認(rèn)為「信息是熵」,而維納認(rèn)為「信息是負(fù)熵」。

由此開啟了信息論歷史上最大的混淆。

許多人選擇忽視這個(gè)負(fù)號(hào),包括香農(nóng)自己也覺得這只是「數(shù)學(xué)上的文字游戲」(mathematical pun),認(rèn)為其無關(guān)緊要。

但這其中細(xì)微之處造成的混亂一直延續(xù)到了今天。

于是就出現(xiàn)了詭異的一幕。

在香農(nóng)信息論領(lǐng)域里,學(xué)術(shù)界持有類似香農(nóng)的觀點(diǎn):

信息具有不確定性。

不確定程度越大,信息量越大。

信息是熵。

但在將信息與日常生活關(guān)聯(lián)、進(jìn)行詮釋的時(shí)候,人們又不約而同轉(zhuǎn)向維納的看法:

信息具有確定性,可以消除不確定性。

不確定程度越小,信息量越大。

信息是負(fù)熵。

這是兩種截然相反的表述,竟可以共存于同一個(gè)清醒的頭腦之中。

今天有無數(shù)的人學(xué)習(xí)過或正在學(xué)習(xí)信息論,但卻很少有人會(huì)覺得這里面有所不妥。

這完全是兩種矛盾對立的觀點(diǎn),人們?nèi)魺o其事選擇忽略這種沖突,以至于產(chǎn)生了如此嚴(yán)重的「燈下黑」。

歷史上,香農(nóng)在其書信和報(bào)告中,說法都是「信息是熵」。

第一個(gè)提出「信息是負(fù)熵」觀點(diǎn)的是維納,而這個(gè)觀點(diǎn)也被更廣泛接受,因?yàn)樗现庇X。

但如果我們翻看維納《控制論》中對于「信息量」公式的推導(dǎo),就會(huì)發(fā)現(xiàn)公式一開始是有負(fù)號(hào)的,只是維納為了讓公式符合直覺中途丟掉了負(fù)號(hào)而已。

在本文結(jié)尾的附錄里,HW君會(huì)說明維納是如何丟掉這個(gè)負(fù)號(hào)的。

這個(gè)負(fù)號(hào)并不會(huì)影響工程師們對香農(nóng)信息量公式的應(yīng)用,其帶來的理解上的細(xì)微差異并不會(huì)妨礙人們構(gòu)建起今日波瀾壯闊的信息時(shí)代。

但對這個(gè)負(fù)號(hào)的認(rèn)識(shí)會(huì)影響到我們對這個(gè)世界的看法,影響到我們對于信息的哲學(xué)詮釋。

而我們這個(gè)「信息哲學(xué)」系列文章,就是從這個(gè)被忽視的負(fù)號(hào)開始。

這個(gè)系列的文章會(huì)分為幾期,圍繞著「信息」與「」的話題進(jìn)行展開。

本文我們先會(huì)復(fù)盤這個(gè)混淆是怎么產(chǎn)生的。

下一期文章則嘗試給出一個(gè)解釋這種混淆的詮釋。

1. 香農(nóng)的兩個(gè)思維翻轉(zhuǎn)

1940年代,正值第二次世界大戰(zhàn)之際,在貝爾實(shí)驗(yàn)室?guī)椭儡娖平饷艽a的日子里,香農(nóng)面對的問題是如何從一些雜亂無章的符文密碼中解讀出正確文本。

當(dāng)時(shí)貝爾實(shí)驗(yàn)室的密碼工程師們普遍都需要操心聲音、電流、波形等具體事物,但香農(nóng)把「信息」從具體的物理世界剝離出來,為它建立了一套純數(shù)學(xué)的理論。

香農(nóng)構(gòu)建出一整套代數(shù)方法、定理和證明,使得可以對「信息」進(jìn)行更謹(jǐn)慎的研究。

這套方法需要人們對以往的思維模式進(jìn)行徹底的翻轉(zhuǎn)。

于是香農(nóng)拋出的第一個(gè)「思維翻轉(zhuǎn)」便是:

信息就是信息,而不是物質(zhì)或者能量。

當(dāng)然上述這句話其實(shí)是維納說的,維納給了香農(nóng)很多啟發(fā)。

那些戰(zhàn)爭中各式各樣的加密通信活動(dòng),無論是信件、聲音、廣播、電報(bào)、電話......其通信的形式可以多種多樣,但內(nèi)核都是相同的。

所以要對「信息」進(jìn)行更深入理解,發(fā)現(xiàn)其隱藏的模式,就需要掃除這些包裹在「信息」外層的不同形式。

假設(shè)HW君發(fā)送了一串只有0和1的二進(jìn)制數(shù)字給你,它是「1101」。

那么這串二進(jìn)制數(shù)字「1101」可以被稱為「信息」。

同樣的「0」和「101101」也都可以被稱為信息。

不局限于二進(jìn)制,十進(jìn)制的「2021」也可以被稱為信息。

并且不局限于數(shù)字,一串字母「GoneMmeme」也可以被稱為信息。

當(dāng)然,單個(gè)字母「H」或者「W」也可以稱為信息。

更進(jìn)一步,一個(gè)或一串漢字「消失的模因」也可以被稱為信息。

一幅圖像或者一段聲音也可以被稱為信息。

......

這樣的對于信息的理解符合我們的直觀感受。

信息」是一些可以傳遞某些意義的符號(hào)或者標(biāo)記,它可以擁有不同的物理形式。

如果我們拋開蘊(yùn)含在「信息」中的意義不談,那么信息就只是某些特定的物質(zhì)。

例如紙張上特定路徑的墨水、屏幕發(fā)出特定顏色組合的光、具有某個(gè)特征的聲波、計(jì)算機(jī)電路狀態(tài)的通和斷......

而維持這些特定形式的物質(zhì),常常需要消耗能量。

所以即便我們認(rèn)為「信息不是物質(zhì)和能量」,也仍然可以斷言:

信息的存在依賴物質(zhì)能量。

但我們關(guān)注的并不是物質(zhì)能量,而是信息,以及信息背后所能傳遞的意義。

后來香農(nóng)證明了,世界上的所有信息的確都遵循著同一套數(shù)學(xué)規(guī)則,無論它們的物理形式是什么樣的。

這種「思維翻轉(zhuǎn)」讓今日互聯(lián)網(wǎng)的存在有了理論基礎(chǔ)。

于是無論是聲音、圖像、文字......它們都可以依靠香農(nóng)的數(shù)學(xué)規(guī)則轉(zhuǎn)變并儲(chǔ)存為一份二進(jìn)制文件,透過電信號(hào)在網(wǎng)絡(luò)中傳播。

而隨后香農(nóng)還拋出了第二個(gè)更加違反直覺感受的「思維翻轉(zhuǎn)」:

通信和「意義」無關(guān),而和「不確定性」有關(guān)。

在當(dāng)時(shí)協(xié)助美軍的大多數(shù)密碼工程師看來,通信的基本問題是使自己的意圖被接收的人理解,從而傳遞「意義」。

但在香農(nóng)看來,通信的基本問題是「如何在一點(diǎn)精確地復(fù)現(xiàn)出另一點(diǎn)的消息」。

這個(gè)問題和「意義」無關(guān),而和「不確定性」有關(guān)。

這樣的思維翻轉(zhuǎn)重新界定了通信工程的工作范圍。

即一個(gè)通信工程師根本不需要關(guān)心A想向B發(fā)送的消息有什么意義,他只需要將A的消息精確地復(fù)現(xiàn)給B,而不必理解其意義。

香農(nóng)的這個(gè)思維翻轉(zhuǎn)與香農(nóng)的工作經(jīng)歷有關(guān)。

在協(xié)助美軍破解密碼的日子里,香農(nóng)經(jīng)常要面對一串看上去毫無意義的數(shù)據(jù)流,然后從中找出真正的信號(hào)。

在這個(gè)過程中,香農(nóng)發(fā)現(xiàn)其實(shí)并不太需要去關(guān)心這些密碼真正的意義是什么,他要做的只是統(tǒng)計(jì)每個(gè)字符出現(xiàn)的概率并進(jìn)行猜測。

一份看上去像是隨機(jī)亂碼的字符數(shù)據(jù)流,我們可以通過大量地統(tǒng)計(jì)發(fā)現(xiàn)它隱藏的普遍模式:

(1)英語中e和t出現(xiàn)的頻率比較大,而z和j的頻率比較小。

(2)最常出現(xiàn)的雙字母組合是th,大概每一千個(gè)單詞出現(xiàn)168次,緊隨其后的是he、an、re和er,還有一些雙字母組合的出現(xiàn)頻率為零。

(3)緊跟在q后面的字母u是冗余,去掉后沒有影響。

(4)在單詞an后面,以輔音字母開頭的單詞出現(xiàn)的概率極小。

(5)假如一個(gè)字母以u結(jié)尾,那么這個(gè)單詞是you的概率極大。

(6)連續(xù)出現(xiàn)兩個(gè)相同字符時(shí),它們通常會(huì)是ll、ee、ss或oo。

......

應(yīng)用這種純粹數(shù)學(xué)統(tǒng)計(jì)的結(jié)果便是,香農(nóng)可以在完全不理會(huì)一份密碼想傳達(dá)的意義是什么的情況下,靠統(tǒng)計(jì)學(xué)猜出密碼的真正內(nèi)容。

這個(gè)思維翻轉(zhuǎn)使得香農(nóng)從頭開始思考「信息」具有什么樣的性質(zhì)。

而香農(nóng)最后給出的回答是:

信息具有不確定性。

不確定程度越大,信息量越大。

信息是熵。

2. 信息與不確定性

香農(nóng)是如何得出這個(gè)結(jié)論的呢?

我們看這樣的一個(gè)最簡單的事件X:

(X)拋一枚均勻正反面的硬幣。

其結(jié)果只有兩種,要么「正面朝上」,我們記為1;

要么「背面朝上」,我們記為2。

所以這個(gè)拋硬幣的事件X有2種不確定的可能性結(jié)果,各自的概率都是1/2:

再看這樣一個(gè)稍微復(fù)雜一點(diǎn)的事件Y:

(Y)拋一顆均勻六面的骰子。

其結(jié)果有六種,骰子點(diǎn)數(shù)可以是從1到6,我們同樣將結(jié)果順序標(biāo)記為1到6。

即這個(gè)拋骰子的事件Y有六種不確定的可能性結(jié)果,從1到6,各自的概率是1/6:

現(xiàn)在我們比較事件X和事件Y的不確定性,哪個(gè)事件的「不確定程度」更大一點(diǎn)?

直觀感受顯然是事件Y的不確定程度更大,因?yàn)樗?種可能。

那么可不可以對這種「不確定程度」用數(shù)學(xué)公式進(jìn)行量化?

當(dāng)然是可以的。

香農(nóng)通過一系列嚴(yán)謹(jǐn)?shù)耐茖?dǎo),最后給出了的量化這種不確定性香農(nóng)信息公式

這個(gè)H就是當(dāng)今香農(nóng)信息論學(xué)術(shù)意義上的/ 信息熵/ 香農(nóng)熵/ 信息量,單位是比特bit。

本文末尾的附錄里,HW君會(huì)對這個(gè)公式進(jìn)行詳細(xì)分析。

這里我們簡單地將上面拋硬幣的事件X和拋骰子的事件Y代入信息公式里。

得到拋硬幣的事件X的信息量是1bit:

拋骰子的事件Y的信息量是log26,約為2.6bit:

即可以得到 H(Y)>H(X)。

于是結(jié)論是,事件Y的信息量比事件X的大,也就是事件Y比事件X擁有更多的不確定性。

即拋骰子事件Y的比拋硬幣事件X的大。

而這個(gè)計(jì)算結(jié)果的出發(fā)點(diǎn)是:

信息具有不確定性。

不確定程度越大,信息量越大。

信息是熵。

上述這3個(gè)命題便是香農(nóng)對于香農(nóng)信息公式的詮釋結(jié)果。

但這樣的詮釋是非常違反直覺的。

現(xiàn)實(shí)中對種觀點(diǎn)也存在著非常多的爭論。

例如維納就認(rèn)為「信息是負(fù)熵」,其詮釋為:

信息具有確定性,可以消除不確定性。

不確定程度越小,信息量越大。

信息是負(fù)熵。

維納的這種詮釋是非常符合直覺的。

而薛定諤在1944年出版的著作《生命是什么》(香農(nóng)到1948年才發(fā)表《通信的數(shù)學(xué)原理》)中也表述過「生命以負(fù)熵為生」。

雖然后來薛定諤在修訂版本中將此表述更換為「生命以自由能為生」。

所以如果讓薛定諤來描述信息的性質(zhì),HW君猜測薛定諤應(yīng)該會(huì)贊同維納的觀點(diǎn)。

對于「信息是熵」和「信息是負(fù)熵」的說法誰對誰錯(cuò)、存在著什么問題,我們這里暫時(shí)先擱置爭論,放在這個(gè)系列的下期文章中詳細(xì)解答。

本文我們先復(fù)盤一下為什么人們會(huì)在這個(gè)問題上產(chǎn)生完全相反的分歧,以便更好地理解整個(gè)事情的脈絡(luò)。

3. 違反日常感受的信息量

許多人并沒有意識(shí)到香農(nóng)于「信息」的理解和詮釋跟我們?nèi)粘I钪械母惺芙厝徊煌?br>

我們使用上面的拋硬幣事件作為例子,并給它增加一個(gè)更加具體的生活化場景。

假設(shè)A君拋出一枚均勻正反面的硬幣,拋完后A君能看到結(jié)果。

而B君背對著A君,即B君看不到拋硬幣的結(jié)果。

然后,A和B各自表述自己目前的情況:

A:拋硬幣的結(jié)果是「正面向上」。

B:我不知道拋硬幣的結(jié)果。

那么問題來了,A和B兩個(gè)人誰說的話「信息量」大。

根據(jù)香農(nóng)的信息量公式,A說了一個(gè)確定的事件,事件發(fā)生的概率是1,其「不確定程度」為0,所以信息量為0bit:

而B說了一個(gè)不確定的事情,正面和反面的概率都為1/2,其「不確定程度」為1,即信息量為1bit:

所以 H(B)>H(A),即B說的話「信息量」比較大。

更加準(zhǔn)確來說,A說的話「信息量」為0,即完全沒有信息量。

而這與我們?nèi)粘I畹闹庇^感受完全違背。

明明A說了更多的內(nèi)容,B什么都沒有說,怎么計(jì)算的結(jié)果是B的信息量比A大。

如果這還不夠直觀,我們可以假設(shè)連續(xù)拋硬幣10次,同樣A清楚全部的結(jié)果,而B完全不清楚。

那么產(chǎn)生如下的表述:

A:拋硬幣的結(jié)果是「正反反正正正反正反反」。

B:我不知道拋硬幣的結(jié)果。

在這種情況下,我們計(jì)算得到A表述的信息量為0,B表述的信息量為10bit。

于是當(dāng)B不知道的事情更多時(shí),計(jì)算出來的信息量還更大了。

在日常生活中,我們經(jīng)常說某個(gè)人說話言簡意賅,字字珠璣命中要害,會(huì)被形容為「信息量很大」。

而另外一個(gè)人口若懸河,但是廢話連篇,沒有營養(yǎng),說了很多但給人感覺什么都沒有說,即「信息量很小」。

但在香農(nóng)信息論的世界里,情況卻是反過來的。

在上面拋硬幣的事件里,A完整地描述了硬幣拋得的情況,但其信息量卻是0;

而B什么都說不出來,但其信息量卻要比A遠(yuǎn)大得多。

并且B越不確定,信息量反而越大。

信息量公式的這種對現(xiàn)實(shí)生活直觀感受的違背也影響到了維納。

維納在推導(dǎo)信息量公式時(shí),按照日常生活直覺認(rèn)為「信息具有確定性,能夠消除不確定性」,所以他在信息量公式的推導(dǎo)過程中丟棄了負(fù)號(hào),并提出「負(fù)熵」的概念,試圖讓公式更加符合直覺。

這樣的結(jié)果就是,出現(xiàn)了兩種對于信息的詮釋,它們之間是互相矛盾的。

而產(chǎn)生這種矛盾的原因可能有下列3種情況:

(1)香農(nóng)信息公式是錯(cuò)誤的。

情況(1)的概率是最小的,因?yàn)?strong>香農(nóng)信息公式已經(jīng)被反復(fù)證明是成立的。

人們對香農(nóng)信息量公式的應(yīng)用取得了令人矚目的成就,難道這些成就都是建立在錯(cuò)誤的地基上的?

今日這個(gè)波瀾壯闊的信息時(shí)代正是香農(nóng)信息量公式正確性的最好辯護(hù)。

(2)維納的詮釋是錯(cuò)誤的,即人們的直覺是錯(cuò)誤的。

情況(2)說明了我們的直覺是不靠譜的,此類情況在歷史上已經(jīng)發(fā)生多次。

例如地球不是平的而是一個(gè)球,太陽不繞地球轉(zhuǎn)而是地球繞太陽轉(zhuǎn)。

如果是這種情況,那么我們應(yīng)該調(diào)整自己的認(rèn)知去適應(yīng)公式,而不是讓修改公式適應(yīng)我們的直覺。

(3)香農(nóng)的詮釋是錯(cuò)誤的,不符合人們直覺。

情況(3) HW君:香農(nóng)只是個(gè)數(shù)學(xué)家,他根本就不懂香農(nóng)信息論。

4. 調(diào)和矛盾的補(bǔ)丁

并不是說只有HW君發(fā)現(xiàn)了這個(gè)問題。

相反,有非常多的人意識(shí)到了這種矛盾感。

為了方便討論,這里我們把日常生活中符合直覺的那個(gè)信息量概念稱為「日常信息量」,而把香農(nóng)詮釋的那個(gè)信息量稱為「香農(nóng)信息量」。

我們以拋一次硬幣的事件X作為例子。

拋一次枚均勻硬幣,A知道結(jié)果,B不知道結(jié)果,那么:

A:拋硬幣的結(jié)果是「正面向上」。

B:我不知道拋硬幣的結(jié)果。

那么B的香農(nóng)信息量為1bit,A的香農(nóng)信息量為0bit。

即可以表述為:

B的香農(nóng)信息量比A的香農(nóng)信息量大。

我們稱這個(gè)結(jié)論符合「信息的香農(nóng)詮釋」。

但我們?nèi)粘I畹闹庇X是,A的話信息量要比B的大,B的話一點(diǎn)信息量都沒有。

即可以表述為:

A的日常信息量比B的日常信息量大。

我們稱這個(gè)結(jié)論符合「信息的日常詮釋」。

也就說說,公式算得的「香農(nóng)信息量」和根據(jù)直覺感受到的「日常信息量」是矛盾的,對應(yīng)著兩種截然相反的詮釋。

在意識(shí)到矛盾之后,許多人試圖給出一些相應(yīng)的補(bǔ)丁,以彌合這種矛盾。

4.1 補(bǔ)丁1:已知與未知

最常見的補(bǔ)丁便是引入時(shí)間概念,把信息分成「已知信息」的和「未知信息」兩部分:

  • 補(bǔ)丁1已知與未知

日常信息量已知信息的信息量。

香農(nóng)信息量未知信息的信息量。

將這個(gè)「補(bǔ)丁1」代入事件X中,我們就可以對這種矛盾進(jìn)行重新調(diào)和:

A:

A的香農(nóng)信息量很小,因?yàn)锳沒有未知信息。

A的日常信息量很大,因?yàn)锳有很多已知信息。

B:

B的香農(nóng)信息量很大,因?yàn)锽有很多未知信息。

B的日常信息量很小,因?yàn)锽沒有已知信息

在打上了這個(gè)「補(bǔ)丁1」之后,一切就又好像「合理」了起來。

而類似詮釋方法,還有:

  • 補(bǔ)丁1.1輸入信息消除不確定性

香農(nóng)信息量:越不確定,需要輸入的信息量越大。

日常信息量:越不確定,已經(jīng)輸入的信息量越小。

以及

  • 補(bǔ)丁1.2正說和反說

香農(nóng)信息量:還能再說什么

日常信息量:已經(jīng)說了什么

不過在HW君看來,「補(bǔ)丁1.1」和「補(bǔ)丁1.2」都是同一類,是「補(bǔ)丁1」的馬甲。

它們都把信息分成了「已知信息」和「未知信息」的兩個(gè)部分。

實(shí)話實(shí)說,像「補(bǔ)丁1」這樣用時(shí)間來解釋矛盾的說法非常具有迷惑性,不仔細(xì)分析的話很難發(fā)現(xiàn)其中的問題。

假設(shè)這樣一個(gè)場景,A君連續(xù)拋硬幣4次。

這里用0表示正面,用1表示反面,*表示未知,現(xiàn)在拋4次硬幣的結(jié)果為「1101」。

那么按照「補(bǔ)丁1」的邏輯有:

在最初,A不知道拋硬幣的結(jié)果,那么A已知信息的信息量為0bit,未知信息的信息量為4bit,記為「****」。

當(dāng)A看到了第一枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「1***」。

當(dāng)A看到了第二枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「11**」。

當(dāng)A看到了第三枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「110*」。

當(dāng)A看到了第四枚硬幣的結(jié)果之后,那么A的已知信息的信息量變?yōu)?bit,未知信息的信息量就變?yōu)?bit,記為「1101」。

這樣的邏輯看上去是不是非常「合理」。

然而它只是看上去合理。

真相是什么?

補(bǔ)丁1」的問題出在哪里?

答案是,不存在這樣的一個(gè)信息量會(huì)發(fā)生變化的「已知信息」。

或者說,上面的所有已知信息信息量都應(yīng)該是0bit。

所謂「已知信息」的信息量,也就是「已知信息」的「不確定程度」。

但既然是已知的,那就是確定的,其不確定程度一定為0。

即按照「補(bǔ)丁1」的邏輯,其「日常信息量」都應(yīng)該一直恒為0bit,它不會(huì)有一個(gè)變大或者變小的過程。

同樣的,「補(bǔ)丁1.1」的「已輸入消息」和「補(bǔ)丁1.2」的「已經(jīng)說了什么」的部分的信息量,都恒為0bit。

到這里我們可以得到一個(gè)確定的結(jié)論:

所有已知的信息,沒有不確定性。

「已知的」就是「確定的」,所有確定的信息,沒有不確定性。

它是一個(gè)同義反復(fù),是個(gè)真命題。

因此類似「補(bǔ)丁1」的說法,在邏輯是不自洽的。

這個(gè)不自洽非常難被發(fā)現(xiàn)。

4.2 補(bǔ)丁2:不同的概念

其實(shí)相當(dāng)多的人意識(shí)到了「補(bǔ)丁1」的問題, 發(fā)現(xiàn)香農(nóng)信息論中的香農(nóng)信息量與我們生活里使用的日常信息量概念的矛盾無法調(diào)和。

這種情況下他們不再試圖彌合這種矛盾,而是否認(rèn)兩種信息概念本身是相同的。

這種思路即可以表述為:

補(bǔ)丁2香農(nóng)信息日常信息

補(bǔ)丁2」和「補(bǔ)丁1」的差異為:

補(bǔ)丁1」認(rèn)為,「香農(nóng)信息量」和「日常信息量」之所以會(huì)不同,原因是「香農(nóng)」(未知)和「日常」(已知)是不同的,而「信息量」是相同的,兩個(gè)概念共享一個(gè)數(shù)學(xué)性質(zhì)相同的「信息」。

即同一個(gè)物體,它可以被分為「香農(nóng)部分」和「日常部分」這兩個(gè)不同部分,對這兩個(gè)不同部分用同一個(gè)數(shù)學(xué)公式求得的「信息量」結(jié)果不同。

補(bǔ)丁2」認(rèn)為,「香農(nóng)信息量」和「日常信息量」之所以會(huì)不同,原因是「香農(nóng)信息」和「日常信息」是不同的,因此它們的「量」的計(jì)算方式也是不同的,也就是存在兩種數(shù)學(xué)性質(zhì)不同的「量」,盡管它們都被稱為「信息量」。

即同一個(gè)物體,它作為一個(gè)整體不可以被分割,但存在兩個(gè)不同的數(shù)學(xué)公式一個(gè)是「香農(nóng)公式」另一個(gè)是「日常公式」,用這兩個(gè)不同的數(shù)學(xué)公式可以對同一個(gè)物體求得兩個(gè)不同的結(jié)果,這兩個(gè)不同的結(jié)果看上去恰好是相反的,因此會(huì)和我們的直覺相違背。

補(bǔ)丁2」的邏輯便是,既然這兩種信息量的大小總是無法一致,那就說明了同一信息中存在著兩種完全不同的「信息量」。

香農(nóng)信息論中的「香農(nóng)信息量」和我們生活中使用的「日常信息量」是完全不同的兩個(gè)東西,雖然都被叫做「信息量」。

在研究通信原理和進(jìn)行工程實(shí)踐時(shí),人們選擇使用「香農(nóng)信息量」的概念去進(jìn)行計(jì)算和推演,它是管用的。

而回到日常生活中時(shí),他們便重新使用回那個(gè)約定俗成的「日常信息量」的概念,它符合直覺。

大部分學(xué)習(xí)信息論的人都持有這樣的觀點(diǎn),地將學(xué)術(shù)日常分隔開。

他們認(rèn)為香農(nóng)信息論中的「香農(nóng)信息量」和我們?nèi)粘I钪惺褂玫哪莻€(gè)「日常信息量」是完全不同的,企圖將它們調(diào)和在一起是白費(fèi)力氣、無用的。

不過也有一部分人認(rèn)真地思考過這個(gè)問題,但受限于各種原因沒有得出有效的結(jié)論,于是最后選擇妥協(xié)采取了「補(bǔ)丁2」。

HW君所尊敬的哲學(xué)家丹尼爾·丹尼特(Daniel C. Dennett)在其2017年的著作

《From Bacteria to Bach and Back:The Evolution of Minds》第六章談到信息時(shí),就認(rèn)為「香農(nóng)信息」和我們?nèi)粘I钪惺褂玫男畔⒏拍畈煌つ崽胤Q我們?nèi)粘I钪惺褂玫男畔椤?strong>語義信息」(semantic information)。

他認(rèn)為一條信息既有其「香農(nóng)信息」也有其「語義信息」,并認(rèn)為我們目前對于「語義信息」概念的了解所知甚少。

連丹尼特都無法對「信息」進(jìn)行合理詮釋,可見這個(gè)思維翻轉(zhuǎn)的難度之大。

4.3 更優(yōu)的補(bǔ)丁3

而從結(jié)果上看,「補(bǔ)丁2」的思路是優(yōu)于「補(bǔ)丁1」的。

因?yàn)椤?strong>補(bǔ)丁1」在邏輯上是不自洽的,而「補(bǔ)丁2」在邏輯上是自洽的。

但「補(bǔ)丁2」要求存在著兩個(gè)獨(dú)立的數(shù)學(xué)體系,一個(gè)用來解釋「香農(nóng)信息量」,另一個(gè)用來解釋「日常信息量」。

兩者并不兼容,也無法統(tǒng)一,但是又似乎剛好呈現(xiàn)出一種負(fù)相關(guān)的關(guān)系。

雖然「補(bǔ)丁2」遵循實(shí)用主義原則認(rèn)為這兩種信息是不同的,但它沒有辦法解釋這兩種信息為什么是不同的。

那么存不存在著一個(gè)更優(yōu)的「補(bǔ)丁3」:

這個(gè)「補(bǔ)丁3」即是邏輯自洽的,避免犯類似「補(bǔ)丁1」的錯(cuò)誤。

又可以用同一個(gè)數(shù)學(xué)體系來統(tǒng)一描述「香農(nóng)信息量」和「日常信息量」,并詮釋為什么公式的計(jì)算結(jié)果和我們的直觀感受相反。

這樣的一個(gè)「補(bǔ)丁3」顯然會(huì)比「補(bǔ)丁2」要更加符合「奧卡姆剃刀原則」。

HW君的「信息哲學(xué)」系列文章,就是嘗試給出這樣的一個(gè)「補(bǔ)丁3」。

本文是此系列的第一篇,我們介紹了「信息論」的一個(gè)重大的混淆。

這個(gè)混淆給人們帶來了非常違背日常生活直觀感受的矛盾。

而針對這個(gè)矛盾,人們又發(fā)展出了一些補(bǔ)丁,試圖調(diào)和這些矛盾。

但在HW君看來,這些補(bǔ)丁各有各的問題。

受限于篇幅,如何重新對「信息」進(jìn)行哲學(xué)詮釋,會(huì)放到下一期文章里詳細(xì)展開。

下一期文章,HW君將會(huì)嘗試回答這兩個(gè)問題:

(1)「信息是熵」和「信息是負(fù)熵」的說法誰對誰錯(cuò)。

(2)為什么「公式算出的香農(nóng)信息量」和「直觀感受到的日常信息量」,兩者大小是矛盾的。

5. 附錄:香農(nóng)與維納的信息量推導(dǎo)

歷史上,維納和香農(nóng)幾乎在同一時(shí)期推導(dǎo)出了信息量公式。

維納推導(dǎo)信息量公式是為了分析直流電路。

而香農(nóng)推導(dǎo)的信息量公式在理論上會(huì)顯得更純粹和普適。

我們先看香農(nóng)在1948年的《通信的數(shù)學(xué)原理》(A Mathematical Theory of Communication)論文的第6章(左)和附錄2(右):

香農(nóng)先假定了有一個(gè)事件集合,這些事件發(fā)生的概率為:

這些事件發(fā)生的概率是已知的,但究竟會(huì)發(fā)生什么,我們是不確定的。

然后我們用一個(gè)量H來度量這種不確定性,H是關(guān)于概率pi的函數(shù),H反應(yīng)了事件的不確定程度。

那么香農(nóng)接著推論這個(gè)H需要滿足這樣的3個(gè)條件

條件(1)H應(yīng)當(dāng)關(guān)于pi連續(xù)。

這里的「連續(xù)」是指對于所有的pi,都能找到一個(gè)與之對應(yīng)的H,不會(huì)存在斷點(diǎn)。

即在規(guī)定的體系內(nèi),所有的概率為pi的事件都必然會(huì)帶來不確定程度H的改變。

即便是完全確定的概率pi=1,也會(huì)給系統(tǒng)增加大小為0的不確定程度。

不存在「在pi處沒有H」的情況。

條件(2)如果所有pi都相等,即pi=1/n,則H應(yīng)當(dāng)是n的單調(diào)增函數(shù)。如果事件的可能性相等,那可能事件越多,選擇或者說不確定性也更多。

這里講的是等概率事件的信息量變化。

這和我們在文章第2小節(jié)的拋硬幣事件X和拋骰子事件Y的例子類似。

一枚均勻正反面的硬幣,拋得正面的概率和反面的相等,為1/2。

一顆均勻六面的骰子,拋得各個(gè)面的概率相等,為1/6。

因?yàn)閽侘蛔拥目赡苁录蕉?,所?strong>不確定程度越高。

因此H應(yīng)當(dāng)是n的單調(diào)增函數(shù)。

條件(3)如果一項(xiàng)選擇被分解為兩個(gè)連續(xù)選擇,則原來的H應(yīng)當(dāng)是各個(gè)H值的加權(quán)和。

香農(nóng)用了一張圖來說明這個(gè)性質(zhì):

這里我們舉一個(gè)更直觀的例子。

假設(shè)有兩個(gè)黑箱子,第一個(gè)黑箱子里有AB兩個(gè)小球,第二個(gè)黑箱子里有xyz三個(gè)小球。

HW君在同一時(shí)刻伸手在兩個(gè)箱子里各摸1個(gè)小球,那么摸到的結(jié)果組合起來可能會(huì)有6種情況:

Ax、Ay、Az、Bx、By、Bz

這6種情況發(fā)生的概率是相等的,都是1/6。

當(dāng)然這里我們?yōu)樗鼧?gòu)造3個(gè)事件,以展示不同的概率。

事件1:摸到Ax或Ay或Az

事件2:摸到Bx或By

事件3:摸到Bz

那么很顯然可以得到:

p1=1/2

p2=1/3

p3=1/6

現(xiàn)在HW君不再是同一時(shí)刻摸球了,而是將摸球的動(dòng)作分解為兩個(gè)連續(xù)的動(dòng)作。

先從裝AB小球的黑箱子的摸一個(gè),再從裝xyz小球的黑箱子里又摸一個(gè)。

我們單獨(dú)看第一次動(dòng)作,它會(huì)產(chǎn)生兩種情況,可能摸到A或者B,概率為1/2。

事件a摸到A

事件b摸到B

事件的概率為:

pa=1/2

pb=1/2

而單獨(dú)看第二次動(dòng)作,它會(huì)產(chǎn)生三種情況,可能摸到x或y或z,概率各自為1/3。

我們同樣構(gòu)造一些事件:

事件m:摸到x或y

事件n:摸到z

則事件的概率為:

pm=2/3

pn=1/3

如果我們比較同時(shí)摸和分開摸的概率,就可以得到:

p1=pa=1/2

p2=pb*pn=1/3

p3=pb*pm=1/6

這里其實(shí)是在說明一個(gè)非常簡單甚至都不需要明說的情況:

「同一時(shí)刻摸兩個(gè)小球」和「分成兩次連續(xù)摸,每次摸一個(gè)小球」這兩個(gè)情況我們面對的概率是相同的,也即是這兩種情況我們面對的不確定程度是相同的。

因此:

一個(gè)整體事件面對的不確定性H,會(huì)是各個(gè)子事件的H的加權(quán)和。

用H來表示上面的例子,即為:

而滿足條件(1)(2)(3)的H具有這樣的形式:

其中k是一個(gè)正的常數(shù)。

我們可以將k取1,即得到香農(nóng)信息量公式:

然后香農(nóng)將這個(gè)量H稱為「」。

香農(nóng)還在附錄2里進(jìn)行更加詳細(xì)地推論為何滿足條件(1)(2)(3)的H一定是上面的這個(gè)形式。

這部分比較復(fù)雜,這里不詳細(xì)展開,有興趣的朋友可以自己查閱。

我們再來看一下維納《控制論》中第三章對于信息量公式的推導(dǎo):

維納的信息量公式推導(dǎo)的難點(diǎn)在于二進(jìn)制十進(jìn)制之間的切換,清楚這一點(diǎn)后比較好理解。

并且我們會(huì)很容易發(fā)現(xiàn)維納在中途沒有充分的理由便地丟掉了負(fù)號(hào),并提出負(fù)熵的概念。

對于「如何測量信息量」,維納從一個(gè)最簡單的拋硬幣事件開始構(gòu)想。

拋一枚均勻正反面硬幣,要么是正面,要么是反面。

我們可以用0表示正面,1表示反面。

那么可以認(rèn)為最簡單的拋一次硬幣產(chǎn)生的信息量為1個(gè)單位。

構(gòu)造一個(gè)無窮二進(jìn)制小數(shù),用來表示拋無限次硬幣的過程:

這里的每個(gè)an代表該二進(jìn)制小數(shù)的第n位小數(shù),數(shù)值是0或者1。

如果用十進(jìn)制的a來表示這個(gè)無窮二進(jìn)制小數(shù),則可得:

那么十進(jìn)制數(shù)a的取值范圍是0到1。

這些構(gòu)造出來的數(shù)是為后面的場景服務(wù)。

然后維納構(gòu)建了一個(gè)使用這些數(shù)的場景。

假設(shè)數(shù)軸上有個(gè)從0到1的區(qū)間,表示事件的所有可能性。

然后有一個(gè)數(shù)隨機(jī)均勻地落到這個(gè)0到1的區(qū)間上,表示隨機(jī)事件的發(fā)生。

我們要怎么去測量這個(gè)數(shù)的值是多少?

最簡單的測量方法就是二分法,也就是拋硬幣:

首先確定這個(gè)數(shù)是否比1/2大,這是第一次判斷;

然后再確定這個(gè)數(shù)是否比1/4或3/4大,這是第二次判斷;

......

這樣的二分法判斷可以進(jìn)行無限次,以不斷逼近那個(gè)數(shù)值。

在這個(gè)過程中,我們每測量一次,就是做一次選擇(拋一次硬幣),產(chǎn)生1單位信息量。

那么上面構(gòu)造的無窮二進(jìn)制小數(shù):

可以用來描述我們進(jìn)行測量的全部過程。

而實(shí)際情況中,任何測量都是不完全精確的,我們假設(shè)這個(gè)測量過程中存在誤差。

那么可以再構(gòu)建另一個(gè)無窮二進(jìn)制小數(shù)來描述這個(gè)誤差:

其中bn代表這個(gè)二進(jìn)制小數(shù)的第n位數(shù),其值是0或1。

而bk的值為1,在bk之前的所有值都為0。

同樣,用十進(jìn)制的b來表示這個(gè)二進(jìn)制小數(shù),則可得:

綜合起來,隨機(jī)均勻落在0到1區(qū)間的那個(gè)數(shù)我們用a表示,而測量的誤差是b。

也就是實(shí)際測量時(shí),測得的數(shù)為(a+b)。

因?yàn)閺腷1到bk-1都是0,所以a1到ak-1都是精確的,

而從第k位開始產(chǎn)生誤差,后面的測量就都是沒有意義的。

也就是,為了測量a值,我們進(jìn)行了k次有意義的二分測量(拋了k次硬幣)。

前面說了,每一次測量產(chǎn)生1單位信息量,那么k次測量產(chǎn)生k單位信息量。

那么求事件的信息量,就是要求這個(gè)k值。

如何求這個(gè)k值呢?

我們對誤差b進(jìn)行操作,可以得:

以及:

綜上得到:

所以我們可以用-log2b來表示k值。

這里維納的原話是:

The number of decisions made is certainly not far from

-log2.b1b2...bn...

and we shall take this quantity as the precise formula for the amount of information and its definition.

所做決定的數(shù)目當(dāng)然接近于

-log2.b1b2...bn...

我們將取這個(gè)量作為信息量的精確公式和它的定義。

注意,此時(shí)維納的信息量公式里是有負(fù)號(hào)的。

事實(shí)上,維納推導(dǎo)出的這個(gè)信息量公式就是香農(nóng)信息論中的自信息

然后,維納定義事件發(fā)生后增加的信息量為:

這里「(0,1)的測度」就是1,而「(a,b)的測度」就是b。

所以其結(jié)果仍然是-log2b。

到這一步,維納的公式里還是有負(fù)號(hào)的。

后面接著的是將連續(xù)分布的概率乘上其信息量,再對其進(jìn)行積分,思路其實(shí)和香農(nóng)信息公式中的「加權(quán)和」相似,這里不作展開。

但是奇怪的事情發(fā)生了,到了公式(3.05)的時(shí)候,「log」前的負(fù)號(hào)被去掉了:

并且在去掉負(fù)號(hào)之后,維納將這個(gè)信息量解釋為的負(fù)數(shù)。

維納當(dāng)時(shí)的想法已經(jīng)無從得知。

但HW君猜測,維納覺得求得的這個(gè)量,它度量的是「不確定性」,這個(gè)量越大越不確定。

而我們在日常生活中的感受是:

信息具有確定性,可以消除不確定性。

不確定程度越小,信息量越大。

于是他將那個(gè)量取負(fù)值,以符合日常生活的直覺,然后提出「負(fù)熵」的概念。

維納的原話是:

The quantity we here define as amount of information is the negative of the quantity usually defined as entropy in similar situations.

這里我們定義為信息量的量,是在類似情況下通常定義為熵的那個(gè)量的負(fù)數(shù)。

在HW君看來,維納去掉負(fù)號(hào)的做法是考慮欠佳的。

面對同樣的公式,香農(nóng)選擇相信公式,而維納選擇相信直覺。

但是香農(nóng)對于公式的詮釋,就是正確的嗎?

(本章節(jié)完,盡請期待下一節(jié))

By HW君 @ 2021-04-27

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
坤鵬論:信息是熵?錯(cuò)!
“熵”- 信息世界也逞強(qiáng)
坤鵬論:香農(nóng)帶人類重回采集時(shí)代 但這次采集的是信息而不是食物
信息到底是什么?
信息熵
坤鵬論:錯(cuò)了!信息熵≠信息量 輕松讀懂什么是信息熵
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服