本書作者是美國《紐約時報》的記者兼編輯詹姆斯·格雷克,也是著名的科普作家,科普讀物擁有百萬數(shù)量級的銷量。《信息簡史》的英文書名直接翻譯是,信息:它的歷史,它的理論和它掀起的洪波。
一、信息的歷史
1.1會說話的非洲鼓
早期,非洲部落用鼓來傳遞一些簡單的信息;在作戰(zhàn)的時候傳達(dá)進(jìn)攻或撤退的命令等。雖然只有一部分人知道怎樣用鼓聲來溝通,但幾乎所有的人都能夠理解鼓聲的含義;雖然鼓手的節(jié)奏、快慢會有不同,但是不妨礙他們表達(dá)同一個意思。
1.2文字
文字是一種外在的符號,它將知識從人那里抽離出來,要將他們的記憶存儲在別處。信息傳播工具是獨(dú)立于“心智”的,本身不帶情感、立場和認(rèn)識。
為了避免文字的復(fù)制產(chǎn)生差錯,邏輯與詞典應(yīng)運(yùn)而生。邏輯使得傳播思想的文字表述具有嚴(yán)謹(jǐn)性,為文字傳播信息的正確性提供保障。鄉(xiāng)村教師羅伯特· 考德里在1604年編的英語詞典《字母排表》是按照字母順序排列的。這種排列法后來被稱為“詞典排列法”,它給不知道詞義的讀者提供了查詢的方便。
1.3 機(jī)器計算
18世紀(jì),對數(shù)表在歐洲盛行,因為對數(shù)可以極大地降低計算的復(fù)雜度。英國數(shù)學(xué)家巴貝奇設(shè)想造一臺機(jī)器來制作對數(shù)表,并將這臺機(jī)器稱為差分機(jī)。在英國財政部的支持下,巴貝奇歷經(jīng)10年才造出了可以演示的樣機(jī),然而真正的差分機(jī)一直沒有造出來。
后來,巴貝奇又構(gòu)思一種新的計算機(jī),并稱之為“分析機(jī)”,顧名思義,這種機(jī)器會思考。巴貝奇關(guān)于計算機(jī)的構(gòu)思,特別是分析機(jī)成為以后計算機(jī)的雛形,為此我們稱它為零代計算機(jī)。零代計算讓信息的存儲和產(chǎn)生與計算機(jī)器掛上了鉤。
1.4電報
18世紀(jì)人們認(rèn)識了電,也知曉電可以遠(yuǎn)距離傳送,從那時開始人們就想用電來傳輸信息??茖W(xué)家知道電從正極流向負(fù)極,并造出了安培計來檢測電流方向。大數(shù)學(xué)家高斯是第一批利用安培計讓電來轉(zhuǎn)遞信息的實驗者。
后來的電報采用的摩爾斯電碼,它是由美國人摩爾斯和韋爾發(fā)明的。根據(jù)電鍵接通的時間分別畫出點(diǎn)和線,相當(dāng)于現(xiàn)在的0和1,韋爾發(fā)明了發(fā)報用的電鍵和接收端的自動記錄設(shè)備,這樣可以自動記錄電報內(nèi)容。摩爾斯將26個英文字母和0-9的10個數(shù)字根據(jù)在傳輸中出現(xiàn)的頻率編制了摩爾斯電碼,一個普通的操作員一分鐘至少可以發(fā)送30個字母或數(shù)字。
電報促使了密碼的誕生。例如,A給B發(fā)了一份電報,這兩個人早就約定了一個數(shù)字3,二進(jìn)制為11,單詞ask正確的摩爾斯代碼是 000100 010110 001011,但是發(fā)報人對這個二進(jìn)制數(shù)加11,發(fā)送的成了000111 011001 001110,接受方按照正常摩爾斯代碼查到的是dvn。只有接受者事先知道3這個數(shù),在摩爾斯代碼表上朝后倒數(shù)3個字母就得到了正確的報文。這個過程就稱為加密,3這個數(shù)字稱為密鑰。出現(xiàn)加密是信息傳遞的一個重要的里程碑,它說明信息在傳播過程的調(diào)制和恢復(fù)是可以定制的。
二、信息理論
2.1 美國人克勞德·埃爾伍德·香農(nóng)
1937年,香農(nóng)到貝爾實驗室實習(xí),對繼電器做了深入的研究。他嘗試將繼電器的兩種狀態(tài),斷開和導(dǎo)通與數(shù)字1和0相對應(yīng),然后嘗試應(yīng)用布爾代數(shù)對多個繼電器連接結(jié)果進(jìn)行分析。香農(nóng)在一封信上描述了他對信息傳輸過程的研究,他說幾乎所有的通信系統(tǒng)都存在兩個函數(shù)和兩次變換,發(fā)送方要發(fā)送一個信息給接收方,記為函數(shù)小f,但是在發(fā)送的過程中這個小f 函數(shù)被轉(zhuǎn)換成另一個大F函數(shù),因此接受者收到的是大F,他通過一定的設(shè)備,相當(dāng)于密鑰,將這個大F轉(zhuǎn)換成小f ,從而完成“精確的復(fù)制”。香農(nóng)指出,“精確的復(fù)制”很難實現(xiàn),總會有“失真”,怎樣估計和排除“噪音”是通信的重要任務(wù)。
香農(nóng)將熵引進(jìn)到信息論。首先,信息論里的信息“雖然與日常意義的信息有關(guān),但是又不同,不應(yīng)該將他們混淆?!毕戕r(nóng)說:“信息與不確定性相關(guān)。”它是不確定性帶來的。香農(nóng)想到用“熵”來描述信息。
克勞德·埃爾伍德·香農(nóng)
如果一個事件H有n種可能的結(jié)果,出現(xiàn)這些結(jié)果的概率是已知的,分別是P1、P2、P3等。我們可以用公式計算出這個事件的熵。如果這個事件只有一個結(jié)果,那么n=1,P1=1,熵H等于0;如果事件有兩個結(jié)果,它們出現(xiàn)的概率是一樣的,也就是n=2,P1=P2=0.5,計算出來熵等于1;進(jìn)一步,事件還是只有兩個結(jié)果,但它們出現(xiàn)的概率不一樣的,一個是1/4,另一個是3/4 ,這時可以算出熵大約等于0.811。
香農(nóng)將算出的結(jié)果用比特做單位,那么當(dāng)n=1時,這是確定事件,熵為0比特;當(dāng)存在兩種結(jié)果,而出現(xiàn)兩種結(jié)果的可能性是一樣的時候,熵是1比特;當(dāng)存在兩種結(jié)果,而出現(xiàn)兩種結(jié)果的可能性是不一樣的時候,這時熵就小于1比特了。熵越大的事件不確定性也越大,而信息是用來減少不確定性的,就是用來減少一個事件的熵。
2.2 計算機(jī)之父——阿蘭· 圖靈
圖靈構(gòu)造了邏輯上的圖靈機(jī),盡管他沒有造出計算機(jī),但是今天他的機(jī)器無所不在。
圖靈構(gòu)思這樣的機(jī)器至少有“紙帶” “符號” 和 “狀態(tài)” 幾個組件,他詳細(xì)定義了這些組件的構(gòu)造與運(yùn)作模式。他論證了這臺機(jī)器能夠算出多項式方程的解,能夠算出圓周率和自然對數(shù)的底數(shù),他還論證了確實存在不可計算的數(shù),而且“極大多數(shù)”的數(shù)是不可計算的。目前的計算機(jī)設(shè)計還沒有跳出圖靈機(jī)的框架。
2.3 美國人諾伯特· 維納
二戰(zhàn)期間,維納是第一批被美國招募參加火炮控制的專家,他的主要工作是噪聲處理,這項成果后來被稱為“維納濾波”,維納與同事比奇洛將對火炮追蹤敵機(jī)的行為稱為“伺服控制”。
維納最著名的書是一本很薄的小冊子《控制論——或關(guān)于在動物和機(jī)器中控制和通信的科學(xué)》。這本書最核心的是負(fù)反饋原理,維納認(rèn)為負(fù)反饋是動物與機(jī)器在控制行為中的基本規(guī)律。他指出閉環(huán)控制系統(tǒng)不是根據(jù)目標(biāo)完成控制的,而是根據(jù)現(xiàn)狀與目標(biāo)之間的偏差完成控制的。維納強(qiáng)調(diào)了這個偏差便是一種信息,信息用來降低盲目性。
三、信息掀起的洪波
3.1 遺傳密碼的破解
1910年,丹麥植物學(xué)家約翰遜首先采用“基因”這個詞來表示遺傳的載體,他解釋說,基因未必是一種獨(dú)立存在的物質(zhì)。這意味著基因可以是一種信息。
孟德爾是第一個證明基因存在的生物學(xué)家。他用黃色和綠色兩種豌豆做試驗,這兩種豌豆可以雜交,但是雜交后代要么是黃色要么是綠色的,沒有出現(xiàn)黃綠色的豌豆。他用的詞叫“遺傳因子”,他說,遺傳因子不會混合也不會擴(kuò)散,它在遺傳過程中是不變的。
1953年,生物學(xué)家詹姆斯· 沃森和弗朗西斯· 克里克在《自然》雜志上發(fā)文,聲稱他們找了基因。他們發(fā)現(xiàn)DNA具有雙螺旋結(jié)構(gòu),兩條鏈相互纏繞但不相交,之間由堿基連接,堿基的精確序列承載著遺傳信息的編碼。
3.2 對文化發(fā)展的沖擊
1970年,英國生物學(xué)家道金斯在《自私的基因》這本書里提出了“模因”的概念?!澳R颉睂W(xué)說也稱文化進(jìn)化論,它認(rèn)為文化發(fā)展也是傳承的,就像生物的遺傳一樣,代替基因的是模因,它寄生于人類的大腦中得以傳承。如果說基因是生物信息的載體,遺傳是生物信息的傳遞,那么模因就是文化信息的載體,社會形態(tài)發(fā)展根源是文化信息的傳遞。
3.3 對隨機(jī)理論的沖擊
隨機(jī)理論的奠基者是蘇聯(lián)的數(shù)學(xué)家柯爾莫哥洛夫,柯爾莫哥洛夫豐富了香農(nóng)的研究,學(xué)術(shù)界將他的貢獻(xiàn)稱為“算法信息論”。
計算出一個數(shù)要依靠程序,有的程序簡單,有的復(fù)雜,因此柯爾莫哥洛夫在算法信息論里定義了“復(fù)雜度”,它與程序的復(fù)雜程度成正比,與這個數(shù)帶有的信息量成正比。有的數(shù)可以用較短的算法計算出來,而有的數(shù)不行,不能用簡短算法計算的數(shù)稱為“隨機(jī)數(shù)”。隨機(jī)數(shù)有更大的不確定性,也就是說,它的“熵”更大。
3.4 洪波之后的世界
第一個現(xiàn)象是信息泛濫。人們造了無數(shù)多的信息倉庫,而且信息的持久性和遺忘的困難性給信息倉庫的管理帶來了莫大的混亂。大爆炸使得信息熵增大,權(quán)威性喪失和混亂的增劇。
第二個現(xiàn)象是存儲技術(shù)的飛速發(fā)展。香農(nóng)曾經(jīng)估算過美國國會圖書館藏有的資料信息量約為十太字節(jié)?,F(xiàn)在這個圖書館還收集數(shù)字資料,到2010年2月,資料的信息量已經(jīng)達(dá)到160太字節(jié),是香農(nóng)時代的16倍?,F(xiàn)在更發(fā)明了云端技術(shù),其容量甚至無法估量。
我基本忽略了前面精彩的非洲鼓的故事,原因在于,作為一個語言學(xué)出身的人,這部分知識(語素、信息、語法結(jié)構(gòu)的關(guān)系)早已熟悉,讀起來沒什么收獲,也就沒啥可寫的。
雖然我標(biāo)題寫的是「信息論的入門」,但實際上,讀完這本書離入門還有十萬八千里。這本書能讓你明白,為什么信息論的所有教材都是鋪天蓋地的數(shù)學(xué),明白為什么有的人說信息論是一門純應(yīng)用數(shù)學(xué)的學(xué)科。
最后想說的是,作者每一章后面都有幾十個腳注,足見其用心與演進(jìn)。這本書不是國內(nèi)哪些張口就來的認(rèn)知升級,而是一個誠懇的作家7年的嘔心之作,值得一讀。