編者按:本文來自微信公眾號“東沙湖基金小鎮(zhèn)”(ID:gh_1b5692ba4b3a),作者:第一傳播官,36氪經(jīng)授權(quán)發(fā)布。
「云上沙湖」是繼東沙湖基金小鎮(zhèn)“聚在沙湖”、“融在沙湖”、“成在沙湖”、“學(xué)在沙湖”等品牌活動之后,創(chuàng)新打造的又一活動IP,旨在通過云課堂、云解讀、云路演的方式,從戰(zhàn)略、政策、資本、產(chǎn)業(yè)、技術(shù)、人才等方面,為創(chuàng)業(yè)者提供高效精準(zhǔn)的連接、實效深度的資源合作、有效多維的經(jīng)驗分享,助力企業(yè)成長。
近日,「云上沙湖」云課堂邀請復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師金城進(jìn)行了線上直播,就“深度學(xué)習(xí)在多媒體領(lǐng)域的最新進(jìn)展”這一主題做出分享。
01 什么是深度學(xué)習(xí)
人工智能在近幾年非常熱門, AlphaGo事件,不僅給中國大眾普及了人工智能的最新進(jìn)展,而且也讓更多的人開始關(guān)注人工智能的發(fā)展。
人工智能最經(jīng)典的一個問題是分類的問題。這里我舉一個挑西瓜的例子來解釋說明一下。
吃瓜的分類問題
根據(jù)我們挑西瓜的經(jīng)驗,認(rèn)為密度大的(重的)、紋路清晰的、拍打回聲清脆的西瓜為好瓜,但是有些瓜可能密度不是那么大,但紋路很好,吃起來也是個好瓜,那怎樣去判斷瓜的好壞呢?我們可以設(shè)計一個以西瓜為樣本的模型,一堆西瓜分別測出密度、花紋和拍打回聲,密度比較大的西瓜記成1,花紋比較清晰把它記成1,如果響聲不清脆把它記成0,符合要求是1,不符合要求是0,這樣每個西瓜都有三元特征。然后再來嘗一下西瓜的味道,好吃的寫成1,不好吃的寫成0,形成標(biāo)簽,最終組成一個用0和1組成的三維的數(shù)據(jù),得出特征值。那么這個模型能做什么事情呢?當(dāng)這個模型有了足夠多的樣本以及對應(yīng)的標(biāo)簽以后,模型通過不斷的學(xué)習(xí),可以判斷它是不是好瓜,這樣通過足夠的樣本來學(xué)習(xí)的方式,就是機(jī)器學(xué)習(xí)的一種方法。
解決了分類的問題之后,接下來我們再通過貓狗問題的案例,來了解圖像識別分類的基礎(chǔ)問題。
貓和狗的分類問題
當(dāng)拿到一張貓或狗的照片,首先,要獲取照片里的信息,把獲取的信息轉(zhuǎn)換為機(jī)器能夠認(rèn)識的信息,接著通過圖像本身具有的特征,提取有用的特征,假設(shè)我們用紅色的點(diǎn)表示狗的特征,藍(lán)色表示貓的。機(jī)器通過之前的訓(xùn)練會得到一種識別規(guī)則,通過此識別規(guī)則可以得到特征分類,最后機(jī)器把拿到的信息放在特征空間中對被識別的圖像進(jìn)行分類,從而辨別出圖像上是貓還是狗。
絕大部分的圖像分類問題都是這樣解決的,甚至是下圍棋,圍棋盤上有很多點(diǎn),通過計算棋子放在哪個點(diǎn)的收益最高,從而進(jìn)行抉擇,最后贏得比賽。
人工智能首個重要應(yīng)用:手寫數(shù)字識別
以上兩個案例都還是比較基礎(chǔ)的分類問題,人工智能在實際應(yīng)用中遇到的問題就要復(fù)雜的多。
在美國存錢和寄件是需要手寫填單,機(jī)器不僅要區(qū)別還要識別出手寫的數(shù)字,到上世紀(jì)90年代末,已經(jīng)有超過10%的美國支票識別采用神經(jīng)網(wǎng)絡(luò)模型來解決這類問題。先把一張圖片變成高維空間里面一個點(diǎn),在這個高維空間里面找到合適的模型,模型里的參數(shù)通過大量的數(shù)據(jù)訓(xùn)練,可以學(xué)習(xí)一個合理的映射,使得這張圖能夠映射成為十維空間一個點(diǎn)(也就是一個十維的向量),對應(yīng)數(shù)字的那一維記作1,其他維度的值是0。這樣如果輸入一張帶數(shù)字的圖片,經(jīng)過這個機(jī)器之后會得到適合的十維向量,然后我就去找這個向量的十個維度里面數(shù)值最大的是幾,那就是模型對這個數(shù)字是多少的一個判斷。
深度學(xué)習(xí)原理
第三次人工智能浪潮已經(jīng)開啟。當(dāng)1956年人工智能開始起步的時候,人們更多是在說人工智能;在第二次浪潮期間,機(jī)器學(xué)習(xí)成為主流;這一次則是深度學(xué)習(xí),是能夠自我學(xué)習(xí)、自我編程的學(xué)習(xí)算法,可以用來解決更復(fù)雜的任務(wù)。
深度學(xué)習(xí)究竟意味著什么?從概念定義上來看,深度學(xué)習(xí)是一種能夠讓機(jī)器將從某一情境中的所學(xué)應(yīng)用到學(xué)習(xí)新情景中的學(xué)習(xí)過程。深度學(xué)習(xí)的產(chǎn)物是可遷移的,包括某一領(lǐng)域中的內(nèi)容知識,技能,情感,態(tài)度,以及如何、為何、何時應(yīng)用這些知識來發(fā)現(xiàn)問題和解決問題的綜合品質(zhì)。
人類是很神奇的動物,一個3、4歲的小孩子,當(dāng)你教他認(rèn)識過貓和狗之后,他就能識別出照片里的是貓還是狗。這個原理是什么呢?其實我們也不夠清楚。我們大概可以認(rèn)為我們的眼睛就是很多個中心,每個視覺細(xì)胞組成當(dāng)中的一部分。若干個感光的細(xì)胞會疊到同一個神經(jīng)元上,若干個神經(jīng)元再疊到一個高層的神經(jīng)元,最后讓我們的大腦來做一個決策和判斷,這是什么樣的物體。
而大腦在進(jìn)行識別圖像時,是依靠圖像具有的本身特征先將這些圖像分了類,然后通過各個類別所具有的特征將圖像識別出來。當(dāng)看到一張圖像時,我們的大腦會根據(jù)存儲記憶中已經(jīng)分好的類別進(jìn)行識別,感應(yīng)到是否見過此圖像或相似的圖像。
人工智能和人很像卻又不像,我們身上的基因是一代又一代人類存續(xù)下來的,也許我們的祖先看到過的東西是印在基因里的,可以幫助我們?nèi)プR別和判斷。
再舉個例子,當(dāng)我們學(xué)開車時,汽車在高速運(yùn)動,我們需要快速判斷向左還是向右,這個過程其實就可以看作是神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程。人的感知碰到火會感覺到痛,是因為手指神經(jīng)元感受到了痛,神經(jīng)元一直從手迅速傳遞到大腦,大腦作出一個指令,把手指往回撤,這種經(jīng)驗被寫進(jìn)基因里傳下來,這些都是神經(jīng)訓(xùn)練的結(jié)果。
三大核心問題突破
深度學(xué)習(xí)在這三個核心問題的突破,使得世界變得很不一樣。
優(yōu)化策略
優(yōu)化策略問題,神經(jīng)網(wǎng)絡(luò)越深效果越好,但隨著神經(jīng)網(wǎng)絡(luò)的加深,訓(xùn)練過程也會越來越難。深度學(xué)習(xí)也是一樣的道理,想要處理復(fù)雜的工作,就需要復(fù)雜的神經(jīng)網(wǎng)絡(luò),需要很強(qiáng)的深度學(xué)習(xí)能力。復(fù)雜的神經(jīng)體參數(shù)會越多,參數(shù)變多就需要更多的參數(shù)量來進(jìn)項訓(xùn)練。
數(shù)據(jù)規(guī)模
近年來全世界的人都在為機(jī)器學(xué)習(xí)或者數(shù)據(jù)學(xué)習(xí)做數(shù)據(jù)標(biāo)注,數(shù)據(jù)規(guī)模越來越大。我們?nèi)粘I畎l(fā)的朋友圈其實是在為騰訊做數(shù)據(jù)標(biāo)注,比如透過你去吃魚的朋友圈,就可以得知你可能是愛吃魚的,透過你經(jīng)?;顒拥牡攸c(diǎn),可以分析出你大概的職業(yè),還可以通過微博的點(diǎn)贊量來分析僵尸粉的數(shù)量等等。尤其是通過攝像頭提供的數(shù)據(jù),對我們國家的治安有很大的貢獻(xiàn),破案率明顯提高。
計算能力
早年的顯卡大多用于電競游戲,而現(xiàn)在主要用于商業(yè)用途,并且必須需要達(dá)到一定的配置才可以。CPU是串聯(lián)計算的方式,GPU是并行計算,比如說有一個任務(wù),從1一直加到100,CPU是1+2,2+3,3+4,這樣一個一個加過去,而GPU的做法是并行的,并行的GPU的廣泛應(yīng)用使得深度學(xué)習(xí)亟需的快速并行計算成為可能。
02 深度學(xué)習(xí)在多媒體領(lǐng)域的應(yīng)用
在圖像識別上的應(yīng)用
2012年出現(xiàn)Alex Net,是我們認(rèn)為深度學(xué)習(xí)劃時代意義時刻的來臨,它的出現(xiàn)改變了人們對于神經(jīng)網(wǎng)絡(luò)的看法。由于人工智能的廣泛應(yīng)用,現(xiàn)在的大企業(yè)特別重視并密切關(guān)注相關(guān)領(lǐng)域的發(fā)展,不惜花高薪去聘請專業(yè)的從業(yè)人員。
人臉識別
ImageNet是非常著名的物體識別的比賽,它的數(shù)據(jù)集里面有1500萬張圖片,一共分為2.2萬類。從中選一張照片,有5次識別的機(jī)會,只要猜對一次就算對,如果有5次都錯,就是錯的。在2012年之前,大部分模型識別的準(zhǔn)確率都停留在75%左右,到AlexNet(2012)出現(xiàn)提以后準(zhǔn)確率升了10%左右,之后的2013、2014年的參賽模型都是按照AlexNet來算,錯誤率有所降低,已經(jīng)接近甚至低于人類識別的錯誤率5.1%。
現(xiàn)在人工智能領(lǐng)域的競爭已經(jīng)進(jìn)入到白熱化階段,人臉識別成為非常重要的挑戰(zhàn),在LFW數(shù)據(jù)集中,人類的識別率是在97.53%,人工智能的識別率最高能達(dá)到99.77%(2015年),但這僅僅是在5749個人,13233張人臉照片中進(jìn)行識別。當(dāng)數(shù)據(jù)集提升到了800萬個人,2億人臉照片時,識別率就降低到了95.12%(2015年),那時候的數(shù)值還不能滿足公安系統(tǒng)對于人臉識別的超高準(zhǔn)確率要求,而現(xiàn)在的人臉識別已經(jīng)基本可以達(dá)到了。張學(xué)友開演唱會就能抓逃犯,已經(jīng)成為了家喻戶曉的故事。
圖像識別、描述
圖像識別還有很多有趣的應(yīng)用,不僅可以通過對應(yīng)的話來描述一張內(nèi)容為“一只鳥在天上飛”的圖片,而且每個詞對應(yīng)圖片上的哪個位置都能描述的很清楚,通過這樣的描述,機(jī)器人可以明確是誰下達(dá)了什么樣的任務(wù),從而更準(zhǔn)確的執(zhí)行任務(wù)。
海量圖像的分別和識別現(xiàn)在已經(jīng)可以廣泛應(yīng)用,例如某寶的拍立淘功能,只需要用手機(jī)拍一下商品,就知道這件商品在淘寶上的價格,方便消費(fèi)者來選購。除了識別之外,通過給照片標(biāo)注信息,還可以做檢索工作,比如設(shè)計師想找一張有一座山,天空有太陽的圖片,當(dāng)搜索山和太陽,會出現(xiàn)很多照片,很難立刻找到符合要求的,但有了圖像描述之后,我搜索右上角太陽之類的,就會收到很多有趣的圖片了,同時機(jī)器還可能會實現(xiàn)看圖寫畫。
圖像處理上的應(yīng)用
超分辨率
超分辨率在美國電影里面經(jīng)??吹剑颜{(diào)取的監(jiān)控視頻放大再放大,就可以看清人臉。這個事情,以前在現(xiàn)實生活中是很難實現(xiàn)的,低分辨率的數(shù)據(jù)量比較小,它把很多有用的信息都給去掉了,所以很難把低分辨率的數(shù)據(jù)轉(zhuǎn)換到高緯度的數(shù)據(jù)?,F(xiàn)在通過深度學(xué)習(xí),超分辨率已經(jīng)可以實現(xiàn)了。把低分辨率做個輸入,高分辨率做個輸出,通過輸入足夠多的數(shù)據(jù)訓(xùn)練出來模型,知道模型的參數(shù)段,再把所有的圖降成低分辨率的圖,變成原來1/4大小,然后把輸入和輸出換一個位置,就可以訓(xùn)練模型從一張低分辨率的圖去得到一張高分辨率的圖。
生成式對抗網(wǎng)絡(luò)
最近特別火的生成對抗網(wǎng)絡(luò)(GAN),是一種深度學(xué)習(xí)模型。模型主要通用框架有(至少)兩個模塊:生成模型(Generator)和判別模型(Discriminator)的互相博弈學(xué)習(xí)產(chǎn)生的相當(dāng)好的輸出。我們可以把它們想象成一個是做假鈔的,一個是警察。做假鈔的畫了張100塊,這100塊經(jīng)過警察的判斷是假的,又被打回去,接著做假鈔經(jīng)過不斷改進(jìn),又畫出一張假鈔,再拿到警察那里,還是被判定為假的。畫的人成品越來越好,負(fù)責(zé)判斷的經(jīng)驗也越來越豐富,這兩個人互相促進(jìn),相互對抗,形成矛和盾的關(guān)系。
從文本生成圖像
生成對抗網(wǎng)絡(luò)的出現(xiàn)讓圖像在處理應(yīng)用上得到了很大的進(jìn)步,比如說超分辨率越來越清晰了,還有看圖說話和從文本生成圖像的能力也得到提升。之前是看圖說話,現(xiàn)在可以看話畫圖,輸入“明亮下垂的黃色花瓣,黃色花蕊”,計算機(jī)通過之前積累的對花的描述后,就可以畫出來各種不同的“明亮下垂的黃色花瓣,黃色花蕊”的花。
從色塊生成圖像
到了2017年,出現(xiàn)了從色塊生成圖像的工作,紫色表現(xiàn)是路面,綠色表示樹,藍(lán)色是車,紅色是人,通過不同的色塊來生成圖像。這些圖像是真實世界當(dāng)中不存在的,它是依據(jù)色塊來畫出來的所謂真實的照片,無中生有的作品。雖然生成的圖像還不是很完美,但也已經(jīng)非常驚艷。
同樣是在2017年,美國著名的Reddit論壇上出現(xiàn)了Deepfake(換臉),用一張圖上的人臉替換另一張圖上的人臉,隨后掀起了換臉應(yīng)用的熱潮,一些人不滿足于換臉,開始通過機(jī)器生成非真實的人臉圖像和房間照片等,甚至通過人臉提取出的輪廓信息,讓蒙娜麗莎、愛因斯坦都動了起來。以前我們總說眼見為實,而現(xiàn)在人工智能生成的一些圖像已經(jīng)可以做到以假亂真,你看的圖像不一定就是真實存在的,這也引發(fā)了一些類似社會安全和信譽(yù)度等比較有爭議的社會問題,所以人工智能的治理和倫理方面的工作也變得越來越重要。
估算密集場景中的人體骨架
很多時候需要捕捉場景內(nèi)人物的運(yùn)動姿態(tài),以前都是通過人臉識別來判斷的,而現(xiàn)在可以通過機(jī)器來估算密集場景中的人體骨架。除了人體骨架的估算之外,還可以進(jìn)行大場景高密度的人臉識別,適用于大型場景里的人物的識別、監(jiān)測和抓取。有一個實驗室做了一些腦洞大開的工作,通過高速攝像機(jī)拍攝光的發(fā)射器發(fā)射出來的光子,根據(jù)在墻上反射后的效果,可以判斷障礙物的位置和動作,可以進(jìn)行墻后人體姿態(tài)的識別。
在自然語言理解上的應(yīng)用
以前自然語言比較難變成可計算的東西,在Word2Vec出現(xiàn)后,自然語言變成可計算,很多算法可以用深度學(xué)習(xí)的方法來做。比如說國家和首都這個詞,假設(shè)把它簡化成二維空間,保留兩個詞之間的關(guān)系,映射到一個空間中去,讓向量的長度和方向差不多,并且從向量的角度來講他是等同的,當(dāng)把國家波蘭減去華沙得到的向量的值就可以等于土耳其減去安卡拉。當(dāng)這個映射建成了之后就可以解決這樣的問題,例如北京之于中國相當(dāng)于華盛頓之于誰?通過映射,可以得出是美國,基于這個映射很多復(fù)雜的問題都可以解決了,好多工作就可通過計算的方式來處理了。
現(xiàn)在人工智能領(lǐng)域應(yīng)用最好的是人臉識別,其次是自然語言的應(yīng)用,而自然語言的應(yīng)用遠(yuǎn)遠(yuǎn)超過了其他圖像和視頻應(yīng)用,它在落地性方面可能做得更好。
下圖是餐廳的評論,單從字面上看,你難去分辨清楚哪些是人寫的,哪些是機(jī)器寫的。有些APP下載的評論區(qū),你會發(fā)現(xiàn)那些評論都寫的胡說八道,那些就是比較低端的刷榜行為。所以不僅是你看的到有可能是假的,有可能你讀的文章也是假的。
下面這段話是我通過網(wǎng)站生成的文章,只需要輸入“復(fù)旦IT同學(xué)會月度分享”這幾個字,就可以生成這段話。在內(nèi)容方面,摘要和主題部分表述還可以,段落和中心思想的內(nèi)容就沒那么的順暢。所以目前的人工智能大多數(shù)還是用于重復(fù)性的工作,降低人的工作,提升工作效率,但是在創(chuàng)造性方面還有很大的差距。現(xiàn)在一些對于創(chuàng)造性要求不是很高的新聞稿,類似體育比賽的新聞稿已經(jīng)可以用人工智能來完成了。我們經(jīng)常會開玩笑說是人工智障,這也側(cè)面說明了現(xiàn)在的人工智能的短板。當(dāng)你和智能音箱對話的時候,你會發(fā)現(xiàn)它是沒有記憶的,同樣的問題當(dāng)你重復(fù)提問時,它的回答都是不一樣的,而且回答的內(nèi)容上也是沒有邏輯關(guān)系的。
在圍棋上的應(yīng)用
從本質(zhì)上來講,AlphaGo可以想象成通過輸入棋子下在棋盤不同位置的圖像,判斷棋子下在那個地方可以受益最大化的過程。棋盤已經(jīng)定好,白子和黑子都落子之后,這局棋誰贏誰輸不需要棋譜都可以計算出來,這是圍棋本身的規(guī)則決定的。因為當(dāng)深度學(xué)習(xí)的模型看夠了足夠多的棋局?jǐn)?shù)據(jù)后,會根據(jù)當(dāng)前期盼的形式來做一個算力的結(jié)果,通過對全局觀的考慮,快速算出勝負(fù)手所在的地方。
有一些游戲,通過深度學(xué)習(xí)短時間的訓(xùn)練,游戲成績已經(jīng)可以超過程序開發(fā)者。所以說只要規(guī)則是固定的,通常來說人類的一些相對簡單和重復(fù)的工作被計算機(jī)取代是非??赡艿?,在某些方面上計算機(jī)甚至?xí)热祟愅瓿傻母錾?/p>
在省電上的應(yīng)用
除了算力算法之外,能耗問題也被大家所關(guān)注,為了減少在能耗上的開銷,有一些地方成為服務(wù)器機(jī)房選址的熱門地點(diǎn),例如阿拉斯加、西伯利亞等,因為這些地方足夠冷,可以省掉散熱的空調(diào)費(fèi)用,而且水力資源豐富,用電也比較便宜。5G基站的能耗大概是傳統(tǒng)基站的幾倍,預(yù)計整個通信行業(yè)的能耗比例在全球的占到3%左右,互聯(lián)網(wǎng)相關(guān)的服務(wù)器能耗占20%左右。巨大的能耗和因能耗所產(chǎn)生的高額費(fèi)用,讓不少運(yùn)營商在考慮通過關(guān)閉部分服務(wù)器來節(jié)約成本,既能保證用戶體驗還能有效節(jié)約成本的情況下,在什么時候關(guān)閉哪些服務(wù)器成為問題。被Google收購的DeepMind公司給出了解決方案,通過預(yù)測1小時訪問量和服務(wù)器使用量,來調(diào)整開關(guān)機(jī)的情況,有效地為Google節(jié)省了開銷。
在軍事領(lǐng)域的應(yīng)用
2009年美國DARPA為代表的多國軍事科學(xué)研究機(jī)構(gòu)已經(jīng)在利用深度學(xué)習(xí)技術(shù)進(jìn)行軍用目標(biāo)識別方向開展了相關(guān)研究。美軍在智能化電磁頻譜感知與偵察領(lǐng)域的最新進(jìn)展是DARPA所支持的“對抗環(huán)境中的目標(biāo)識別與適應(yīng)”(TRACE)專項,用深度學(xué)習(xí)和遷移學(xué)習(xí)等智能算法解決對抗條件下態(tài)勢目標(biāo)的自主認(rèn)知難題,幫助指揮員快速定位、識別目標(biāo)并判斷其威脅程度。
在醫(yī)療領(lǐng)域的應(yīng)用
深度學(xué)習(xí)在醫(yī)療領(lǐng)域的應(yīng)用上很大問題是數(shù)據(jù)量不夠,我們以前接觸過全國肝病CT的數(shù)據(jù)最多的醫(yī)院也就只有三萬張,在醫(yī)學(xué)圖像領(lǐng)域,沒有10億張的照片做為數(shù)據(jù)集,很難做得好,所以現(xiàn)在很多研究的重點(diǎn)都放在了如何在數(shù)據(jù)量不多的情況下把其他領(lǐng)域里相關(guān)的經(jīng)驗用到這個領(lǐng)域上。目前,多種分析技術(shù)已經(jīng)在DNA分析、癌癥預(yù)測等方面產(chǎn)生影響。
在智能制造領(lǐng)域的應(yīng)用
傳統(tǒng)機(jī)械臂都是固定的,抓麥克風(fēng)的機(jī)械臂只抓麥克風(fēng),工廠如果生產(chǎn)一樣?xùn)|西就得生產(chǎn)相應(yīng)的機(jī)械臂,這樣費(fèi)時費(fèi)力?,F(xiàn)在通過深度學(xué)習(xí)的訓(xùn)練,讓機(jī)械臂隨機(jī)抓各式各樣的東西,抓的起來的記作1,抓不起來的記作0,這樣訓(xùn)練的次數(shù)多了,機(jī)械臂就可以抓起格式各樣的東西了。
人工智能有的比我們強(qiáng),有的比我們?nèi)?。智能可以分為三中類型?/p>
第一種,感知智能,對視覺、聽覺、觸覺等感知能力的模擬。
第二種,認(rèn)知智能,對推理、規(guī)劃、決策、學(xué)習(xí)等認(rèn)知能力的模擬。
第三種,創(chuàng)造性智能,對靈感、頓悟等能力的模擬。
目前自認(rèn)語言的商業(yè)應(yīng)用會更快一點(diǎn),因為他是比較規(guī)則和結(jié)構(gòu)化的,而視頻、音頻是非結(jié)構(gòu)化的。語音是一維的信號,圖像是二維的信號。目前觸覺方面的研究相對較少,但在機(jī)器人領(lǐng)域,觸覺是很重要的。
03 深度學(xué)習(xí)已經(jīng)解決一切了么?
深度學(xué)習(xí)已經(jīng)解決一切了么?還遠(yuǎn)沒有,還有很多問題等待解決。
模型問題
比如模型通過給出的數(shù)據(jù)自己學(xué)習(xí),學(xué)習(xí)出一個模型,可能你也沒辦法知道他學(xué)習(xí)出來的這個模型是什么樣的,這里面有很多不可控的因素。谷歌相冊的功能,通過上傳的照片給出標(biāo)簽,但并不是每張照片的標(biāo)簽都很準(zhǔn)確,一些標(biāo)簽被認(rèn)為帶有種族歧視的色彩,這在當(dāng)時引起了很大的爭議。
噪音問題
還有噪音的問題,有的圖像,當(dāng)沒有噪音干擾的情況下判定是熊貓,但在加了噪音之后,很多算法就會產(chǎn)生錯誤,判斷為猴子。有一篇非常著名的文章叫做《像素攻擊》,講的就是在圖片里面改一個像素就能把結(jié)果輸錯。最近有一篇文章中表明,可以通過用改變?nèi)四樥掌系南袼貋肀Wo(hù)隱私,這樣聽著很酷,但作用其實不大,因為在知道你用改變像素的手法處理照片之后,可以把新的照片打上新的標(biāo)簽,通過這個新的標(biāo)簽還會知道是你。
倫理問題
隨著深度學(xué)習(xí)的不斷深入,很多應(yīng)用的出現(xiàn)讓這方面的倫理問題越來越受到重視,比如說出事故時,誰來為機(jī)器的行為負(fù)責(zé)。
Tesla自動駕駛今年6月出現(xiàn)了事故,錯把白顏色的貨車認(rèn)為是白云,從而引發(fā)車禍,而且這樣的事故并不是首次發(fā)生。還有剛才舉過類似的例子,通過深度學(xué)習(xí)在圖像、自然語言方面應(yīng)用,替換面部信息、替換聲音,甚至是重新生成虛擬圖像等,這些都是我們生產(chǎn)生活安全的潛在威脅,也需要我們進(jìn)行更多關(guān)于技術(shù)、法律與道德的思考。