黄色视频美女视频,19 韩国美女vip视频,2020美女视频黄频大全免费

文｜Jeremy Bao、Junwu Zhang、陳茜，編輯｜陳茜

5月中旬，特斯拉在股東大會(huì)上發(fā)布了人形機(jī)器人Optimus“擎天柱”的新進(jìn)展。

在Demo里面，這個(gè)人形機(jī)器人已經(jīng)可以很流暢地做一系列動(dòng)作了，包括走路，并且利用視覺(jué)學(xué)習(xí)周圍的環(huán)境；手臂力道控制很精確，可以不打碎雞蛋；整個(gè)手掌看上去也很柔性，可以拿捏不同物品。

可以看出來(lái)，特斯拉的機(jī)器人發(fā)展還是挺快的，要知道，就在幾個(gè)月前，2022年9月的特斯拉人工智能日上，馬斯克首次亮相Optimus的時(shí)候，在舞臺(tái)上整個(gè)機(jī)器人看著還挺笨拙的，能做的動(dòng)作非常有限，連走路都做不到，還是好幾個(gè)人給抬上舞臺(tái)的，整個(gè)受到外界的一陣嘲諷。

現(xiàn)在進(jìn)展如果真的這么快，或許真如馬斯克所說(shuō)，在不到十年的時(shí)間中，人們就可以給父母買一個(gè)機(jī)器人作為生日禮物了。ChatGPT加上AI機(jī)器人，感覺(jué)我都不用工作了，直接可以收拾行李環(huán)游世界去了。

然而，往壞了想，又感覺(jué)終結(jié)者里的機(jī)器人就要破殼而出了，很可怕。所以，我也非常矛盾，就像輿論上支持和反對(duì)AI機(jī)器人的兩派在不停互相掐架一樣，我到底期不期待AI機(jī)器人的到來(lái)呢？

但是，在《硅谷101》團(tuán)隊(duì)做完AI機(jī)器人的調(diào)研之后發(fā)現(xiàn)：AI機(jī)器人的ChatGPT時(shí)刻還遠(yuǎn)未到來(lái)。

所以，這篇文章我們來(lái)聊聊，為什么AI機(jī)器人這么難做？現(xiàn)在進(jìn)展到哪兒了？特斯拉的機(jī)器人有什么優(yōu)勢(shì)？為什么歷史上谷歌收購(gòu)了十多家機(jī)器人公司但最終面臨階段性失利？為什么OpenAI放棄機(jī)器人研發(fā)？還有如今AI大模型對(duì)機(jī)器人能帶來(lái)什么進(jìn)展？

01 AI機(jī)器人定義

首先，要來(lái)定義一下什么叫做“AI機(jī)器人”。

這個(gè)概念其實(shí)在學(xué)術(shù)界有一個(gè)很fancy酷炫的名字，叫做具身智能，Embodied Intelligence，顧名思義，就是具有身體的人工智能，是AI進(jìn)入我們物理世界進(jìn)行交互的載體。但是“具身智能”這個(gè)詞太學(xué)術(shù)了可能很多人不熟悉，所以在這個(gè)視頻中，我們就把具身智能定義為AI機(jī)器人。

AI機(jī)器人和機(jī)器人有什么不同呢？或者換個(gè)問(wèn)法，AI機(jī)器人和AI有什么不同呢？

這幅圖就能簡(jiǎn)單解答這兩個(gè)問(wèn)題：機(jī)器人可以分別兩類，一類是非智能機(jī)器人，一類是有智能機(jī)器人，AI機(jī)器人。同時(shí)人工智能也有兩類，一個(gè)是虛擬世界中的，比如說(shuō)ChatGPT，還有一個(gè)就是有手有腳能在真實(shí)世界中交互的。這幅圖就是機(jī)器人和人工智能交接的這個(gè)賽道，就是有智能的AI機(jī)器人，也就是：具身智能。

關(guān)于非智能機(jī)器人和AI機(jī)器人我們來(lái)舉幾個(gè)例子，幫大家辨別一下。

目前為止，基本上所有工業(yè)機(jī)器人只能被編程為執(zhí)行重復(fù)的一系列的運(yùn)動(dòng)，這就是前者，非智能機(jī)器人，更多是像個(gè)機(jī)器。

這幾年蠻流量的咖啡機(jī)器人就是一個(gè)很好的例子，比如說(shuō)美國(guó)這邊有個(gè)公司叫Cafe X，就是一個(gè)機(jī)械手臂來(lái)給顧客做咖啡。雖然看上去有點(diǎn)smart，但它是完全沒(méi)有智能的。所有的運(yùn)動(dòng)軌跡，杯子的位置，握杯的力度，反轉(zhuǎn)搖晃杯子的方式和力度都是提前編程好的。

那怎么才算具有智能的AI機(jī)器人呢？我們還是拿咖啡機(jī)器人舉例，如果我們將機(jī)器人加上“感知”功能，比如說(shuō)加上相機(jī)等視覺(jué)識(shí)別的AI算法，讓這個(gè)咖啡機(jī)器人的手臂可以和外界交互，根據(jù)杯子的不同高低遠(yuǎn)近的位置，不同杯子的顏色大小，不同咖啡的品類，通過(guò)對(duì)外界“感知”而做出不同的決定，這就是AI機(jī)器人了。

再舉一個(gè)非智能機(jī)器人和AI機(jī)器人的例子，也是我們《硅谷101》的AI研究小組其中一個(gè)成員之前工作過(guò)的機(jī)器人公司，那家公司研究的一個(gè)項(xiàng)目就是夾娃娃。不是游戲廳的那種夾娃娃機(jī)，而是讓機(jī)械手臂去分揀玩具等商品。

如果100次任務(wù)每次周圍環(huán)境、障礙物都相同，而且都是把同一個(gè)娃娃從固定位置A拿起來(lái)放到固定位置B結(jié)束，那就是非智能機(jī)器人，現(xiàn)在已經(jīng)可以做得很好了。但如果同樣的100次任務(wù)，娃娃的起始位置都不同，比如說(shuō)你給機(jī)械手臂一個(gè)大袋子，里面有各種不同娃娃，還得讓機(jī)器人從口袋里面把特定的娃娃給識(shí)別挑出來(lái)，這就是智能機(jī)器人的范疇了。簡(jiǎn)而言之，AI算法能幫助機(jī)器人去執(zhí)行更復(fù)雜的任務(wù)，讓機(jī)器人從“機(jī)器”進(jìn)化成“機(jī)器人”，重音在最后一個(gè)字。

從這兩個(gè)分類來(lái)看，非智能機(jī)器人已經(jīng)開(kāi)始了大規(guī)模的應(yīng)用，包括在最新巴菲特股東年會(huì)中芒格說(shuō)“現(xiàn)在汽車工廠里面已經(jīng)有很多機(jī)器人”都是這種用來(lái)組裝汽車，給車噴漆這樣的非智能機(jī)器人。但對(duì)于AI機(jī)器人來(lái)說(shuō)，如今還在非常早的階段、困難非常多，連一些簡(jiǎn)單AI的機(jī)器人投入市場(chǎng)都接連遭遇失敗。

為什么我們一定要發(fā)展具身呢？為什么AI機(jī)器人一定要有一個(gè)實(shí)體呢？這也很簡(jiǎn)單，現(xiàn)在無(wú)論生成式AI多么先進(jìn)，都只能在電腦中幫人類完成虛擬任務(wù)，寫(xiě)寫(xiě)文件，編編程，畫(huà)畫(huà)圖，聊聊天，就算之后有了各種API接口、AI可以進(jìn)行各種軟件調(diào)用，可以幫你定下機(jī)票，回下郵件，完成各種文件工作，但在現(xiàn)實(shí)環(huán)境中，很多問(wèn)題AI還是無(wú)法幫助人類完成的。

所以，當(dāng)ChatGPT引發(fā)生成式人工智能熱潮之際，AI機(jī)器人賽道也迎來(lái)了非常大的關(guān)注。

包括：2022年12月13日，谷歌發(fā)布多任務(wù)模型Robotics Transformer 1，簡(jiǎn)稱RT-1，用以大幅推進(jìn)機(jī)器人總結(jié)歸納推理的能力；2023年3月，谷歌和德國(guó)柏林工業(yè)大學(xué)共同發(fā)布可以用于機(jī)器人的通用大語(yǔ)言模型PaLM-E，它和谷歌母公司Alphabet的機(jī)器人公司Everyday Robots結(jié)合，可以指導(dǎo)機(jī)器人完成復(fù)雜的任務(wù)；就在同月，OpenAI旗下的風(fēng)險(xiǎn)投資基金領(lǐng)投挪威人形機(jī)器人公司1X，總?cè)谫Y額2350萬(wàn)美元，似乎預(yù)示著OpenAI在大模型機(jī)器人應(yīng)用的新布局；還有就是我們開(kāi)頭說(shuō)到的，特斯拉也在快速發(fā)展人形機(jī)器人Optimus；同時(shí)，在硅谷，各種AI機(jī)器人創(chuàng)業(yè)公司也是如火如荼。

但是，雖然有了這些進(jìn)展，AI機(jī)器人的研發(fā)還是非常難。除了硬件的挑戰(zhàn)之外，還有軟件和數(shù)據(jù)上的挑戰(zhàn)。所以接下來(lái)，我們?cè)噲D來(lái)解釋一下，為什么AI機(jī)器人這么難。

首先來(lái)說(shuō)說(shuō)硬件。

02 硬件難點(diǎn)

科技媒體TechCrunch硬件領(lǐng)域的編輯Brian Heater曾經(jīng)說(shuō)過(guò)“如果硬件發(fā)展很困難，那么機(jī)器人技術(shù)幾乎是不可能的?！?/strong>

要理解這一層，我們首先要理解一個(gè)機(jī)器人的大致組成：

根據(jù)科技內(nèi)容網(wǎng)站ReHack的解釋，常見(jiàn)的機(jī)器人由5個(gè)部分組成：

1.感知系統(tǒng)，也就是傳感器，比如攝像頭、麥克風(fēng)、距離感應(yīng)器等等，相當(dāng)于人的眼睛、鼻子和耳朵，這是機(jī)器人的【五官】

2.驅(qū)動(dòng)系統(tǒng)，比如驅(qū)動(dòng)輪子的馬達(dá)、機(jī)械臂上的液壓動(dòng)力系統(tǒng)或者氣動(dòng)系統(tǒng)，相當(dāng)于人的【肌肉】

3.末端執(zhí)行系統(tǒng)，相當(dāng)于人的手，它可以是機(jī)械手，也可能是機(jī)械臂上的一把螺絲刀或者噴槍，用以和外界環(huán)境進(jìn)行物理交互，是【四肢】

4.能源供應(yīng)，比如電源或者電池，這是【能量】

5.運(yùn)算系統(tǒng)及其軟件，將所有上面的系統(tǒng)整合起來(lái)，完成任務(wù)，相當(dāng)于機(jī)器人的【大腦】。

前四點(diǎn)都是硬件的難點(diǎn)，第五點(diǎn)是軟件我們下個(gè)章節(jié)來(lái)講。

首先，機(jī)器人感知系統(tǒng)需要把機(jī)器人各種“內(nèi)部狀態(tài)信息”和“環(huán)境信息”從“信號(hào)”轉(zhuǎn)變?yōu)闄C(jī)器人自身或者機(jī)器人之間能夠理解和應(yīng)用的“數(shù)據(jù)”還有“信息”。也就是說(shuō)，我們要讓機(jī)器人理解周圍的環(huán)境。怎么做呢？

我們就在機(jī)器人身上安各種的傳感器，包括光，聲音，溫度，距離，壓力，定位，接觸等等，讓機(jī)器人能通過(guò)五官來(lái)收集接近人類感知外界的信息。目前，多種傳感器都得到迅速地發(fā)展，但傳感器的精度和可靠性依然是需要解決的難題。比如說(shuō)，相機(jī)進(jìn)水，進(jìn)沙塵之后，或者顛簸之后相機(jī)的校準(zhǔn)就容易失效，長(zhǎng)期使用之后像素點(diǎn)就會(huì)壞死啦等等硬件問(wèn)題都會(huì)直接導(dǎo)致機(jī)器識(shí)別的不準(zhǔn)確。

其次，機(jī)器人的肌肉，也就是驅(qū)動(dòng)系統(tǒng)。我們?nèi)祟愐还灿?8個(gè)關(guān)節(jié)，我們依靠這些關(guān)節(jié)來(lái)進(jìn)行精準(zhǔn)的動(dòng)作，包括我們的肩、肘、腕、指。

如果要重現(xiàn)在機(jī)器人上，每一個(gè)關(guān)節(jié)的技術(shù)門檻和成本都很高，并且一邊要求體積小、精度高、重量輕，但另外一邊又要求抗摔耐撞。比如說(shuō)，當(dāng)機(jī)器人快速運(yùn)動(dòng)的時(shí)候，驅(qū)動(dòng)力輸出功率很高，要保證不會(huì)因?yàn)榘l(fā)熱問(wèn)題而燒壞，同時(shí)又要就具備緩沖能力，來(lái)保護(hù)“機(jī)器人關(guān)節(jié)”不怕撞擊。所以，要協(xié)同這么多關(guān)節(jié)部位，還要考慮這么多因素，確實(shí)很挑戰(zhàn)。

還有就是末端執(zhí)行系統(tǒng)，就是“手”，這個(gè)也是非常難的，比如說(shuō)機(jī)器人手指的柔軟度，抓握的力度怎么協(xié)同非常重要。比如說(shuō)機(jī)器人握雞蛋這個(gè)任務(wù)，勁兒使大了吧，雞蛋就碎了，如果勁兒小了吧，雞蛋握不住就摔地上也碎了。

比如說(shuō)波士頓動(dòng)力開(kāi)發(fā)的Atlas機(jī)器人，雖然可以靈活的各種跑酷，但它的手掌呢，之前的版本直接就是個(gè)球，之后變成了夾子的形狀。

但特斯拉發(fā)布的“擎天柱”倒是展示出和人手非常相似的機(jī)械手，官方說(shuō)，擎天柱擁有11個(gè)精細(xì)的自由度，結(jié)合控制軟件，能完成像人手一樣復(fù)雜靈巧的操作，并能承擔(dān)大約9公斤的負(fù)重，所以在最新的demo視頻中，我們也能看到特斯拉機(jī)器人在硬件上的一定優(yōu)勢(shì)，包括能控制力度的抓握很多物品，并且不會(huì)打碎雞蛋。

再來(lái)說(shuō)說(shuō)能源供應(yīng)。剛才我們說(shuō)波士頓動(dòng)力的Atlas機(jī)器人，雖然各種炫技動(dòng)作很酷，但必須配置功率很大的液壓驅(qū)動(dòng)，

波士頓動(dòng)力官網(wǎng)描述說(shuō)，Atlas配置了28個(gè)液壓驅(qū)動(dòng)器才能讓機(jī)器人完成各種爆發(fā)力超強(qiáng)的動(dòng)作，而這樣的代價(jià)是，制造成本居高不下，難以走出實(shí)驗(yàn)室完成商業(yè)化，所以我們看到，目標(biāo)將售價(jià)降到2萬(wàn)美元的特斯拉“擎天柱”人形機(jī)器人后來(lái)選用了穩(wěn)定性、性價(jià)比更高的電機(jī)驅(qū)動(dòng)方案，也是成本考慮。

好，除了這四大塊，大家是不是已經(jīng)覺(jué)得機(jī)器人硬件太難了：這么復(fù)雜的系統(tǒng)，這么多不同的硬件，將他們整合在一起、協(xié)同工作、而且還要讓合適的部位有合適的力量、速度和準(zhǔn)確性來(lái)做需要的工作，更是難上加難。然而，機(jī)器人的身體還不是最難的。接下來(lái)，我們說(shuō)說(shuō)機(jī)器人的軟件部分，也就是機(jī)器人的腦子。

03 軟件難點(diǎn)

我們?cè)賮?lái)分拆一下機(jī)器人的軟件部分：當(dāng)我們給機(jī)器人一個(gè)任務(wù)的時(shí)候，比如，從一堆娃娃的袋子里去揀起其中一個(gè)特定的娃娃，機(jī)器人的軟件系統(tǒng)一般要經(jīng)歷以下的三層：

第一層：理解任何需求和環(huán)境（perception）

機(jī)器人會(huì)通過(guò)傳感器了解周圍環(huán)境，搞明白，裝娃娃的袋子在哪里？袋子在桌上還是地上，整個(gè)房間長(zhǎng)什么樣？我要去挑的娃娃長(zhǎng)什么樣子？

第二層：拆解成任務(wù)（behavior planning）和路徑規(guī)劃（motion planning）

明白任務(wù)之后，機(jī)器人需要將任務(wù)拆解成：先去走過(guò)去，舉起手臂，識(shí)別娃娃，撿起來(lái)，再把娃娃放在桌上。同時(shí)，基于拆分好的步驟，計(jì)劃好，我應(yīng)該用輪子跑多遠(yuǎn)，機(jī)械臂該怎么動(dòng)，怎么拿取物體，使多大勁兒等等。

第三層：驅(qū)動(dòng)硬件執(zhí)行任務(wù)（execution）

把運(yùn)動(dòng)規(guī)劃轉(zhuǎn)變成機(jī)械指令發(fā)到機(jī)器人的驅(qū)動(dòng)系統(tǒng)上，確定能量、動(dòng)量、速度等合適后，開(kāi)始執(zhí)行任務(wù)。

我們來(lái)說(shuō)說(shuō)這三層軟件在AI上的難點(diǎn)。

第一層的難點(diǎn)在于視覺(jué)等環(huán)境識(shí)別和理解，包括識(shí)別未知物體以及識(shí)別物體的未知姿態(tài)。

比如說(shuō)，機(jī)器人在識(shí)別娃娃的時(shí)候，有可能橫著的時(shí)候可以識(shí)別，但豎著放、反著放就難以識(shí)別了，更別提當(dāng)一個(gè)籃子里有上百個(gè)娃娃的時(shí)候，每個(gè)娃娃都有不同姿態(tài)，那就更難識(shí)別了。

第二層的難點(diǎn)在于AI輸出的不穩(wěn)定性。AI拆解任務(wù)的時(shí)候，每一次的解法可能不同，導(dǎo)致任務(wù)拆解不一致，這會(huì)產(chǎn)生意想不到的結(jié)果。這個(gè)的根本原因還是AI的黑匣子問(wèn)題，我們用激勵(lì)去追求輸出的結(jié)果，但AI選擇實(shí)現(xiàn)這個(gè)結(jié)果的路徑可能出現(xiàn)不穩(wěn)定性，這一點(diǎn)我們?cè)凇禣penAI黑手黨》那個(gè)視頻中也有講。比如說(shuō)，機(jī)器人從籃子的一百個(gè)娃娃中挑選出其中一個(gè)，然后放在桌上這個(gè)任務(wù)。人的路徑規(guī)劃是穩(wěn)穩(wěn)的夾起來(lái)，然后平穩(wěn)的移動(dòng)，然后釋放在桌上，但機(jī)器人可能就甩一個(gè)胳膊直接甩到桌上去。

第三層對(duì)發(fā)展AI的悖論在于，硬件執(zhí)行任務(wù)的驅(qū)動(dòng)需要精準(zhǔn)控制，而數(shù)學(xué)公式這樣的100%準(zhǔn)確率為基礎(chǔ)、并且實(shí)現(xiàn)更高頻運(yùn)作的“控制論”更適合執(zhí)行這一層任務(wù)，但目前AI做不到100%準(zhǔn)確，速度也更慢，耗時(shí)耗力，因此，這一層對(duì)AI的需求目前并不強(qiáng)烈，業(yè)界還是采用的傳統(tǒng)控制論方式。

除了這三層的AI難點(diǎn)之外，軟件還有一大難點(diǎn)就是數(shù)據(jù)難以收集。而數(shù)據(jù)收集正是AI自我學(xué)習(xí)的必要條件。我們?cè)凇禣penAI黑手黨》那一集中講過(guò)，OpenAI曾經(jīng)有機(jī)器人部門，但后來(lái)放棄了這條線就是因?yàn)闄C(jī)器人學(xué)習(xí)的數(shù)據(jù)太難收集了。

所以事實(shí)證明，只要我們能夠獲取數(shù)據(jù)，我們就能夠取得巨大的進(jìn)步。實(shí)際上，有許多領(lǐng)域都擁有非常非常豐富的數(shù)據(jù)。而最終，正是這一點(diǎn)在機(jī)器人技術(shù)方面束縛了我們。

所以，數(shù)據(jù)是人工智能的根基，就算是世界最頂級(jí)的AI公司，也會(huì)為機(jī)器人領(lǐng)域沒(méi)有數(shù)據(jù)發(fā)愁。不管是文字、圖片、視頻、還是編程的大語(yǔ)言模型，都有全互聯(lián)網(wǎng)海量的數(shù)據(jù)用來(lái)訓(xùn)練，才能在今天實(shí)現(xiàn)技術(shù)的突破。但是機(jī)器人用什么數(shù)據(jù)訓(xùn)練呢？那需要在真實(shí)世界中親自采集數(shù)據(jù)，并且目前不同機(jī)器人公司、不同機(jī)器人的訓(xùn)練數(shù)據(jù)還不能通用，采集成本也非常高。

比如你要訓(xùn)練機(jī)器人擦桌子，人類要遠(yuǎn)程操控這臺(tái)機(jī)器人給它演示，配上這個(gè)動(dòng)作的文字描述，成為一個(gè)個(gè)數(shù)據(jù)點(diǎn)。你以為一個(gè)任務(wù)演示一遍就行了嗎？當(dāng)然不是，你運(yùn)行的時(shí)候得從各個(gè)角度、各個(gè)不同的傳感器采集數(shù)據(jù)，甚至不同的光影效果的數(shù)據(jù)也都得采集，不然你的機(jī)器人就只能白天擦桌子，晚上擦不了，左邊能擦，右邊擦不了。

再比如說(shuō)，訓(xùn)練谷歌的RT-1模型用的數(shù)據(jù)集有700個(gè)任務(wù)的13萬(wàn)個(gè)數(shù)據(jù)點(diǎn)，13臺(tái)機(jī)器人花了17個(gè)月才采集完，時(shí)間花了這么多，但采集的效率非常的低下。

做個(gè)對(duì)比，ChatGPT的訓(xùn)練數(shù)據(jù)估計(jì)有3000億個(gè)單詞，13萬(wàn)和3000億，這個(gè)對(duì)比是不是太明顯了。也難怪當(dāng)年OpenAI放棄機(jī)器人，去All in語(yǔ)言大模型了，因?yàn)槊黠@后者的數(shù)據(jù)參數(shù)更好采集。

人的交互過(guò)程中有55%的信息通過(guò)視覺(jué)傳達(dá)，如儀表、姿態(tài)、肢體語(yǔ)言等；有38%的信息通過(guò)聽(tīng)覺(jué)傳達(dá)，如說(shuō)話的語(yǔ)氣、情感、語(yǔ)調(diào)、語(yǔ)速等；剩下只有7%來(lái)自純粹的語(yǔ)義，所以ChatGPT這樣的人工智能聊天助手能輸入的部分僅占人類交互中的7%。而要讓人工智能達(dá)到具身智能，那么剩下的信息，視覺(jué)，肢體，聽(tīng)覺(jué)，觸摸等方式的數(shù)據(jù)采集，是需要給到機(jī)器人去學(xué)習(xí)的。

有沒(méi)有什么低成本的數(shù)據(jù)采集方法呢？現(xiàn)在的做法是：在虛擬世界中訓(xùn)練機(jī)器人，也就是模擬，Simulation。

目前，大多機(jī)器人公司的路徑都是先在模擬器中訓(xùn)練機(jī)器人，跑通了再拿到真實(shí)事件中訓(xùn)練。比如說(shuō)谷歌之前的EveryDay Robots就大量運(yùn)用了模擬技術(shù)，在他們的模擬器中有2.4億臺(tái)機(jī)器人在接受訓(xùn)練，在模擬的加持下，訓(xùn)練機(jī)器人拿東西這個(gè)任務(wù)，原來(lái)需要50萬(wàn)個(gè)數(shù)據(jù)，在模擬的幫助下現(xiàn)在只需要5000個(gè)數(shù)據(jù)了。各個(gè)角度、不同光影的數(shù)據(jù)也可以被自動(dòng)化，不用一個(gè)一個(gè)采集了。

但是，Simulation也不是萬(wàn)能的解決方案，首先它本身的成本也不低，需要大量的算力支持；其次虛擬世界和真實(shí)世界依舊存在著巨大的差距，在虛擬世界跑通的事兒，到了真實(shí)世界可能會(huì)遇到無(wú)數(shù)的新問(wèn)題，所以，數(shù)據(jù)收集的挑戰(zhàn)依然是巨大的。

所以講到這里，我們總結(jié)一下，數(shù)據(jù)采集難，三層任務(wù)AI化難，再加上對(duì)硬件的控制和整合，其中的統(tǒng)一性和準(zhǔn)確性都是非常嚴(yán)峻的難題。在過(guò)去十年，AI機(jī)器人的發(fā)展并沒(méi)有人們一度想象中那么樂(lè)觀。并且，在實(shí)驗(yàn)室中看似已經(jīng)解決的問(wèn)題，到了實(shí)驗(yàn)室外的商用探索中，又出現(xiàn)了各種新的問(wèn)題。

講到這里，我們就不得不說(shuō)說(shuō)谷歌十年押注AI機(jī)器人但最終沒(méi)能成功的故事，其實(shí)也反映了AI機(jī)器人上的發(fā)展困境。

04 AI谷歌十年“整合”AI機(jī)器人的失利

在2012年前后，深度學(xué)習(xí)、3D視覺(jué)、自主規(guī)劃和柔順控制等技術(shù)的發(fā)展，讓機(jī)械臂有了更好的“眼睛和大腦”，同時(shí)增加了環(huán)境感知和復(fù)雜規(guī)劃能力，可以去處理更靈活的任務(wù)。

也就是我們剛才說(shuō)到的第一和第二層任務(wù)上，AI在軟件上的應(yīng)用出現(xiàn)了進(jìn)步。

所以在2012年，如果大家還有記憶的話（這就是一個(gè)暴露年齡的話題），一些科技巨頭當(dāng)時(shí)開(kāi)始瘋狂的收購(gòu)智能機(jī)器人。比如說(shuō)，谷歌在2012到2013年間，一口氣收購(gòu)了包括波士頓動(dòng)力在內(nèi)的11家機(jī)器人公司。

當(dāng)時(shí)，谷歌內(nèi)部管機(jī)器人這條件線的人叫安迪-魯賓，是不是聽(tīng)著耳熟？沒(méi)錯(cuò)，他正是安卓系統(tǒng)的創(chuàng)始人。

但同時(shí)很多人不知道的是，他還是個(gè)機(jī)器人迷，大家看安卓的英文Android這個(gè)詞，英文原意就是“人型機(jī)器人”，而且安卓的標(biāo)志也是個(gè)綠色的小機(jī)器人。

魯賓從2013年就開(kāi)始秘密在谷歌組建機(jī)器人部門，大家看當(dāng)時(shí)他收購(gòu)的這些公司，除了波士頓動(dòng)力之外，還有研究雙足機(jī)器人的Schaft公司，研究人形機(jī)器人的Meka Robotics，研究機(jī)械手臂的Redwood Robotics，計(jì)算機(jī)視覺(jué)人工智能公司Industrial Perception，制造基于機(jī)械臂的機(jī)器人攝影攝像系統(tǒng)Bot&Dolly，生產(chǎn)小型及全向滾輪和移動(dòng)裝置的Holomni公司，大家看看這些公司，谷歌顯然意識(shí)到了AI在機(jī)器人中的重要性，希望結(jié)合AI推進(jìn)機(jī)器人的發(fā)展。

谷歌這樣的科技巨頭開(kāi)啟收購(gòu)熱潮背后的邏輯可能在于：谷歌這樣以軟件見(jiàn)長(zhǎng)的公司，在比較不擅長(zhǎng)的硬件以及軟硬件結(jié)合的部分，是發(fā)展智能機(jī)器人難以逾越的技術(shù)壁壘。所以，我們推測(cè)，谷歌可能一度認(rèn)為，在AI機(jī)器人的軟件方面，因?yàn)榈谝粚雍偷诙蛹夹g(shù)的進(jìn)步，買來(lái)各種硬件公司整合在一起，再把軟件蓋在上面，AI機(jī)器人說(shuō)不定就能邁出重大的進(jìn)展。

經(jīng)過(guò)十年的發(fā)展，當(dāng)年的機(jī)器人明星公司們發(fā)現(xiàn)，在實(shí)際市場(chǎng)用途中，還遠(yuǎn)不能保證準(zhǔn)確率和統(tǒng)一度。

比如說(shuō)倉(cāng)庫(kù)分揀這個(gè)活兒，一個(gè)訓(xùn)練有素的工人可以達(dá)到95%的準(zhǔn)確度，如果機(jī)器人低于這個(gè)準(zhǔn)確率，那就意味著還需要有人來(lái)監(jiān)督輔助機(jī)器人的運(yùn)行，工廠老板們一算賬，既要買機(jī)器人又得雇傭人類，還不如全雇人類做呢。所以機(jī)器人的準(zhǔn)確度一般要達(dá)到95%以上甚至99%才能真正有商業(yè)價(jià)值，但現(xiàn)實(shí)是：如今AI機(jī)器人可以做到90%，但從90%到100%的最后10%，現(xiàn)在無(wú)法突破。而在這一天到來(lái)之前，機(jī)器人就很難替代人工，并且有時(shí)候還會(huì)宕機(jī)導(dǎo)致整個(gè)生產(chǎn)線癱瘓，因此客戶也不愿意買單，所以準(zhǔn)確率達(dá)不到、那么投入商用就遙遙無(wú)期，而這又意味著谷歌不斷燒錢但看不到回報(bào) 。

安迪·魯賓在2014年爆出性丑聞離開(kāi)了谷歌，之后收購(gòu)的這11家公司經(jīng)過(guò)各種重組，有的被再出售，比如說(shuō)波士頓動(dòng)力被賣給了軟銀，然后又被賣給了韓國(guó)現(xiàn)代，賣給現(xiàn)代的時(shí)候估值只有谷歌收購(gòu)時(shí)候的三分之一，還有的團(tuán)隊(duì)被解散，比如說(shuō)Schaft公司，之后谷歌內(nèi)部孵化出了兩條線，致力于工業(yè)機(jī)器人軟件和操作系統(tǒng)研發(fā)的Intrinsic以及通用機(jī)器人Everyday Robots?？上В@兩個(gè)團(tuán)隊(duì)都在最近的谷歌大裁員中，相當(dāng)一部分人被裁掉，其中Every Robots部門不再被列為單獨(dú)項(xiàng)目，很多員工被并入了Google Research或其它團(tuán)隊(duì)。我們開(kāi)頭舉例的那個(gè)夾娃娃公司Vicarious，也因?yàn)槿谫Y不理想被谷歌收購(gòu)，而很快成為了谷歌裁員的重點(diǎn)目標(biāo)，連Vicarious的創(chuàng)始人都離開(kāi)了谷歌。

講谷歌失敗的的機(jī)器人發(fā)展線并不僅僅是因?yàn)楣雀璧霓k公室政治和性丑聞，而是想說(shuō)明AI機(jī)器人行業(yè)發(fā)展的一個(gè)縮影：AI機(jī)器人在軟件和硬件上還都需要解決的問(wèn)題太多、挑戰(zhàn)太大。

而現(xiàn)在，重要的問(wèn)題來(lái)了，ChatGPT的出現(xiàn)，能否打破這個(gè)僵局呢？

05 最新AI熱潮能帶來(lái)進(jìn)展

記得我們團(tuán)隊(duì)在跟幾位從事機(jī)器人和AI工作的科學(xué)家吃飯的時(shí)候，我問(wèn)了這個(gè)問(wèn)題：現(xiàn)在這么熱的AI大模型，能幫助AI機(jī)器人什么呢？其中一個(gè)AI專家說(shuō)了兩個(gè)字：信心。然后我們一桌人都笑翻了，雖然這是個(gè)段子，但也得到了在座專家一致的認(rèn)同。

與最近爆火的生成式AI不同，機(jī)器人似乎還沒(méi)有到所謂的ChatGPT時(shí)刻，很多機(jī)器人產(chǎn)品里都沒(méi)有或者只有很少量的AI，更多是通過(guò)computer vision建立視覺(jué)，而更底層的動(dòng)態(tài)規(guī)劃和機(jī)械控制仍使用傳統(tǒng)機(jī)械控制論的思路去解決，并不能算是真正有學(xué)習(xí)能力的機(jī)器人。

比如，從嚴(yán)格定義上來(lái)看，大名鼎鼎的波士頓機(jī)器人公司似乎就不是一個(gè)AI驅(qū)動(dòng)的公司，更像是個(gè)傳統(tǒng)機(jī)器人公司，特別是，他們的AI研究院在2022年才成立。

但一個(gè)積極的現(xiàn)象是：各家機(jī)器人公司對(duì)AI的整合都越來(lái)越多，搭載了更多AI的機(jī)器人也更受到資本的青睞。比如我們?cè)凇禣penAI黑手黨》那期節(jié)目提到的Covariant公司，他們工業(yè)機(jī)器人的主打賣點(diǎn)，就加載了預(yù)訓(xùn)練的AI模型，可以在沒(méi)有特別訓(xùn)練的情況下就執(zhí)行貨物分揀任務(wù)，分揀的東西變化了之后也可以自主的適應(yīng)。

如今，現(xiàn)階段大模型對(duì)機(jī)器人的應(yīng)用大多停留在科研階段，還非常早期。其中，AI大模型無(wú)法在根本上幫助具身智能的一個(gè)原因在于，大模型提高的是通用性，而AI機(jī)器人需要解決的問(wèn)題是準(zhǔn)確性，這個(gè)鑰匙和鎖對(duì)不上。很簡(jiǎn)單的一個(gè)例子：如今像ChatGPT這樣的大模型的準(zhǔn)確度，在一些領(lǐng)域上，有時(shí)候還沒(méi)有經(jīng)過(guò)了充分訓(xùn)練的小模型的準(zhǔn)確度高。ChatGPT能通用地回答各種問(wèn)題，但它的回答不免出現(xiàn)常識(shí)錯(cuò)誤，我們可以對(duì)這些錯(cuò)誤一笑而過(guò)；但如果同樣的事情發(fā)生在機(jī)器人上，帶來(lái)的可能就是停工停產(chǎn)，經(jīng)濟(jì)損失，甚至更嚴(yán)重的事故。

但是，盡管如此，從未來(lái)前景來(lái)看，大模型還是能給機(jī)器人領(lǐng)域帶來(lái)一些的正面推動(dòng)的：

首先，在自然語(yǔ)言交流上，我們?cè)倩氐綑C(jī)器人軟件的三層模型來(lái)看，谷歌發(fā)布的擁有5620億個(gè)參數(shù)的多模態(tài)視覺(jué)語(yǔ)言模型Palm-e主要解決的是第一層及第二層的部分問(wèn)題，因?yàn)檫@一部分之前要靠編程來(lái)告訴機(jī)器人怎么做，而現(xiàn)在機(jī)器人可以聽(tīng)懂自然語(yǔ)言，并將自然語(yǔ)言任務(wù)直接拆解成可執(zhí)行的部分。

同時(shí)，在2023年4月初，Meta發(fā)布了名為Segment Anything的通用AI大模型，簡(jiǎn)稱SAM。我們《硅谷101》音頻的嘉賓Jim Fan在聊SAM的這一期節(jié)目中稱“SAM是圖像識(shí)別領(lǐng)域的'GPT時(shí)刻”，因?yàn)镾AM使得計(jì)算機(jī)視覺(jué)可以分割一個(gè)從未見(jiàn)過(guò)的物體。而這會(huì)在第一層軟件上為視覺(jué)識(shí)別帶來(lái)非常大的幫助。

其次，像谷歌的RT-1主要解決的是三層模型中的第二層問(wèn)題，也就是如何將任務(wù)和環(huán)境信息轉(zhuǎn)化成動(dòng)作規(guī)劃。研究人員發(fā)現(xiàn)，在Transformer大模型的加持下，機(jī)器人執(zhí)行從未做過(guò)的任務(wù)的成功率明顯上升，對(duì)不同環(huán)境甚至有干擾情況下的成功率也有上升。這是邁向通用機(jī)器人的重要一步。也就是說(shuō)，機(jī)器人可以執(zhí)行之前從未執(zhí)行過(guò)的任務(wù)了。

再者，在數(shù)據(jù)上得到提升。在RT-1中，研究人員使用了不同型號(hào)的機(jī)器人的數(shù)據(jù)來(lái)訓(xùn)練模型，結(jié)果發(fā)現(xiàn)自己機(jī)器人執(zhí)行任務(wù)的準(zhǔn)確率提升了。雖然這方面的研究還比較早期，但如果未來(lái)有大模型能使用不同機(jī)器人的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，可能會(huì)進(jìn)一步提高準(zhǔn)確度，那么這意味著，機(jī)器人AI的通用訓(xùn)練集也能實(shí)現(xiàn)了。

這幾個(gè)進(jìn)展是目前的大模型熱潮除了給AI機(jī)器人賽道帶來(lái)“信心”之外，還切實(shí)帶來(lái)的進(jìn)步，但即使如此，我們現(xiàn)在還在非常非常早期的階段。也有業(yè)內(nèi)人士告訴《硅谷101》，雖然這四個(gè)模型的發(fā)布振奮了AI機(jī)器人市場(chǎng)的熱情，但Palm-e和和RT-1的技術(shù)對(duì)于行業(yè)來(lái)說(shuō)都不是全新的消息，因此，這四個(gè)模型能如何賦能AI機(jī)器人，還需要我們進(jìn)一步去驗(yàn)證。

另外，雖然特斯拉最新發(fā)布的視頻沒(méi)有對(duì)Optimus做任何技術(shù)上的解析，但馬斯克透露，特斯拉已經(jīng)打通了FSD和機(jī)器人的底層模塊，實(shí)現(xiàn)了一定程度的算法復(fù)用。我們知道，F(xiàn)SD算法指的是特斯拉全自動(dòng)駕駛，是Full Self-Driving系統(tǒng)的縮寫(xiě)。FSD的這個(gè)算法讓車輛可以實(shí)現(xiàn)自主導(dǎo)航和自動(dòng)駕駛功能，包括讓車輛能夠在各種交通環(huán)境下進(jìn)行感知、決策和控制。如果，這一套基于神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)視覺(jué)的技術(shù)算法也可以移到AI機(jī)器人上，相信會(huì)對(duì)軟件方面幫助不少。

但是同時(shí)，我們還想強(qiáng)調(diào)一點(diǎn)，在AI機(jī)器人流派中，還有很多其它的嘗試正在進(jìn)行，不一定大模型神經(jīng)網(wǎng)絡(luò)能夠成為具身智能的解藥，大模型也不一定是我們能達(dá)到通用人工智能的解藥。我們今天講述的具身智能發(fā)展派的做法是在人工智能上將軟件和硬件分開(kāi)各自迭代，然后將兩者融合的方式去做AI機(jī)器人。但目前學(xué)術(shù)界，也有一些新的流派在產(chǎn)生，認(rèn)為人類現(xiàn)在訓(xùn)練具身智能的方式還只是單純的輸入的輸出，但是，具身智能也許需要更加多通道的全面的跨模態(tài)交互，因?yàn)檫@樣的行為交互才最能體現(xiàn)機(jī)器對(duì)環(huán)境的認(rèn)知試探和反饋，才能在和環(huán)境的互動(dòng)過(guò)程中學(xué)習(xí)和成長(zhǎng)。

06 其他發(fā)展軌跡：Unimal

比如說(shuō)，斯坦福人工智能實(shí)驗(yàn)室前主任李飛飛博士在2021年提出了DERL的概念，是Deep Evolutionary Reinforcement Learning 深度進(jìn)化強(qiáng)化學(xué)習(xí)的縮寫(xiě)，這是一種非常新的發(fā)展具身智能的思路。

與其人們?cè)O(shè)計(jì)出具身智能的最終形態(tài)身軀再?gòu)?qiáng)加上AI軟件來(lái)驅(qū)動(dòng)，李飛飛博士提出，智能生物的智能化程度，和它的身體結(jié)構(gòu)之間，存在很強(qiáng)的正相關(guān)性，不如讓AI自己選擇具身的進(jìn)化。而這樣的具身不一定是人形機(jī)器人。也就是說(shuō)，對(duì)于智能生物來(lái)說(shuō)，身體不是一部等待加載“智能算法”的機(jī)器，而是身體本身就參與了算法的進(jìn)化。

李飛飛博士說(shuō)她通過(guò)回溯5.3億年前的寒武紀(jì)生命大爆發(fā)找到了靈感，當(dāng)時(shí)，許多物種首次出現(xiàn)。如今共識(shí)的科學(xué)理論認(rèn)為，當(dāng)時(shí)新物種的爆發(fā)部分原因，是由眼睛的出現(xiàn)所驅(qū)動(dòng)的，視覺(jué)讓生物們第一次看清楚周圍的世界，而通過(guò)視覺(jué)，物種的身體“需要在快速變化的環(huán)境中移動(dòng)、導(dǎo)航、生存、操縱和改變”，從而自行進(jìn)化。

也就是說(shuō)，地球上所有的智力活動(dòng)，都是生物通過(guò)自己的身體，真真切切地與環(huán)境產(chǎn)生交互之后，通過(guò)自身的學(xué)習(xí)和進(jìn)化所遺留下來(lái)的“智力遺產(chǎn)”。那么，具身智能，也就是AI機(jī)器人，為什么會(huì)是一個(gè)例外呢？為什么不是自己進(jìn)化，還是讓人類設(shè)定最終形態(tài)呢？

所以，李飛飛博士在這個(gè)DERL，也就是深度進(jìn)化強(qiáng)化學(xué)習(xí)的論文中，提到了生物進(jìn)化論與智能體進(jìn)化的關(guān)系，并且借鑒了進(jìn)化論的理論，制造了一個(gè)假設(shè)的智能體，名為“Unimal”。

就是圖中身上長(zhǎng)滿了小棍的這個(gè)東西，是universal和animal拼起來(lái)的一個(gè)詞，然后規(guī)定了模擬環(huán)境的虛擬宇宙中的三條規(guī)則：

第一條規(guī)則：這個(gè)宇宙中存在大量的虛擬生命agents，這些agents的具身，就是這些像小棍一樣的肢體和頭部拼接起來(lái)的虛擬生命。這些具身代表著不同的基因代碼，模擬出不同環(huán)境下進(jìn)化出的不同具身。大家可以看到，平地，崎嶇不平的山路，和前面有障礙物的環(huán)境下，具身會(huì)進(jìn)化出不同的結(jié)構(gòu)，有的像八爪章魚(yú)一樣，有的像小狗一樣的四足結(jié)構(gòu)，反正就是非常不一樣。

第二條規(guī)則是：這些形態(tài)各異的虛擬具身，都需要在自己的一生中，通過(guò)使用機(jī)器學(xué)習(xí)算法來(lái)適應(yīng)不同的環(huán)境，比如平坦的地面、充滿障礙的沙丘，在這些環(huán)境中完成不同的任務(wù)，像是巡邏、導(dǎo)航、躲避障礙物、搬運(yùn)箱子等等。

第三條規(guī)則是：通過(guò)一段時(shí)間的學(xué)習(xí)訓(xùn)練之后，虛擬具身之間要相互比賽，只有表現(xiàn)最突出的一部分能夠被保留下來(lái)。然后，它們的基因代碼經(jīng)過(guò)相互組合之后，產(chǎn)生大量新的身體結(jié)構(gòu)，再重復(fù)第一和第二條規(guī)則中學(xué)習(xí)適應(yīng)各類環(huán)境和任務(wù)的過(guò)程。

要注意的是，上一代虛擬生命遺留給下一代的，只有它們的身體結(jié)構(gòu)，而不包括它們?cè)谝簧袑W(xué)習(xí)到的經(jīng)驗(yàn)和算法。

通過(guò)搭建這樣一個(gè)虛擬宇宙，研究人員在里面使用各種條件，對(duì)上千個(gè)具身形態(tài)進(jìn)行了嚴(yán)酷的篩選。最終發(fā)現(xiàn)：一個(gè)物種在前幾代通過(guò)長(zhǎng)期和艱苦的深度學(xué)習(xí)獲得的行為，在后幾代中會(huì)變成一種類似本能的習(xí)慣。

如說(shuō)，某個(gè)具身的祖輩花了很長(zhǎng)時(shí)間才學(xué)會(huì)跑步，但是在經(jīng)過(guò)幾代進(jìn)化之后，它們的后代生下來(lái)沒(méi)多久就自己會(huì)跑了。

李飛飛團(tuán)隊(duì)的研究人員說(shuō)，在學(xué)習(xí)和進(jìn)化的雙重壓力下，最終只有那些在結(jié)構(gòu)上有優(yōu)勢(shì)的身體結(jié)構(gòu)，才能夠被保留下來(lái)，進(jìn)行進(jìn)化。這些結(jié)構(gòu)由于可以更容易學(xué)習(xí)到更先進(jìn)的算法，于是在每一代的競(jìng)爭(zhēng)中就積累下了大量的優(yōu)勢(shì)。研究人員把這種身體結(jié)構(gòu)上的優(yōu)勢(shì)叫做“形態(tài)智能”。在算力相同的情況下，具備形態(tài)智能優(yōu)勢(shì)的生物可以更快獲得學(xué)習(xí)上的優(yōu)勢(shì)，從而贏得殘酷的生存競(jìng)爭(zhēng)。這其實(shí)是驗(yàn)證了19世紀(jì)末著名的“鮑德溫效應(yīng)”。

所以，這篇論文得到的結(jié)論是，DERL深度進(jìn)化強(qiáng)化學(xué)習(xí)使得大規(guī)模模擬成為現(xiàn)實(shí)，通過(guò)學(xué)習(xí)形態(tài)智能的進(jìn)化過(guò)程可以加速?gòu)?qiáng)化學(xué)習(xí)。而李飛飛博士也表示：“具身的含義不是身體本身，而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能”。也就是說(shuō)，將進(jìn)化論放進(jìn)人工智能領(lǐng)域，用“具身智能”而非純粹的“算法智能”，來(lái)加快人工智能機(jī)器人的進(jìn)化速度，也許是能更快推進(jìn)具身智能前進(jìn)的方式。

目前，研究依然還是非常早期的階段，所有訓(xùn)練也還只在的模擬器中，但這已經(jīng)讓之后的具身智能發(fā)展充滿了各種懸念：最終出現(xiàn)在我們面前的具身智能，可能不是我們想象中的機(jī)器人形態(tài)，更有可能是一種渾身插滿各種木棍兒的小人也說(shuō)不定。

所以，我們這個(gè)視頻在結(jié)尾得到的結(jié)論就是：AI機(jī)器人，也就是具身智能的發(fā)展，沒(méi)那么容易。這個(gè)賽道還沒(méi)有等到自己的ChatGPT時(shí)刻，我們開(kāi)頭描述的那些場(chǎng)景距離實(shí)現(xiàn)還早著呢，所以大家既不用擔(dān)心終結(jié)者很快到來(lái)、也不用興奮很快會(huì)有AI機(jī)器人能幫我們?nèi)ュ薰放抨?duì)買咖啡。

但是，具身智能的出現(xiàn)，是“機(jī)器人”Robot這個(gè)詞最開(kāi)始發(fā)明的時(shí)候，就在人類的想象中的。

大家猜猜英文Robot是怎么來(lái)的？

這個(gè)詞最早其實(shí)出現(xiàn)在1920年捷克文學(xué)家卡雷爾·恰佩克的三幕劇《羅素姆萬(wàn)能機(jī)器人》（Rossum's Universal Robots），而Robot這個(gè)詞源于捷克語(yǔ)的“robota”，意思是“苦力”和“奴隸”的意思，之后成為了機(jī)器人的專有名詞。

而這個(gè)三幕劇講的什么故事呢？

這個(gè)故事講述的是，羅素姆這個(gè)工廠大規(guī)模制造和生產(chǎn)機(jī)器人，本來(lái)初衷是完成所有人類不愿做的工作和苦差事，從而解放人類投身于更美好、更高的事物。但后來(lái)，機(jī)器人發(fā)覺(jué)人類十分自私和不公正，終于造反了，因此消滅了人類。但是，機(jī)器人不知道如何制造自己，認(rèn)為自己很快就會(huì)滅絕，所以它們開(kāi)始尋找人類的幸存者，但一直沒(méi)有找到。最后，一對(duì)感知能力優(yōu)于其它機(jī)器人的男女機(jī)器人相愛(ài)了。這時(shí)機(jī)器人進(jìn)化為人類，世界又起死回生了。

100多年前，機(jī)器人Robot這個(gè)詞誕生的時(shí)候，小說(shuō)家卡雷爾·恰佩克似乎就覺(jué)得終有一天，具身智能會(huì)來(lái)到人類世界，并且和人類的關(guān)系變得破朔迷離，機(jī)器人可以消滅人類，也可以進(jìn)化為人類。我不知道是否有一天，這個(gè)幻想的故事會(huì)真實(shí)抵達(dá)我們的世界，但稍微能安撫大家的是，至少在現(xiàn)在，我們依然距離這個(gè)故事還很遙遠(yuǎn)。