杨幂免费视频,美女集中营韩国vip视频,日本在线观看美女在线观看视频

文章來源：肖群稀鮑雁辛國(guó)君產(chǎn)業(yè)研究

AI大模型+人形機(jī)器人，邁出了通向通用人工智能的一大步。機(jī)器人進(jìn)化路徑：從固定到移動(dòng)，從獨(dú)立到協(xié)作，從單一到通用。服務(wù)機(jī)器人商業(yè)化落地的前提是產(chǎn)品能提供真實(shí)價(jià)值，真實(shí)價(jià)值的判斷在于機(jī)器人能否通用。把機(jī)器人做成人形，就是為了使機(jī)器人的執(zhí)行能力更加通用，上游核心零部件隨著協(xié)作機(jī)械臂的興起快速發(fā)展，促進(jìn)了人形機(jī)器人硬件本體制造能力的提升，同時(shí)伴隨自動(dòng)駕駛技術(shù)的高速發(fā)展，人形機(jī)器人在視覺、SLAM與基礎(chǔ)AI上有了更多的方案選擇，大模型的出現(xiàn)，會(huì)從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合，形成感知、決策、控制閉環(huán)。我們認(rèn)為機(jī)器人產(chǎn)業(yè)將進(jìn)入滲透率快速提升的新階段，看好機(jī)器人產(chǎn)業(yè)發(fā)展前景。

AI大模型從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合，形成感知、決策、控制閉環(huán)，使機(jī)器人具備常識(shí)。1）語音：語言大模型為機(jī)器人的自主語音交互難題提供了解決方案，在上下文理解、多語種識(shí)別、多輪對(duì)話、情緒識(shí)別、模糊語義識(shí)別等通用語言任務(wù)上，ChatGPT顯著優(yōu)于深度學(xué)習(xí)，表現(xiàn)出了不亞于人類的理解力和語言生成能力。2）視覺：人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜，通用視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景：大模型的強(qiáng)擬合能力使人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí)，具備更高的精確度；通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí)，并遷移到下游任務(wù)中，基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性，提升場(chǎng)景泛化效果。3）決策：基于多模態(tài)的預(yù)訓(xùn)練大模型將增強(qiáng)機(jī)器人可完成任務(wù)的多樣性與通用性，讓其不局限于文本和圖像等單個(gè)部分，而是多應(yīng)用相容，拓展單一智能為融合智能，使機(jī)器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化決策。

驅(qū)動(dòng)：相比工業(yè)機(jī)器人，人形機(jī)器人硬件需求更復(fù)雜、更多元，特斯拉采用的電驅(qū)方案具備商業(yè)化應(yīng)用基礎(chǔ)。特斯拉Optimus采取電驅(qū)方案，預(yù)計(jì)全身共40個(gè)執(zhí)行器，其中：身體關(guān)節(jié)28個(gè)執(zhí)行器，旋轉(zhuǎn)關(guān)節(jié)方案采用伺服電機(jī)+減速器方案，我們推測(cè)單臺(tái)人形機(jī)器人將搭載6臺(tái)RV減速器（髖、腰腹）和8臺(tái)諧波減速器（肩、腕）；我們猜測(cè)擺動(dòng)角度不大的關(guān)節(jié)（膝、肘、踝、腕）采用力矩電機(jī)+行星滾柱絲杠方案，將使用14個(gè)線性執(zhí)行器。2）機(jī)械手采用微型電機(jī)+腱繩驅(qū)動(dòng)傳動(dòng)結(jié)構(gòu)，單手6個(gè)電機(jī)，11個(gè)自由度?？招谋姍C(jī)結(jié)構(gòu)緊湊、能量密度高、能耗低，和人形機(jī)器人機(jī)械手需求契合度高。

減速器、伺服電機(jī)、線性執(zhí)行器、滾柱絲杠是人形機(jī)器人的運(yùn)動(dòng)控制產(chǎn)業(yè)鏈中價(jià)值量較大的硬件設(shè)備。1）電機(jī)：數(shù)量更多、品類更豐富，需滿足全身各關(guān)節(jié)的驅(qū)動(dòng)需求，手部需采用微型電機(jī)。2）減速器、傳動(dòng)裝置：數(shù)量更多，旋轉(zhuǎn)執(zhí)行器延續(xù)了對(duì)RV、諧波減速器的需求，線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動(dòng)裝置。3）環(huán)境感知：區(qū)別工業(yè)機(jī)器人在固定場(chǎng)景外接機(jī)器視覺設(shè)備實(shí)現(xiàn)識(shí)別的方案，人形機(jī)器人場(chǎng)景復(fù)雜，需采用激光雷達(dá)、攝像頭等方案實(shí)現(xiàn)環(huán)境感知、三維重建并實(shí)現(xiàn)路徑規(guī)劃，對(duì)設(shè)備品類、算法、實(shí)時(shí)算力要求更高。4）運(yùn)動(dòng)控制：類似于工業(yè)機(jī)器人，運(yùn)控算法均是廠商自研，開發(fā)難度大，是核心競(jìng)爭(zhēng)力之一；特斯拉Optimus復(fù)用特斯拉汽車的感知和計(jì)算能力，在全自動(dòng)駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機(jī)器人的控制器系統(tǒng)。人形機(jī)器人傳感器數(shù)量、品類、執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人，對(duì)控制器實(shí)時(shí)算力、集成度要求高。

風(fēng)險(xiǎn)提示：1）經(jīng)濟(jì)復(fù)蘇低于預(yù)期；2）AI大模型、超融合發(fā)展速度低于預(yù)期；3）出現(xiàn)相似技術(shù)。

正文：

1. 通用——解決機(jī)器人高需求和低滲透率的矛盾

1.1. 機(jī)器人進(jìn)化路徑：從固定到移動(dòng)，從獨(dú)立到協(xié)作，從單一到通用

服務(wù)機(jī)器人商業(yè)化落地的前提是產(chǎn)品能提供真實(shí)價(jià)值，真實(shí)價(jià)值的判斷在于機(jī)器人能否通用。在全球勞動(dòng)力短缺的背景下，機(jī)器人產(chǎn)業(yè)蓬勃發(fā)展，2022年全球服務(wù)機(jī)器人市場(chǎng)規(guī)模217億美元，過去5年復(fù)合增速超過20%。然而，在高速發(fā)展背景下，服務(wù)機(jī)器人滲透率仍然不高，規(guī)?；虡I(yè)落地并不順利。

我們認(rèn)為原因在于：目前大多數(shù)服務(wù)機(jī)器人都或多或少的存在場(chǎng)景適應(yīng)性的問題，如無法適應(yīng)環(huán)境變化，環(huán)境變化后，用戶無法通過簡(jiǎn)單操作實(shí)現(xiàn)場(chǎng)景適配；智能化程度低，行人避障及功能表現(xiàn)不理想；機(jī)器人部署流程復(fù)雜（如SLAM建圖、目標(biāo)點(diǎn)標(biāo)注等），所有部署操作只能由機(jī)器人現(xiàn)場(chǎng)部署工程師執(zhí)行，使用者難以操作及參與，且當(dāng)需要變更時(shí)，仍需現(xiàn)場(chǎng)部署工程師進(jìn)行操作。以商超場(chǎng)景為例：

· 環(huán)境復(fù)雜：場(chǎng)景中鏤空的貨架（超高類障礙物）、狹窄的通道、易跌落區(qū)域、低矮類障礙物及臨時(shí)的攤鋪，考驗(yàn)機(jī)器人的通過性、感知能力、任務(wù)規(guī)劃能力。

· 高動(dòng)態(tài)化：商場(chǎng)人流大，易聚集，動(dòng)態(tài)障礙物多，對(duì)機(jī)器人安全避障能力要求高。

· 特殊物體較多，場(chǎng)景光線變化大：如玻璃護(hù)欄、自動(dòng)扶梯、玻璃轉(zhuǎn)門、玻璃墻等高透物體大多數(shù)機(jī)器人基本無法識(shí)別，且容易對(duì)激光雷達(dá)產(chǎn)生干擾，導(dǎo)致機(jī)器人誤判，發(fā)生碰撞、跌落、無法靠近作業(yè)。對(duì)于依賴視覺傳感器的機(jī)器人來說，要在普通光線、黑暗、過曝等光照條件都能穩(wěn)定運(yùn)行難度較大。

以上問題在工業(yè)機(jī)器人領(lǐng)域同樣存在，影響了工業(yè)機(jī)器人滲透率的提升，直到協(xié)作機(jī)器人的出現(xiàn)。2022年全球協(xié)作機(jī)器人市場(chǎng)規(guī)模89.5億元人民幣，預(yù)計(jì)2022~2028年市場(chǎng)規(guī)模將以22.05%的增速達(dá)到300億元。2017～2022年中國(guó)協(xié)作機(jī)器人銷量從3618臺(tái)增長(zhǎng)至19351臺(tái)，預(yù)計(jì)2023年出貨將超過2.5萬臺(tái)，2016～2021年市場(chǎng)規(guī)模從3.6億人民幣增長(zhǎng)至20.39億人民幣，復(fù)合增速41.5%。協(xié)作機(jī)器人也可以被認(rèn)為是服務(wù)機(jī)器人，因?yàn)樗麄冎荚谂c人類并肩作戰(zhàn)。傳統(tǒng)工業(yè)機(jī)器人在柵欄后與人分開作業(yè)，完成的工作也有限，例如焊接、噴涂、吊裝等。協(xié)作機(jī)器人更靈活，更智能，更容易合作，更具有適應(yīng)能力，使汽車、電子等制造行業(yè)能夠?qū)⒆詣?dòng)化擴(kuò)展到最終產(chǎn)品組裝，完成任務(wù)（例如拋光和施涂涂層）以及質(zhì)量檢查等等。

1.2. 如何讓機(jī)器人更加通用？

使機(jī)器人更加通用，需要機(jī)器人的感知能力、思考和決策能力、行動(dòng)執(zhí)行能力的全面提升。我們認(rèn)為GPT（預(yù)訓(xùn)練大預(yù)言模型）和人形機(jī)器人的出現(xiàn)，是機(jī)器人在邁向通用人工智能的道路上的一大步。

感知世界的能力（機(jī)器人的眼睛）：機(jī)器人自主移動(dòng)的感知和定位技術(shù)中激光和視覺導(dǎo)航是主流應(yīng)用方案。計(jì)算機(jī)視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)，目前通用的視覺大模型正處于研究探索階段，人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜，視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景。一方面，大模型的強(qiáng)擬合能力使得人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí)具備更高的精確度；另一方面，大模型解決了深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布，場(chǎng)景泛化效果不佳的問題，通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí)，并遷移到下游任務(wù)中，基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性，提升場(chǎng)景泛化效果。

思考和決策的能力（機(jī)器人的大腦）：目前的機(jī)器人都是專用機(jī)器人，只能在限定場(chǎng)景中應(yīng)用，即使是機(jī)器人抓取，基于計(jì)算機(jī)視覺，仍然是在限定場(chǎng)景中，算法僅用于識(shí)別物體，如何做、做什么仍需要人的定義。要讓機(jī)器人通用，叫他去澆花，他就知道去拿水壺，接水，然后澆花，這是需要常識(shí)才能完成的事情。如何能讓機(jī)器人擁有常識(shí)？在大模型出現(xiàn)之前，這個(gè)問題幾乎是無解的。大模型讓機(jī)器人可以擁有常識(shí)，從而具備通用性去完成各種任務(wù)，徹底改變通用機(jī)器人實(shí)現(xiàn)的模式。

執(zhí)行能力（機(jī)器人的四肢）：行動(dòng)能力（腿）+精細(xì)操作（手）。把機(jī)器人做成人形，就是為了讓機(jī)器人的執(zhí)行能力更加通用。機(jī)器人執(zhí)行任務(wù)時(shí)所處的環(huán)境是按照人類的體型建造起來的：建筑、道路、設(shè)施、工具等，這個(gè)世界是為了方便人類這種人形生物才這樣設(shè)計(jì)。如果出現(xiàn)了某種新形態(tài)的機(jī)器人，人們就必須重新設(shè)計(jì)一套機(jī)器人適應(yīng)的全新環(huán)境。設(shè)計(jì)在某個(gè)特定范圍內(nèi)執(zhí)行任務(wù)的機(jī)器人相對(duì)容易，如果想要提高機(jī)器人的通用性，就必須選擇可以作為分身的人形機(jī)器人。此外，人類與人形機(jī)器人更容易有情感上的交流，人形機(jī)器人會(huì)讓人感到親近。日本機(jī)器人專家森昌弘的假設(shè)指出：由于機(jī)器人與人類在外表、動(dòng)作上相似，所以人類亦會(huì)對(duì)機(jī)器人產(chǎn)生正面的情感。

1.3. 人形機(jī)器人進(jìn)入商業(yè)化前夜

從2015年DARPA Robotics Challenge，到2019年人形機(jī)器人各種科研項(xiàng)目被砍，業(yè)內(nèi)普遍唱衰，再到2022年特斯拉帶動(dòng)的百花齊放，人形機(jī)器人產(chǎn)業(yè)處于螺旋式向上的發(fā)展之中。波士頓動(dòng)力的Atlas、Tesla的Optimus、小米CyberOne、ihmc的Nadia，Agility Robotics的Nadia、日系A(chǔ)simo與HRP-5P都在探索人形機(jī)器人的商業(yè)形態(tài)。我們對(duì)人形機(jī)器人發(fā)展過程中有代表性的產(chǎn)品進(jìn)行了梳理：

第一臺(tái)人形機(jī)器人WABOT-1（1973年）。1973年日本早稻田大學(xué)加藤一郎帶領(lǐng)團(tuán)隊(duì)研發(fā)出世界上第一臺(tái)真人大小的人形智能機(jī)器人——WABOT-1。該機(jī)器人有肢體控制系統(tǒng)、視覺系統(tǒng)和對(duì)話系統(tǒng)，胸部裝有兩個(gè)攝像頭，手部裝有觸覺傳感器。

本田 E系列機(jī)器人（1986～1993年），奠定穩(wěn)定行走基礎(chǔ)。本田推出E系列雙足機(jī)器人，E0到E6，走路速度由慢變快，從走直線到在臺(tái)階或坡地上均可實(shí)現(xiàn)穩(wěn)定行走，為下一步P系列類人機(jī)器人的研發(fā)奠定了基礎(chǔ)，是機(jī)器人歷史的里程碑。

本田P系列機(jī)器人（1993-1997年）& ASIMO（2000～2011）。1993年本田開發(fā)第1個(gè)仿人機(jī)器人原型P1，2000年P(guān)系列中的第4臺(tái)也是最后一臺(tái)機(jī)器人P4誕生，通俗稱呼阿西莫（ASIMO）。2011年推出的第三代ASIMO身高1.3米，體重48公斤，行走速度是0-9km/h，2012最新版的ASIMO，除具備了行走功能與各種人類肢體動(dòng)作之外，還可以預(yù)先設(shè)定動(dòng)作，并依據(jù)人類的聲音、手勢(shì)等指令，做出相應(yīng)動(dòng)作。他還具備了基本的記憶與辨識(shí)能力。2018年本田宣布停止人形機(jī)器人ASIMO的研發(fā)，專注于該技術(shù)的更多實(shí)際應(yīng)用。

HPR系列機(jī)器人（1998～2018）代替建筑行業(yè)的繁重工作：這是由日本經(jīng)濟(jì)產(chǎn)業(yè)省和新能源與產(chǎn)業(yè)技術(shù)開發(fā)組織贊助，川田工業(yè)株式會(huì)社（Kawada Industries）牽頭與國(guó)立先進(jìn)工業(yè)科學(xué)技術(shù)研究院（AIST）和川崎重工株式會(huì)社共同研發(fā)的通用家庭助手機(jī)器人的開發(fā)項(xiàng)目。項(xiàng)目起始于1998年HPR-1（Honda P3），先后推出了HPR-2P、HRP-2、HRP-3P、HRP-3、HRP-4C、HRP-4等多個(gè)人形機(jī)器人。目前最新的機(jī)器人HPR-5P于2018年發(fā)布，該機(jī)器人身高182cm，體重101kg，全身總共37個(gè)自由度，旨在替代建筑行業(yè)中的繁重工作。

波士頓動(dòng)力（1986～2023）：腿足式機(jī)器人運(yùn)控技術(shù)最前沿，軍事化應(yīng)用特征明顯。波士頓動(dòng)力最早因研發(fā)的Big Dog而被世界聞名，公司發(fā)布了BigDog、Rise、LittleDog、PETMAN、LS3、Spot、Handle、Atlas等多個(gè)機(jī)器人，從單足、多足機(jī)器人到人形機(jī)器人，有著明顯的軍事化應(yīng)用的路線特征。波士頓動(dòng)力是一家典型的技術(shù)驅(qū)動(dòng)的公司，從機(jī)械結(jié)構(gòu)、算法步態(tài)控制、動(dòng)力系統(tǒng)耗能等方面對(duì)機(jī)器人持續(xù)迭代更新，核心在于發(fā)展腿式機(jī)器人以適應(yīng)不同環(huán)境的使用，技術(shù)關(guān)鍵在于動(dòng)力學(xué)研究和機(jī)器人平衡態(tài)的控制。

Digit系列機(jī)器人（2019～2023）：具備行走能力，專注物流領(lǐng)域商業(yè)化。Digit系列是Agility Robotics公司在物流領(lǐng)域商業(yè)化的嘗試，公司是從俄勒岡州立大學(xué)（OSU）拆分出來的機(jī)器人公司，致力于研發(fā)和制造雙足機(jī)器人，前后開發(fā)了MABEL、ATRIAS、CASSIE、DIGIT系列足式機(jī)器人。其中CASSIE可實(shí)現(xiàn)4m/s的驚人配速，是腿足式機(jī)器人在快速行走能力上里程碑式的成果。2019年，Agility推出了人形機(jī)器人Digit，在Cassie的基礎(chǔ)上加上了軀干、手臂，并增加了更多計(jì)算能力，支持負(fù)載18kg的箱子，可進(jìn)行移動(dòng)包裹、卸貨等工作。

小米“鐵大“機(jī)器人（2022）：21年小米曾發(fā)布一款機(jī)械狗Cyberdog，是其在足式機(jī)器人的首次嘗試。2022年8月，小米首個(gè)全尺寸人形仿生機(jī)器人 CyberOne 亮相秋季發(fā)布會(huì)。CyberOne 身高 177cm，體重52kg，藝名“鐵大”，能感知 45 種人類語義情緒，分辨85 種環(huán)境語義；搭載小米自研全身控制算法，可協(xié)調(diào)運(yùn)動(dòng) 21 個(gè)關(guān)節(jié)；配備了 Mi Sense 視覺空間系統(tǒng)，可三維重建真實(shí)世界；全身 5 種關(guān)節(jié)驅(qū)動(dòng)，峰值扭矩 300Nm。

特斯拉Optimus機(jī)器人（2022年）：推動(dòng)人形機(jī)器人商業(yè)化。Optimus原型機(jī)亮相于2022年特斯拉AI day，身高1.72m，體重 57kg，可負(fù)載 20kg，最快運(yùn)動(dòng)速度 8km/h。目前Optimus仍處于研發(fā)進(jìn)展迅速，僅8個(gè)月機(jī)器人已可實(shí)現(xiàn)直立行走、搬運(yùn)、灑水等復(fù)雜動(dòng)作。

交互型機(jī)器人索菲亞（2015）和阿梅卡（2021），面部表情擬人化的嘗試: 索菲亞（Sophia）是由漢森機(jī)器人技術(shù)公司（Hanson Robotics）開發(fā)的類人機(jī)器人，2015年面世。索菲婭皮膚由Frubber仿生材料制成，基于語音識(shí)別、計(jì)算機(jī)視覺技術(shù)，可以識(shí)別和復(fù)制各種各樣的人類面部表情，并通過分析人類表情和語言同人類對(duì)話。阿梅卡（Ameca）由英國(guó)領(lǐng)先的仿生娛樂機(jī)器人設(shè)計(jì)和制造公司——工程藝術(shù)有限公司（Engineered Arts）打造，具有12個(gè)全新的面部致動(dòng)器，經(jīng)過面部表情升級(jí)后，能對(duì)著鏡子眨眼、抿嘴、皺眉、微笑。阿梅卡能夠自由進(jìn)行幾十種仿人類的肢體運(yùn)動(dòng)，被認(rèn)為是“世界上最逼真機(jī)器人”。

我們選擇了7款有代表性的人形機(jī)器人，從驅(qū)動(dòng)、感知、控制器三個(gè)方面進(jìn)行技術(shù)路線梳理。

2. AI大模型+人形機(jī)器人：給機(jī)器人提供常識(shí)

2.1. AI大模型訓(xùn)練過程及發(fā)展趨勢(shì)

大模型 = 預(yù)訓(xùn)練+微調(diào)。從2017年Transformer開始，到GPT-1、BERT、GPT-2、GPT-3、GPT-4模型的出現(xiàn)，模型的參數(shù)量級(jí)實(shí)現(xiàn)了從億到百萬億量級(jí)的突破，大模型（預(yù)訓(xùn)練模型、Foundation Models）在無標(biāo)注的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練，利用專用的小規(guī)模的標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)（fine- tuning），可用于下游任務(wù)預(yù)測(cè)。遷移學(xué)習(xí)是預(yù)訓(xùn)練模型的主要思想，當(dāng)目標(biāo)場(chǎng)景數(shù)據(jù)不足時(shí)，先在數(shù)據(jù)量大的公開數(shù)據(jù)集上訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的AI模型，然后將其遷移到目標(biāo)場(chǎng)景中，通過目標(biāo)場(chǎng)景中的小數(shù)據(jù)集進(jìn)行微調(diào)，使模型達(dá)到要求的性能。預(yù)訓(xùn)練模型極大地減少了模型在標(biāo)記數(shù)據(jù)量下游工作的需要，從而適用于一些難以獲得大量標(biāo)記數(shù)據(jù)的場(chǎng)景。

大模型的發(fā)展過程和趨勢(shì)：從參數(shù)規(guī)模上看，大模型經(jīng)歷了從預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型的階段，參數(shù)量實(shí)現(xiàn)了從億級(jí)到百萬億級(jí)的發(fā)展。從數(shù)據(jù)模態(tài)來看，大模型正在從文本、語音、視覺等單一模態(tài)大模型，向著多種模態(tài)融合的通用人工智能方向發(fā)展。

2.2. AI大模型讓人形機(jī)器人具備通用任務(wù)解決能力

AI大模型將會(huì)從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合，形成感知、決策、控制閉環(huán)，大大提升機(jī)器人的“智慧”程度：

語音：ChatGPT作為一種預(yù)訓(xùn)練語言模型，可以被應(yīng)用于機(jī)器人與人類之間的自然語言交互。例如，機(jī)器人可以通過ChatGPT來理解人類的自然語言指令，并根據(jù)指令進(jìn)行相應(yīng)的動(dòng)作。自然語言是人類最通用的交互媒介，語音作為自然語言的載體將會(huì)是機(jī)器人擬人化的關(guān)鍵任務(wù)。盡管深度學(xué)習(xí)的出現(xiàn)已經(jīng)將以語音識(shí)別技術(shù)、自然語言處理、語音生成技術(shù)為構(gòu)成模塊的語音交互技術(shù)推向相對(duì)成熟的階段，但實(shí)際過程中仍然容易出現(xiàn)語義理解偏差（反諷等）、多輪對(duì)話能力不足、文字生硬的情況。語言大模型為機(jī)器人的自主語音交互難題提供了解決方案，在上下文理解、多語種識(shí)別、多輪對(duì)話、情緒識(shí)別、模糊語義識(shí)別等通用語言任務(wù)上，ChatGPT表現(xiàn)出了不亞于人類的理解力和語言生成能力。在以ChatGPT為代表的大模型的加持下，人形機(jī)器人對(duì)通用語言的理解和交互才能提上日程，這將會(huì)是通用AI賦能通用服務(wù)機(jī)器人的開始。

視覺：視覺大模型賦能人形機(jī)器人識(shí)別更精確，場(chǎng)景更通用。計(jì)算機(jī)視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)，目前通用的視覺大模型正處于研究探索階段。一方面，大參數(shù)量模型的強(qiáng)擬合能力使得人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí)具備更高的精確度；另一方面，通用大模型解決了過去以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布，場(chǎng)景泛化效果不佳的問題，通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí)，并遷移到下游任務(wù)中，基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性，大大提升場(chǎng)景泛化效果。人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜，視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景。

決策：通用語言、環(huán)境感知能力是自動(dòng)化決策的基礎(chǔ)，多模態(tài)大模型契合人形機(jī)器人的決策需求。單一模態(tài)智能無法解決設(shè)計(jì)多模態(tài)信息的決策問題，如“語音告知機(jī)器人去取桌子上綠色蘋果”的任務(wù)。多模態(tài)統(tǒng)一建模，目的是增強(qiáng)模型的跨模態(tài)語義對(duì)齊能力，使模型逐步標(biāo)準(zhǔn)化，使得機(jī)器人能綜合視覺、語音、文本多維度信息，實(shí)現(xiàn)各感官融合決策的能力?；诙嗄B(tài)的預(yù)訓(xùn)練大模型或?qū)⒊蔀槿斯ぶ悄芑A(chǔ)設(shè)施，增強(qiáng)機(jī)器人可完成任務(wù)的多樣性與通用性，讓其不只局限于文本和圖像等單個(gè)部分，而是多應(yīng)用相容，拓展單一智能為融合智能，使機(jī)器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化決策。

控制：生成式AI賦能機(jī)器人自我控制，最終形成感知、決策、控制閉環(huán)。使得人形機(jī)器人具備通用能力，首先需要其具備“常識(shí)”，即通用的語言理解能力（語音）和場(chǎng)景理解能力（視覺）；其次需要其具備決策能力，即接收指令后產(chǎn)生的對(duì)任務(wù)的拆解；最后，需要其具備自我控制和執(zhí)行性能，生成式AI的代碼生成能力將最終使得機(jī)器人的感知、決策、動(dòng)作形成閉環(huán)，達(dá)到自我控制的目的。事實(shí)上，近來微軟團(tuán)隊(duì)已經(jīng)嘗試將ChatGPT應(yīng)用于機(jī)器人控制的場(chǎng)景中，通過提前寫好機(jī)器人底層函數(shù)庫，并對(duì)其描述功能作用及目標(biāo)，ChatGPT能生成完成任務(wù)的代碼。在生成式AI的推動(dòng)下，機(jī)器人編程的門檻將會(huì)慢慢降低，最終實(shí)現(xiàn)自我編程、自我控制，并完成人類習(xí)以為常的通用任務(wù)。

2.3. OpenAI和微軟將大語言模型應(yīng)用于機(jī)器人

OpenAI領(lǐng)投挪威人形機(jī)器人公司1X Technologies。2017年OpenAI推出了用于機(jī)器人的開源軟件Roboschool，在機(jī)器人中部署了新的單樣本模仿學(xué)習(xí)算法，通過人類在VR中向機(jī)器人演示如何執(zhí)行任務(wù)。2018年，OpenAI發(fā)布了8個(gè)模擬機(jī)器人環(huán)節(jié)和事后經(jīng)驗(yàn)回訪基線實(shí)施，并用來訓(xùn)練在物理機(jī)器人上工作的模型。22年，Halodi Robotics在挪威Sunnaas醫(yī)院測(cè)試了醫(yī)護(hù)助理機(jī)器人EVE，讓其執(zhí)行后勤工作。2023年3 月 28 日，OpenAI領(lǐng)投挪威人形機(jī)器人公司1X Technologies(前稱 Halodi Robotics)。Halodi Robotics通過Ansys初創(chuàng)公司計(jì)劃利用Ansys仿真軟件開發(fā)能在日常場(chǎng)景中與人安全協(xié)作的人形機(jī)器人。

微軟提出ChatGPT for Robotics，利用ChatGPT 解決機(jī)器人應(yīng)用程序編寫問題。2023年4月，微軟在其官網(wǎng)發(fā)表了一篇名為《機(jī)器人 ChatGPT：設(shè)計(jì)原則和模型能力（ChatGPT for Robotics: Design Principles and Model Abilities）》論文，這項(xiàng)研究的目標(biāo)是觀察ChatGPT是否可以超越文本思考，并對(duì)物理世界進(jìn)行推理來幫助完成機(jī)器人任務(wù)。人類目前仍然嚴(yán)重依賴手寫代碼來控制機(jī)器人，該團(tuán)隊(duì)一直在探索如何改變這一現(xiàn)實(shí)，使用OpenAI的新人工智能語言模型ChatGPT實(shí)現(xiàn)自然的人機(jī)交互。

人類可以從機(jī)器人流程中的in the loop變?yōu)閛n the loop。論文提出，不要求LLM輸出特定于機(jī)器人平臺(tái)或者庫的代碼，只是創(chuàng)造簡(jiǎn)單的高級(jí)函數(shù)庫供ChatGPT調(diào)用，并在后端講高級(jí)函數(shù)庫鏈接到各個(gè)平臺(tái)，場(chǎng)景和工具的現(xiàn)有庫和API。結(jié)果證明，ChatGPT的引入，使得人類通過自然語言等高級(jí)語言命令于語言模型交互，用戶通過文本對(duì)話不斷將人類的感知信息輸入ChatGPT，ChatGPT解析觀察流并在對(duì)話系統(tǒng)中輸出相關(guān)操作，不需要生成代碼。這樣，人類可以實(shí)現(xiàn)無縫部署各種平臺(tái)和任務(wù)，人類對(duì)ChatGPT輸出的質(zhì)量和安全性進(jìn)行評(píng)估。

人類在機(jī)器人pipeline中的任務(wù)主要是：1）首先，定義一組高級(jí)機(jī)器人 API 或函數(shù)庫。該庫可以針對(duì)特定的機(jī)器人類型進(jìn)行設(shè)計(jì)，并且應(yīng)該從機(jī)器人的控制棧或感知庫映射到現(xiàn)有的低層次具體實(shí)現(xiàn)。為高級(jí) API 使用描述性名稱非常重要，這樣 ChatGPT 就可以推理它們的行為。2）為 ChatGPT 編寫一個(gè)文本提示，描述任務(wù)目標(biāo)，同時(shí)明確說明高級(jí)庫中的哪些函數(shù)可用。提示還可以包含有關(guān)任務(wù)約束的信息，或者 ChatGPT 應(yīng)該如何組織它的答案，包括使用特定的編程語言，或使用輔助解析組件等。3）用戶通過直接檢查或使用模擬器來評(píng)估ChatGPT 的代碼輸出。如果需要，用戶使用自然語言向 ChatGPT 提供有關(guān)答案質(zhì)量和安全性的反饋。4）當(dāng)用戶對(duì)解決方案感到滿意時(shí)，就可以將最終的代碼部署到機(jī)器人上。

ChatGPT可以以zero-shot的方式解決簡(jiǎn)單的機(jī)器人任務(wù)。對(duì)于簡(jiǎn)單的機(jī)器人任務(wù)，用戶只需要提供文本提示和函數(shù)庫描述，不需要提供具體的代碼實(shí)例，ChatGPT就可以zero-shot解決時(shí)空推理（ChatGPT控制一個(gè)平面機(jī)器人，用視覺伺服捕捉籃球位置）、控制真實(shí)無人機(jī)完成物體尋找、操縱虛擬無人機(jī)實(shí)現(xiàn)工業(yè)檢測(cè)等問題。

在人類用戶on the loop交互下，ChatGPT可以完成更復(fù)雜的機(jī)器人控制任務(wù)。1）課程學(xué)習(xí)：教授ChatGPT簡(jiǎn)單的拾取和放置物體的技能，并將所學(xué)會(huì)的技能按照邏輯組合用于更復(fù)雜的區(qū)塊排列任務(wù)；2）Airsim避障：ChatGPT構(gòu)建了避障算法的大部分關(guān)鍵模塊，但需要人工反饋無人機(jī)朝向等信息。人工反饋高級(jí)的自然語言，ChatGPT能夠理解并在適當(dāng)?shù)奈恢眠M(jìn)行代碼修正。

ChatGPT的對(duì)話系統(tǒng)能夠解析觀察并輸出相關(guān)操作。1）帶API的閉環(huán)對(duì)象導(dǎo)航：為ChatGPT提供了對(duì)計(jì)算機(jī)視覺模型的訪問，作為其函數(shù)庫的一部分。ChatGPT在其“代碼“輸出中構(gòu)建感知-動(dòng)作循環(huán)，實(shí)現(xiàn)估計(jì)相對(duì)物體角度、探索未知環(huán)境、并導(dǎo)航到用戶指定對(duì)象的功能；2）使用ChatGPT的對(duì)話進(jìn)系統(tǒng)進(jìn)行閉環(huán)視覺語言導(dǎo)航。在模擬場(chǎng)景下，人類用戶將新的狀態(tài)觀測(cè)值作為對(duì)話文本輸入，ChatGPT的輸出僅返回向前的運(yùn)動(dòng)距離和轉(zhuǎn)彎角度，實(shí)現(xiàn)了用“對(duì)話系統(tǒng)”指導(dǎo)機(jī)器人一步步導(dǎo)航到感興趣區(qū)域。

3. 人形，讓機(jī)器人的運(yùn)動(dòng)執(zhí)行更加通用

執(zhí)行能力（機(jī)器人的四肢）：行動(dòng)能力（腿）+精細(xì)操作（手）。把機(jī)器人做成人形，是為了讓機(jī)器人的執(zhí)行能力更加通用。機(jī)器人執(zhí)行任務(wù)時(shí)所處的環(huán)境是按照人類的體型建造起來的：建筑、道路、設(shè)施、工具等，這個(gè)世界是為了方便人類這種人形生物才這樣設(shè)計(jì)。如果出現(xiàn)了某種新形態(tài)的機(jī)器人，人們就必須重新設(shè)計(jì)一套機(jī)器人適應(yīng)的全新環(huán)境。設(shè)計(jì)在某個(gè)特定范圍內(nèi)執(zhí)行任務(wù)的機(jī)器人相對(duì)容易，如果想要提高機(jī)器人的通用性，就必須選擇可以作為分身的人形機(jī)器人。本章選擇兩個(gè)代表性產(chǎn)品波士頓動(dòng)力Altas和特斯拉Optimus，從驅(qū)動(dòng)、環(huán)境感知、運(yùn)動(dòng)控制三方面對(duì)比方案差異，探尋人形機(jī)器人運(yùn)動(dòng)控制方案商業(yè)化的趨勢(shì)。

波士頓動(dòng)力Altas定位于技術(shù)的前瞻性研究，側(cè)重探索技術(shù)應(yīng)用的可能性而非商業(yè)化。從硬件架構(gòu)來看， Altas具備出色的動(dòng)態(tài)性能、瞬時(shí)功率密度和穩(wěn)定的運(yùn)動(dòng)姿態(tài)，可以實(shí)現(xiàn)高負(fù)載、高復(fù)雜度的運(yùn)動(dòng), 像是一場(chǎng)技術(shù)驅(qū)動(dòng)的盛宴。商業(yè)化并非波士頓動(dòng)力當(dāng)前主要考量因素，Altas項(xiàng)目更多作為一個(gè)研究平臺(tái)供研究者進(jìn)行學(xué)術(shù)試驗(yàn)，側(cè)重探索技術(shù)應(yīng)用的可能性而非商業(yè)化。

特斯拉Optimus發(fā)心于人形機(jī)器人的規(guī)?；?、商業(yè)化、標(biāo)準(zhǔn)化，商業(yè)化的目標(biāo)驅(qū)動(dòng)下，成本、能耗成為特斯拉團(tuán)隊(duì)的考量指標(biāo)。

3.1. 驅(qū)動(dòng)：液壓驅(qū)動(dòng) VS 電動(dòng)驅(qū)動(dòng)

3.1.1. 電驅(qū)成本低、易于維護(hù)、控制精度高，商業(yè)化潛力高

主流人形機(jī)器人的驅(qū)動(dòng)方案包括液壓驅(qū)動(dòng)和電氣驅(qū)動(dòng)（伺服電機(jī)+減速器）兩種。相比電氣驅(qū)動(dòng)，液壓驅(qū)動(dòng)輸出力矩大、功率密度高和過載能力強(qiáng)，因而能滿足波士頓動(dòng)力Atlas高負(fù)載動(dòng)作和快速運(yùn)動(dòng)的需求；但液壓驅(qū)動(dòng)的方式能耗大、成本高，同時(shí)容易出現(xiàn)漏液等問題、可維護(hù)性差。一方面，商用場(chǎng)景下高負(fù)載動(dòng)作（如跑酷、后空翻等）屬于非必要行為，另一方面，隨著電驅(qū)系統(tǒng)功率密度和響應(yīng)速度的不斷提升，我們認(rèn)為結(jié)合電驅(qū)成本低、易于維護(hù)且技術(shù)應(yīng)用成熟的優(yōu)勢(shì)，基于電驅(qū)的人形機(jī)器人商業(yè)化可能性更高。

3.1.2. 波士頓動(dòng)力Atlas：采用“液壓驅(qū)動(dòng)”方案

波士頓動(dòng)力全身共28個(gè)液壓執(zhí)行器，可執(zhí)行高負(fù)載復(fù)雜動(dòng)作。HPU（Hydraulic Power Unit）作為Atlas的液壓動(dòng)力源具備極小尺寸的高能量密度（~5kW/5Kg），電液經(jīng)由流體管線連接至各液壓泵，可實(shí)現(xiàn)快速響應(yīng)和精確力控，其高瞬時(shí)功率密度的液壓驅(qū)動(dòng)器能支持機(jī)器人實(shí)現(xiàn)奔跑、跳躍、后空翻等復(fù)雜動(dòng)作，機(jī)器人的結(jié)構(gòu)強(qiáng)度得益于其高集成度的結(jié)構(gòu)總成。根據(jù)官方披露影像及專利細(xì)節(jié)，我們推測(cè)：踝、膝、肘關(guān)節(jié)由液壓缸驅(qū)動(dòng)；髖、肩、腕關(guān)節(jié)及腰腹由擺動(dòng)液壓缸驅(qū)動(dòng)。

3.1.3. 特斯拉Optimus：采用“電動(dòng)驅(qū)動(dòng)”方案

單臺(tái)Optimus全身40個(gè)執(zhí)行器，是單臺(tái)多關(guān)節(jié)機(jī)器人的6～7倍。其中：身體關(guān)節(jié)部分采用減速器/絲桿+伺服電機(jī)的傳動(dòng)方式，共計(jì)28個(gè)執(zhí)行器；機(jī)械手基于欠驅(qū)動(dòng)方案，采用電機(jī)+腱繩驅(qū)動(dòng)（tendon-driven）的傳動(dòng)結(jié)構(gòu)，單手6個(gè)電機(jī)，11個(gè)自由度。

根據(jù)Testla AI Day，特斯拉自主研發(fā)的六種執(zhí)行器中，旋轉(zhuǎn)關(guān)節(jié)方案繼承工業(yè)機(jī)器人，線性執(zhí)行器和微型伺服電機(jī)是人形機(jī)器人新需求，具體看：

旋轉(zhuǎn)關(guān)節(jié)方案（肩、髖、腰腹）：伺服電機(jī)+減速器，我們推測(cè)，單臺(tái)人形機(jī)器人將搭載6臺(tái)RV減速器（髖、腰腹）和8臺(tái)諧波減速器（肩、腕）。根據(jù)特斯拉Optimus執(zhí)行器方案，RV減速器體積大、負(fù)載能力強(qiáng)、剛度高，適用于髖、腰腹大負(fù)載關(guān)節(jié)，其中髖關(guān)節(jié)2*2臺(tái)、腰腹兩個(gè)自由度2臺(tái)，共計(jì)6臺(tái)；諧波減速器體積小、傳動(dòng)比高、精密度高，適用于肩、腕關(guān)節(jié)，其中肩關(guān)節(jié)3*2臺(tái)、腕關(guān)節(jié)1*2臺(tái)，共計(jì)8臺(tái)。隨著更多廠商的涌入，其執(zhí)行器方案可能存在差異，若線性執(zhí)行器被旋轉(zhuǎn)執(zhí)行器替代，單臺(tái)機(jī)器人減速器數(shù)量將有所提升。

擺動(dòng)角度不大的關(guān)節(jié)（膝、肘、踝、腕）：線形執(zhí)行器（伺服電機(jī)+絲杠）。一體化伺服電動(dòng)缸（伺服電機(jī)+絲杠）方案具備自鎖能力，能耗比純旋轉(zhuǎn)關(guān)節(jié)方案低。線性執(zhí)行器空間利用率高、能提供較大的推動(dòng)力。我們猜測(cè)，線性執(zhí)行器基于力矩電機(jī)結(jié)合行星滾柱絲杠的方案將應(yīng)用于線性執(zhí)行器關(guān)節(jié)（髖、膝、踝、肘、腕）中，預(yù)計(jì)合計(jì)將使用14個(gè)線性執(zhí)行器。

行星滾柱絲杠以其高承載、高剛度、長(zhǎng)壽命的特點(diǎn)或成為人形機(jī)器人線性執(zhí)行器的關(guān)鍵傳動(dòng)裝置，通過適配人形機(jī)器人需求實(shí)現(xiàn)降本是大規(guī)模放量的前提。根據(jù)Tesla AI Day 2022會(huì)上展示的信息來看，Optimus線性執(zhí)行器采用的方案即為行星滾柱絲杠一體式伺服電動(dòng)缸。我們認(rèn)為下肢髖、膝、踝關(guān)節(jié)及上肢的肘關(guān)節(jié)的伺服電缸采用高承載、高剛度的行星滾柱絲杠作為傳動(dòng)裝置可能性比較大。行星滾柱絲杠結(jié)構(gòu)復(fù)雜、加工難度大因而成本很高，通過調(diào)整設(shè)計(jì)、工藝方案適配人形機(jī)器人的需要來實(shí)現(xiàn)降本是其大規(guī)模應(yīng)用的前提。

機(jī)械手：Optimus單手包括6個(gè)執(zhí)行器，可實(shí)現(xiàn)11個(gè)自由度，由微型電機(jī)驅(qū)動(dòng)，“欠驅(qū)動(dòng)”方案性價(jià)比高，“繩驅(qū)“傳動(dòng)結(jié)構(gòu)不確定性較大。“欠驅(qū)動(dòng)”，系統(tǒng)執(zhí)行器的數(shù)目小于其自由度數(shù)目，因?yàn)闄C(jī)械手本身高自由度數(shù)目的特性，出于提高系統(tǒng)設(shè)計(jì)的集成性、緊湊性和降低成本、更出于簡(jiǎn)化后續(xù)運(yùn)動(dòng)控制的考慮，設(shè)計(jì)者們會(huì)減少所使用電機(jī)的數(shù)目（即執(zhí)行器的數(shù)目），形成了執(zhí)行器的數(shù)目小于其自由度數(shù)目的欠驅(qū)動(dòng)方案。通過機(jī)械結(jié)構(gòu)的優(yōu)化實(shí)現(xiàn)以較少的執(zhí)行機(jī)構(gòu)驅(qū)動(dòng)更多的自由度，節(jié)省成本，是目前商業(yè)產(chǎn)品及高校機(jī)械手研發(fā)的主流選擇。

特斯拉Optimus機(jī)械手采取電機(jī)+腱繩驅(qū)動(dòng)的方式，可能對(duì)手部傳動(dòng)方案進(jìn)行優(yōu)化。盡管繩驅(qū)給機(jī)械手帶來了極大的靈活性，且可以極大簡(jiǎn)化設(shè)計(jì)難度和系統(tǒng)的復(fù)雜性，但其可靠性、傳動(dòng)效率都低于傳統(tǒng)連桿、齒輪齒條等方式，可能是研發(fā)團(tuán)隊(duì)短期開發(fā)的權(quán)宜之計(jì)。

機(jī)械手驅(qū)動(dòng)方案差異較大，電機(jī)的輕量化、低成本是關(guān)鍵。空心杯電機(jī)結(jié)構(gòu)緊湊、能量密度高、能耗低，和人形機(jī)器人機(jī)械手需求契合度高。機(jī)械傳動(dòng)結(jié)構(gòu)上，機(jī)械手的主流方案包括繩驅(qū)（Tendon Driven）、連桿、齒輪齒條、材料形變等。各機(jī)械手驅(qū)動(dòng)方案差異很大：Ritsumeikan Hand Ritsumeikan Hand通過耦合走線實(shí)現(xiàn)了2個(gè)驅(qū)動(dòng)器對(duì)15個(gè)關(guān)節(jié)的驅(qū)動(dòng)；Stanford/JPL靈巧手單手16個(gè)電機(jī)；Shadow Hand單手30個(gè)電機(jī)，合計(jì)24個(gè)自由度。人形機(jī)器人機(jī)械手需要滿足質(zhì)量輕、結(jié)構(gòu)緊湊和抓取力強(qiáng)的要求，因此電機(jī)應(yīng)具有尺寸小、質(zhì)量輕、精度高、扭矩大的特點(diǎn)。

3.2. 環(huán)境感知：深度相機(jī)+激光雷達(dá) VS 純視覺方案

用于實(shí)現(xiàn)機(jī)器人自主移動(dòng)的感知和定位技術(shù)原理主要包括視覺、激光、超聲波、GPS、IMU等，對(duì)應(yīng)機(jī)器人感知系統(tǒng)的不同傳感器類別。SLAM（即時(shí)定位與地圖構(gòu)建）是發(fā)展比較成熟、應(yīng)用廣泛的定位技術(shù)，它是機(jī)器人通過對(duì)各種傳感器數(shù)據(jù)進(jìn)行采集和計(jì)算，生成對(duì)其自身位置姿態(tài)的定位和場(chǎng)景地圖信息的系統(tǒng)。SLAM問題可以描述為：機(jī)器人在未知環(huán)境中從一個(gè)未知位置開始移動(dòng)，在移動(dòng)過程中根據(jù)位置估計(jì)和傳感器數(shù)據(jù)進(jìn)行自身定位，同時(shí)建造增量式地圖。獲取定位和地圖后，再根據(jù)路徑規(guī)劃算法（全局、局部、避障）實(shí)現(xiàn)自主移動(dòng)。

3.2.1. 波士頓動(dòng)力Atlas：深度相機(jī)+激光雷達(dá)

波士頓動(dòng)力Atlas感知方案融合深度相機(jī)和激光雷達(dá)，基于多平面分割算法實(shí)現(xiàn)步態(tài)規(guī)劃。Atlas機(jī)器人感知視覺技術(shù)發(fā)展相對(duì)成熟，它借鑒Google Transformer模型，搭建HydraNet神經(jīng)網(wǎng)絡(luò)模型，優(yōu)化視覺算法，完成了自動(dòng)駕駛純視覺系統(tǒng)的遷移； Atlas使用ToF深度相機(jī)以每秒15 幀的頻率生成點(diǎn)云，基于多平面分割算法從點(diǎn)云中提取環(huán)境表面，數(shù)據(jù)經(jīng)過映射后完成對(duì)周邊物體的識(shí)別。之后，工控機(jī)基于識(shí)別到的表面和物體信息進(jìn)行步態(tài)規(guī)劃，以實(shí)現(xiàn)避障、探測(cè)地面狀況以和巡航等任務(wù)。IHMC全稱為“人類與機(jī)器認(rèn)知研究所”，是一家專注于研發(fā)機(jī)器人控制算法的頂尖機(jī)構(gòu)，主要研發(fā)人形機(jī)器人行走所需的關(guān)鍵算法，而指揮Atlas機(jī)器人站立、行走等算法就來自于IHMC。

3.2.2. 特斯拉Optimus：純視覺方案，成本更低

特斯拉Optimus環(huán)境感知采用基于攝像頭的純視覺方案，移植特斯拉全自動(dòng)駕駛系統(tǒng)，成本更低。Optimus頭部搭載三枚攝像頭（魚眼攝像頭+左右攝像頭），通過全景分割+自研的三維重建算法（Occupancy Network）實(shí)現(xiàn)環(huán)境感知，純視覺方案相比激光雷達(dá)等感知設(shè)備成本更低，但對(duì)算力要求高。機(jī)器人繼承了Autopilot算法框架，通過重新采集數(shù)據(jù)訓(xùn)練適用于機(jī)器人的神經(jīng)網(wǎng)絡(luò)，以實(shí)現(xiàn)環(huán)境的三維重建、路徑規(guī)劃、自主導(dǎo)航、動(dòng)態(tài)交互等。特斯拉強(qiáng)大的全自動(dòng)駕駛系統(tǒng)（FSD）的移植，使機(jī)器人視覺方案在不增加硬件成本的前提下朝著更精確、更智能的方向進(jìn)步。

3.3. 運(yùn)動(dòng)控制：尚未形成通用的控制器解決方案

運(yùn)控算法是核心競(jìng)爭(zhēng)力，各家人形機(jī)器人控制算法均為自研。人形機(jī)器人對(duì)運(yùn)動(dòng)控制能力及感知計(jì)算能力要求較高，且不同廠商的執(zhí)行器數(shù)量和類別差異較大，未來運(yùn)控算法或成為廠商核心競(jìng)爭(zhēng)力，且自研可能性較大；此外人形機(jī)器人控制方案，對(duì)于客戶應(yīng)用場(chǎng)景的了解程度及工藝要求也是重要因素，目前下游場(chǎng)景分散，單獨(dú)一家廠商還很難將人形機(jī)器人做到各個(gè)場(chǎng)景的通用。

3.3.1. 運(yùn)動(dòng)控制算法：思路相似，均為離線行為庫和實(shí)時(shí)調(diào)整

波斯頓動(dòng)力Atlas：基于離線行為庫和模型預(yù)測(cè)控制（MPC）實(shí)現(xiàn)行為控制。離線行為庫基于軌跡優(yōu)化算法（質(zhì)心運(yùn)動(dòng)學(xué)優(yōu)化+運(yùn)動(dòng)學(xué)優(yōu)化）和動(dòng)作捕捉（Motion Capture）創(chuàng)建，技術(shù)人員可通過向庫中添加新軌跡為機(jī)器人添加新功能；機(jī)器人被指定行為目標(biāo)后，從行為庫中選擇盡可能接近目標(biāo)的行為，獲得理論上可行的動(dòng)態(tài)連續(xù)動(dòng)作。模型預(yù)測(cè)控制（MPC）根據(jù)傳感器反饋的實(shí)時(shí)信息，基于行為庫調(diào)整部分參數(shù)（力、姿勢(shì)、關(guān)節(jié)動(dòng)作時(shí)間等）的細(xì)節(jié)，以適應(yīng)真實(shí)環(huán)境同理想的差異和其他實(shí)時(shí)因素。MPC這種在線控制方式允許機(jī)器人偏離模版行動(dòng)，同時(shí)可以為兩個(gè)行為（如跳躍和后空翻）間預(yù)測(cè)過渡動(dòng)作，簡(jiǎn)化了行為庫的創(chuàng)建過程。

特斯拉Optimus：步態(tài)規(guī)劃算法思路和Altas類似，運(yùn)動(dòng)規(guī)劃器生成參考軌跡，控制器根據(jù)傳感器信息實(shí)時(shí)調(diào)整優(yōu)化行為，控制算法尚不成熟。步態(tài)控制算法中，運(yùn)動(dòng)規(guī)劃器首先基于預(yù)期路徑，生成參考軌跡，確定機(jī)器人模型的動(dòng)力學(xué)參數(shù)。控制器基于傳感器數(shù)據(jù)對(duì)機(jī)器人進(jìn)行姿態(tài)估計(jì)，根據(jù)現(xiàn)實(shí)環(huán)境和理想模型的差異，對(duì)機(jī)器人行為參數(shù)進(jìn)行校正，得到真實(shí)行為。此外，在連續(xù)的步態(tài)間，算法結(jié)合了人類行走時(shí)的腳步狀態(tài)（腳掌初始著地->腳趾最后離地），結(jié)合上半身的協(xié)調(diào)擺臂運(yùn)動(dòng)，實(shí)現(xiàn)自然擺臂、大跨步以及盡可能的直膝行走，提高行走效率與姿態(tài)。目前機(jī)器人的步態(tài)控制方案還不夠成熟，抗干擾能力較弱，動(dòng)態(tài)穩(wěn)定性差，特斯拉技術(shù)人員表示Optimus的平衡問題可能需要18～36個(gè)月解決。

類似的，Optimus上肢操作借助基于動(dòng)捕和逆運(yùn)動(dòng)學(xué)映射構(gòu)成的離線行為庫，通過實(shí)時(shí)軌跡優(yōu)化實(shí)現(xiàn)自適應(yīng)操作。

3.3.2. 運(yùn)動(dòng)控制器：多為自主設(shè)計(jì)，不同廠商需求差異大

人形機(jī)器人采集并處理多種模態(tài)數(shù)據(jù)，執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人，對(duì)控制器實(shí)時(shí)算力、集成度要求高。人形機(jī)器人傳感器類型、數(shù)量遠(yuǎn)超工業(yè)機(jī)器人，行動(dòng)過程中需同時(shí)完成3D地圖構(gòu)建、路徑規(guī)劃、多傳感器數(shù)據(jù)采集、采集運(yùn)算并實(shí)現(xiàn)閉環(huán)控制等等，流程相對(duì)繁雜，數(shù)據(jù)維度、數(shù)據(jù)量均高于工業(yè)機(jī)器人，對(duì)算力要求高。工業(yè)機(jī)器人一般通過外接的圖像采集卡和圖像處理軟件實(shí)現(xiàn)識(shí)別和檢測(cè)；移動(dòng)場(chǎng)景下的人形機(jī)器人要求圖像處理器集成于控制器芯片中，對(duì)芯片集成度有要求。

人形機(jī)器人控制器多為自主設(shè)計(jì)，不同廠商需求差異大。目前人形機(jī)器人下游場(chǎng)景的不確定性較強(qiáng)，不同廠商研發(fā)的機(jī)器人驅(qū)動(dòng)方案（如驅(qū)動(dòng)方式、電機(jī)方案）、感知方案（純視覺、多傳感器融合等）、控制算法差異較大，機(jī)器人對(duì)控制器的算力、存儲(chǔ)等有不同的需求，因此控制器的組成有差異，以自主設(shè)計(jì)為主。我們認(rèn)為人形機(jī)器人控制器采用分布式控制系統(tǒng)的方案可能性較大，即由一個(gè)核心控制器和多個(gè)小型控制器構(gòu)成，其中小型控制器用于驅(qū)動(dòng)各個(gè)身體區(qū)域的關(guān)節(jié)。

波士頓動(dòng)力Atlas：機(jī)器人本體搭載3臺(tái)工控機(jī)負(fù)責(zé)運(yùn)控系統(tǒng)的計(jì)算。控制器接收來自激光雷達(dá)、ToF深度相機(jī)的數(shù)據(jù)，生成地圖和路徑后基于離線行為庫中規(guī)劃目標(biāo)行為；實(shí)際運(yùn)動(dòng)過程中通過采集 IMU、關(guān)節(jié)位置、力、油壓、溫度等傳感器數(shù)據(jù)，針對(duì)動(dòng)作序列進(jìn)行實(shí)時(shí)調(diào)整和優(yōu)化。

特斯拉Optimus：復(fù)用特斯拉汽車的感知和計(jì)算能力，在全自動(dòng)駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機(jī)器人的控制器系統(tǒng)。FSD芯片集成了中央處理器、神經(jīng)網(wǎng)絡(luò)處理器（NPU）、圖像處理器（GPU）、同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器（SDRAM）、信號(hào)處理器（ISP）、視頻編碼器（H.265）和安全模塊，能高效率地實(shí)現(xiàn)圖像處理、環(huán)境感知、通用計(jì)算和實(shí)時(shí)行為控制。為了匹配人形機(jī)器人和汽車的需求差異，Optimus控制器芯片在FSD芯片基礎(chǔ)上做了適應(yīng)性修改，增加了對(duì)視、聽、觸覺等數(shù)據(jù)采集實(shí)現(xiàn)多模態(tài)信息輸入支持，植入語音交互和無線連接模塊支持人機(jī)溝通，具備硬件保護(hù)功能以保障機(jī)器人和周邊人員安全，進(jìn)而實(shí)現(xiàn)行為決策和運(yùn)動(dòng)控制。

4. 投資結(jié)論及產(chǎn)業(yè)鏈?zhǔn)崂?/span>

目前人形機(jī)器人廠商多為自行采購上游零件，集成以實(shí)現(xiàn)對(duì)自家機(jī)器人的適配，控制算法和控制器的設(shè)計(jì)是機(jī)器人運(yùn)動(dòng)控制的核心和壁壘，可能會(huì)延續(xù)工業(yè)機(jī)器人廠商負(fù)責(zé)本體制造+控制器部分的產(chǎn)業(yè)鏈分工。目前，通用的人形機(jī)器人控制器方案還沒出現(xiàn)，出現(xiàn)類似工業(yè)機(jī)器人運(yùn)動(dòng)控制卡這樣通用的、集成化解決方案作為獨(dú)立的產(chǎn)品供應(yīng)至少需要人形機(jī)器人量產(chǎn)之后。

相比工業(yè)機(jī)器人，人形機(jī)器人硬件需求更復(fù)雜、更多元。減速器、伺服電機(jī)、線性執(zhí)行器、滾柱絲杠是人形機(jī)器人的運(yùn)動(dòng)控制產(chǎn)業(yè)鏈中價(jià)值量較大的硬件設(shè)備。1）電機(jī)：數(shù)量更多、品類更豐富，需滿足全身各關(guān)節(jié)的驅(qū)動(dòng)需求，手部需采用微型電機(jī)。2）減速器、傳動(dòng)裝置：數(shù)量更多，旋轉(zhuǎn)執(zhí)行器延續(xù)了對(duì)RV、諧波減速器的需求，線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動(dòng)裝置。3）環(huán)境感知：區(qū)別工業(yè)機(jī)器人在固定場(chǎng)景外接機(jī)器視覺設(shè)備實(shí)現(xiàn)識(shí)別的方案，人形機(jī)器人場(chǎng)景復(fù)雜，需采用激光雷達(dá)、攝像頭等方案實(shí)現(xiàn)環(huán)境感知、三維重建并實(shí)現(xiàn)路徑規(guī)劃，對(duì)設(shè)備品類、算法、實(shí)時(shí)算力要求更高。4）運(yùn)動(dòng)控制：類似于工業(yè)機(jī)器人，運(yùn)控算法均是廠商自研，開發(fā)難度大，是核心競(jìng)爭(zhēng)力之一；人形機(jī)器人傳感器數(shù)量、品類、執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人，對(duì)控制器實(shí)時(shí)算力、集成度要求高。

5. 風(fēng)險(xiǎn)提示

1）經(jīng)濟(jì)復(fù)蘇低于預(yù)期；2）AI大模型、超融合發(fā)展速度低于預(yù)期；3）出現(xiàn)相似技術(shù)。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看