国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
機(jī)器人產(chǎn)業(yè)深度:AI大模型賦能人形機(jī)器人,邁向通用人工智能

文章來源:肖群稀 鮑雁辛 國(guó)君產(chǎn)業(yè)研究

AI大模型+人形機(jī)器人,邁出了通向通用人工智能的一大步。機(jī)器人進(jìn)化路徑:從固定到移動(dòng),從獨(dú)立到協(xié)作,從單一到通用。服務(wù)機(jī)器人商業(yè)化落地的前提是產(chǎn)品能提供真實(shí)價(jià)值,真實(shí)價(jià)值的判斷在于機(jī)器人能否通用。把機(jī)器人做成人形,就是為了使機(jī)器人的執(zhí)行能力更加通用,上游核心零部件隨著協(xié)作機(jī)械臂的興起快速發(fā)展,促進(jìn)了人形機(jī)器人硬件本體制造能力的提升,同時(shí)伴隨自動(dòng)駕駛技術(shù)的高速發(fā)展,人形機(jī)器人在視覺、SLAM與基礎(chǔ)AI上有了更多的方案選擇,大模型的出現(xiàn),會(huì)從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合,形成感知、決策、控制閉環(huán)。我們認(rèn)為機(jī)器人產(chǎn)業(yè)將進(jìn)入滲透率快速提升的新階段,看好機(jī)器人產(chǎn)業(yè)發(fā)展前景。

AI大模型從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合,形成感知、決策、控制閉環(huán),使機(jī)器人具備常識(shí)。1)語音:語言大模型為機(jī)器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識(shí)別、多輪對(duì)話、情緒識(shí)別、模糊語義識(shí)別等通用語言任務(wù)上,ChatGPT顯著優(yōu)于深度學(xué)習(xí),表現(xiàn)出了不亞于人類的理解力和語言生成能力。2)視覺:人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜,通用視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景:大模型的強(qiáng)擬合能力使人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí),具備更高的精確度;通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí),并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性,提升場(chǎng)景泛化效果。3)決策:基于多模態(tài)的預(yù)訓(xùn)練大模型將增強(qiáng)機(jī)器人可完成任務(wù)的多樣性與通用性,讓其不局限于文本和圖像等單個(gè)部分,而是多應(yīng)用相容,拓展單一智能為融合智能,使機(jī)器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化決策。

驅(qū)動(dòng):相比工業(yè)機(jī)器人,人形機(jī)器人硬件需求更復(fù)雜、更多元,特斯拉采用的電驅(qū)方案具備商業(yè)化應(yīng)用基礎(chǔ)。特斯拉Optimus采取電驅(qū)方案,預(yù)計(jì)全身共40個(gè)執(zhí)行器,其中:身體關(guān)節(jié)28個(gè)執(zhí)行器,旋轉(zhuǎn)關(guān)節(jié)方案采用伺服電機(jī)+減速器方案,我們推測(cè)單臺(tái)人形機(jī)器人將搭載6臺(tái)RV減速器(髖、腰腹)和8臺(tái)諧波減速器(肩、腕);我們猜測(cè)擺動(dòng)角度不大的關(guān)節(jié)(膝、肘、踝、腕)采用力矩電機(jī)+行星滾柱絲杠方案,將使用14個(gè)線性執(zhí)行器。2)機(jī)械手采用微型電機(jī)+腱繩驅(qū)動(dòng)傳動(dòng)結(jié)構(gòu),單手6個(gè)電機(jī),11個(gè)自由度??招谋姍C(jī)結(jié)構(gòu)緊湊、能量密度高、能耗低,和人形機(jī)器人機(jī)械手需求契合度高。

減速器、伺服電機(jī)、線性執(zhí)行器、滾柱絲杠是人形機(jī)器人的運(yùn)動(dòng)控制產(chǎn)業(yè)鏈中價(jià)值量較大的硬件設(shè)備。1)電機(jī):數(shù)量更多、品類更豐富,需滿足全身各關(guān)節(jié)的驅(qū)動(dòng)需求,手部需采用微型電機(jī)。2)減速器、傳動(dòng)裝置:數(shù)量更多,旋轉(zhuǎn)執(zhí)行器延續(xù)了對(duì)RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動(dòng)裝置。3)環(huán)境感知:區(qū)別工業(yè)機(jī)器人在固定場(chǎng)景外接機(jī)器視覺設(shè)備實(shí)現(xiàn)識(shí)別的方案,人形機(jī)器人場(chǎng)景復(fù)雜,需采用激光雷達(dá)、攝像頭等方案實(shí)現(xiàn)環(huán)境感知、三維重建并實(shí)現(xiàn)路徑規(guī)劃,對(duì)設(shè)備品類、算法、實(shí)時(shí)算力要求更高。4)運(yùn)動(dòng)控制:類似于工業(yè)機(jī)器人,運(yùn)控算法均是廠商自研,開發(fā)難度大,是核心競(jìng)爭(zhēng)力之一;特斯拉Optimus復(fù)用特斯拉汽車的感知和計(jì)算能力,在全自動(dòng)駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機(jī)器人的控制器系統(tǒng)。人形機(jī)器人傳感器數(shù)量、品類、執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人,對(duì)控制器實(shí)時(shí)算力、集成度要求高。

風(fēng)險(xiǎn)提示:1)經(jīng)濟(jì)復(fù)蘇低于預(yù)期;2)AI大模型、超融合發(fā)展速度低于預(yù)期;3)出現(xiàn)相似技術(shù)。

正文:

1. 通用——解決機(jī)器人高需求和低滲透率的矛盾

1.1. 機(jī)器人進(jìn)化路徑:從固定到移動(dòng),從獨(dú)立到協(xié)作,從單一到通用

服務(wù)機(jī)器人商業(yè)化落地的前提是產(chǎn)品能提供真實(shí)價(jià)值,真實(shí)價(jià)值的判斷在于機(jī)器人能否通用。在全球勞動(dòng)力短缺的背景下,機(jī)器人產(chǎn)業(yè)蓬勃發(fā)展,2022年全球服務(wù)機(jī)器人市場(chǎng)規(guī)模217億美元,過去5年復(fù)合增速超過20%。然而,在高速發(fā)展背景下,服務(wù)機(jī)器人滲透率仍然不高,規(guī)?;虡I(yè)落地并不順利。

我們認(rèn)為原因在于:目前大多數(shù)服務(wù)機(jī)器人都或多或少的存在場(chǎng)景適應(yīng)性的問題,如無法適應(yīng)環(huán)境變化,環(huán)境變化后,用戶無法通過簡(jiǎn)單操作實(shí)現(xiàn)場(chǎng)景適配;智能化程度低,行人避障及功能表現(xiàn)不理想;機(jī)器人部署流程復(fù)雜(如SLAM建圖、目標(biāo)點(diǎn)標(biāo)注等),所有部署操作只能由機(jī)器人現(xiàn)場(chǎng)部署工程師執(zhí)行,使用者難以操作及參與,且當(dāng)需要變更時(shí),仍需現(xiàn)場(chǎng)部署工程師進(jìn)行操作。以商超場(chǎng)景為例:

· 環(huán)境復(fù)雜:場(chǎng)景中鏤空的貨架(超高類障礙物)、狹窄的通道、易跌落區(qū)域、低矮類障礙物及臨時(shí)的攤鋪,考驗(yàn)機(jī)器人的通過性、感知能力、任務(wù)規(guī)劃能力。

· 高動(dòng)態(tài)化:商場(chǎng)人流大,易聚集,動(dòng)態(tài)障礙物多,對(duì)機(jī)器人安全避障能力要求高。

· 特殊物體較多,場(chǎng)景光線變化大:如玻璃護(hù)欄、自動(dòng)扶梯、玻璃轉(zhuǎn)門、玻璃墻等高透物體大多數(shù)機(jī)器人基本無法識(shí)別,且容易對(duì)激光雷達(dá)產(chǎn)生干擾,導(dǎo)致機(jī)器人誤判,發(fā)生碰撞、跌落、無法靠近作業(yè)。對(duì)于依賴視覺傳感器的機(jī)器人來說,要在普通光線、黑暗、過曝等光照條件都能穩(wěn)定運(yùn)行難度較大。

以上問題在工業(yè)機(jī)器人領(lǐng)域同樣存在,影響了工業(yè)機(jī)器人滲透率的提升,直到協(xié)作機(jī)器人的出現(xiàn)。2022年全球協(xié)作機(jī)器人市場(chǎng)規(guī)模89.5億元人民幣,預(yù)計(jì)2022~2028年市場(chǎng)規(guī)模將以22.05%的增速達(dá)到300億元。2017~2022年中國(guó)協(xié)作機(jī)器人銷量從3618臺(tái)增長(zhǎng)至19351臺(tái),預(yù)計(jì)2023年出貨將超過2.5萬臺(tái),2016~2021年市場(chǎng)規(guī)模從3.6億人民幣增長(zhǎng)至20.39億人民幣,復(fù)合增速41.5%。協(xié)作機(jī)器人也可以被認(rèn)為是服務(wù)機(jī)器人,因?yàn)樗麄冎荚谂c人類并肩作戰(zhàn)。傳統(tǒng)工業(yè)機(jī)器人在柵欄后與人分開作業(yè),完成的工作也有限,例如焊接、噴涂、吊裝等。協(xié)作機(jī)器人更靈活,更智能,更容易合作,更具有適應(yīng)能力,使汽車、電子等制造行業(yè)能夠?qū)⒆詣?dòng)化擴(kuò)展到最終產(chǎn)品組裝,完成任務(wù)(例如拋光和施涂涂層)以及質(zhì)量檢查等等。

1.2. 如何讓機(jī)器人更加通用?

使機(jī)器人更加通用,需要機(jī)器人的感知能力、思考和決策能力、行動(dòng)執(zhí)行能力的全面提升。我們認(rèn)為GPT(預(yù)訓(xùn)練大預(yù)言模型)和人形機(jī)器人的出現(xiàn),是機(jī)器人在邁向通用人工智能的道路上的一大步。

感知世界的能力(機(jī)器人的眼睛):機(jī)器人自主移動(dòng)的感知和定位技術(shù)中激光和視覺導(dǎo)航是主流應(yīng)用方案。計(jì)算機(jī)視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù),目前通用的視覺大模型正處于研究探索階段,人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜,視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景。一方面,大模型的強(qiáng)擬合能力使得人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí)具備更高的精確度;另一方面,大模型解決了深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布,場(chǎng)景泛化效果不佳的問題,通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí),并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性,提升場(chǎng)景泛化效果。

思考和決策的能力(機(jī)器人的大腦):目前的機(jī)器人都是專用機(jī)器人,只能在限定場(chǎng)景中應(yīng)用,即使是機(jī)器人抓取,基于計(jì)算機(jī)視覺,仍然是在限定場(chǎng)景中,算法僅用于識(shí)別物體,如何做、做什么仍需要人的定義。要讓機(jī)器人通用,叫他去澆花,他就知道去拿水壺,接水,然后澆花,這是需要常識(shí)才能完成的事情。如何能讓機(jī)器人擁有常識(shí)?在大模型出現(xiàn)之前,這個(gè)問題幾乎是無解的。大模型讓機(jī)器人可以擁有常識(shí),從而具備通用性去完成各種任務(wù),徹底改變通用機(jī)器人實(shí)現(xiàn)的模式。

執(zhí)行能力(機(jī)器人的四肢):行動(dòng)能力(腿)+精細(xì)操作(手)。把機(jī)器人做成人形,就是為了讓機(jī)器人的執(zhí)行能力更加通用。機(jī)器人執(zhí)行任務(wù)時(shí)所處的環(huán)境是按照人類的體型建造起來的:建筑、道路、設(shè)施、工具等,這個(gè)世界是為了方便人類這種人形生物才這樣設(shè)計(jì)。如果出現(xiàn)了某種新形態(tài)的機(jī)器人,人們就必須重新設(shè)計(jì)一套機(jī)器人適應(yīng)的全新環(huán)境。設(shè)計(jì)在某個(gè)特定范圍內(nèi)執(zhí)行任務(wù)的機(jī)器人相對(duì)容易,如果想要提高機(jī)器人的通用性,就必須選擇可以作為分身的人形機(jī)器人。此外,人類與人形機(jī)器人更容易有情感上的交流,人形機(jī)器人會(huì)讓人感到親近。日本機(jī)器人專家森昌弘的假設(shè)指出:由于機(jī)器人與人類在外表、動(dòng)作上相似,所以人類亦會(huì)對(duì)機(jī)器人產(chǎn)生正面的情感。

1.3. 人形機(jī)器人進(jìn)入商業(yè)化前夜

從2015年DARPA Robotics Challenge,到2019年人形機(jī)器人各種科研項(xiàng)目被砍,業(yè)內(nèi)普遍唱衰,再到2022年特斯拉帶動(dòng)的百花齊放,人形機(jī)器人產(chǎn)業(yè)處于螺旋式向上的發(fā)展之中。波士頓動(dòng)力的Atlas、Tesla的Optimus、小米CyberOne、ihmc的Nadia,Agility Robotics的Nadia、日系A(chǔ)simo與HRP-5P都在探索人形機(jī)器人的商業(yè)形態(tài)。我們對(duì)人形機(jī)器人發(fā)展過程中有代表性的產(chǎn)品進(jìn)行了梳理:

第一臺(tái)人形機(jī)器人WABOT-1(1973年)。1973年日本早稻田大學(xué)加藤一郎帶領(lǐng)團(tuán)隊(duì)研發(fā)出世界上第一臺(tái)真人大小的人形智能機(jī)器人——WABOT-1。該機(jī)器人有肢體控制系統(tǒng)、視覺系統(tǒng)和對(duì)話系統(tǒng),胸部裝有兩個(gè)攝像頭,手部裝有觸覺傳感器。

本田 E系列機(jī)器人(1986~1993年),奠定穩(wěn)定行走基礎(chǔ)。本田推出E系列雙足機(jī)器人,E0到E6,走路速度由慢變快,從走直線到在臺(tái)階或坡地上均可實(shí)現(xiàn)穩(wěn)定行走,為下一步P系列類人機(jī)器人的研發(fā)奠定了基礎(chǔ),是機(jī)器人歷史的里程碑。

本田P系列機(jī)器人(1993-1997年)& ASIMO(2000~2011)。1993年本田開發(fā)第1個(gè)仿人機(jī)器人原型P1,2000年P(guān)系列中的第4臺(tái)也是最后一臺(tái)機(jī)器人P4誕生,通俗稱呼阿西莫(ASIMO)。2011年推出的第三代ASIMO身高1.3米,體重48公斤,行走速度是0-9km/h,2012最新版的ASIMO,除具備了行走功能與各種人類肢體動(dòng)作之外,還可以預(yù)先設(shè)定動(dòng)作,并依據(jù)人類的聲音、手勢(shì)等指令,做出相應(yīng)動(dòng)作。他還具備了基本的記憶與辨識(shí)能力。2018年本田宣布停止人形機(jī)器人ASIMO的研發(fā),專注于該技術(shù)的更多實(shí)際應(yīng)用。

HPR系列機(jī)器人(1998~2018)代替建筑行業(yè)的繁重工作:這是由日本經(jīng)濟(jì)產(chǎn)業(yè)省和新能源與產(chǎn)業(yè)技術(shù)開發(fā)組織贊助,川田工業(yè)株式會(huì)社(Kawada Industries)牽頭與國(guó)立先進(jìn)工業(yè)科學(xué)技術(shù)研究院(AIST)和川崎重工株式會(huì)社共同研發(fā)的通用家庭助手機(jī)器人的開發(fā)項(xiàng)目。項(xiàng)目起始于1998年HPR-1(Honda P3),先后推出了HPR-2P、HRP-2、HRP-3P、HRP-3、HRP-4C、HRP-4等多個(gè)人形機(jī)器人。目前最新的機(jī)器人HPR-5P于2018年發(fā)布,該機(jī)器人身高182cm,體重101kg,全身總共37個(gè)自由度,旨在替代建筑行業(yè)中的繁重工作。

波士頓動(dòng)力(1986~2023):腿足式機(jī)器人運(yùn)控技術(shù)最前沿,軍事化應(yīng)用特征明顯。波士頓動(dòng)力最早因研發(fā)的Big Dog而被世界聞名,公司發(fā)布了BigDog、Rise、LittleDog、PETMAN、LS3、Spot、Handle、Atlas等多個(gè)機(jī)器人,從單足、多足機(jī)器人到人形機(jī)器人,有著明顯的軍事化應(yīng)用的路線特征。波士頓動(dòng)力是一家典型的技術(shù)驅(qū)動(dòng)的公司,從機(jī)械結(jié)構(gòu)、算法步態(tài)控制、動(dòng)力系統(tǒng)耗能等方面對(duì)機(jī)器人持續(xù)迭代更新,核心在于發(fā)展腿式機(jī)器人以適應(yīng)不同環(huán)境的使用,技術(shù)關(guān)鍵在于動(dòng)力學(xué)研究和機(jī)器人平衡態(tài)的控制。

Digit系列機(jī)器人(2019~2023):具備行走能力,專注物流領(lǐng)域商業(yè)化。Digit系列是Agility Robotics公司在物流領(lǐng)域商業(yè)化的嘗試,公司是從俄勒岡州立大學(xué)(OSU)拆分出來的機(jī)器人公司,致力于研發(fā)和制造雙足機(jī)器人,前后開發(fā)了MABEL、ATRIAS、CASSIE、DIGIT系列足式機(jī)器人。其中CASSIE可實(shí)現(xiàn)4m/s的驚人配速,是腿足式機(jī)器人在快速行走能力上里程碑式的成果。2019年,Agility推出了人形機(jī)器人Digit,在Cassie的基礎(chǔ)上加上了軀干、手臂,并增加了更多計(jì)算能力,支持負(fù)載18kg的箱子,可進(jìn)行移動(dòng)包裹、卸貨等工作。

小米“鐵大“機(jī)器人(2022):21年小米曾發(fā)布一款機(jī)械狗Cyberdog,是其在足式機(jī)器人的首次嘗試。2022年8月,小米首個(gè)全尺寸人形仿生機(jī)器人 CyberOne 亮相秋季發(fā)布會(huì)。CyberOne 身高 177cm,體重52kg,藝名“鐵大”,能感知 45 種人類語義情緒,分辨85 種環(huán)境語義;搭載小米自研全身控制算法,可協(xié)調(diào)運(yùn)動(dòng) 21 個(gè)關(guān)節(jié);配備了 Mi Sense 視覺空間系統(tǒng),可三維重建真實(shí)世界;全身 5 種關(guān)節(jié)驅(qū)動(dòng),峰值扭矩 300Nm。

特斯拉Optimus機(jī)器人(2022年):推動(dòng)人形機(jī)器人商業(yè)化。Optimus原型機(jī)亮相于2022年特斯拉AI day,身高1.72m,體重 57kg,可負(fù)載 20kg,最快運(yùn)動(dòng)速度 8km/h。目前Optimus仍處于研發(fā)進(jìn)展迅速,僅8個(gè)月機(jī)器人已可實(shí)現(xiàn)直立行走、搬運(yùn)、灑水等復(fù)雜動(dòng)作。

交互型機(jī)器人索菲亞(2015)和阿梅卡(2021),面部表情擬人化的嘗試: 索菲亞(Sophia)是由漢森機(jī)器人技術(shù)公司(Hanson Robotics)開發(fā)的類人機(jī)器人,2015年面世。索菲婭皮膚由Frubber仿生材料制成,基于語音識(shí)別、計(jì)算機(jī)視覺技術(shù),可以識(shí)別和復(fù)制各種各樣的人類面部表情,并通過分析人類表情和語言同人類對(duì)話。阿梅卡(Ameca)由英國(guó)領(lǐng)先的仿生娛樂機(jī)器人設(shè)計(jì)和制造公司——工程藝術(shù)有限公司(Engineered Arts)打造,具有12個(gè)全新的面部致動(dòng)器,經(jīng)過面部表情升級(jí)后,能對(duì)著鏡子眨眼、抿嘴、皺眉、微笑。阿梅卡能夠自由進(jìn)行幾十種仿人類的肢體運(yùn)動(dòng),被認(rèn)為是“世界上最逼真機(jī)器人”。

我們選擇了7款有代表性的人形機(jī)器人,從驅(qū)動(dòng)、感知、控制器三個(gè)方面進(jìn)行技術(shù)路線梳理。

2. AI大模型+人形機(jī)器人:給機(jī)器人提供常識(shí)

2.1. AI大模型訓(xùn)練過程及發(fā)展趨勢(shì)

大模型 = 預(yù)訓(xùn)練+微調(diào)。從2017年Transformer開始,到GPT-1、BERT、GPT-2、GPT-3、GPT-4模型的出現(xiàn),模型的參數(shù)量級(jí)實(shí)現(xiàn)了從億到百萬億量級(jí)的突破,大模型(預(yù)訓(xùn)練模型、Foundation Models)在無標(biāo)注的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,利用專用的小規(guī)模的標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)(fine- tuning),可用于下游任務(wù)預(yù)測(cè)。遷移學(xué)習(xí)是預(yù)訓(xùn)練模型的主要思想,當(dāng)目標(biāo)場(chǎng)景數(shù)據(jù)不足時(shí),先在數(shù)據(jù)量大的公開數(shù)據(jù)集上訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的AI模型,然后將其遷移到目標(biāo)場(chǎng)景中,通過目標(biāo)場(chǎng)景中的小數(shù)據(jù)集進(jìn)行微調(diào),使模型達(dá)到要求的性能。預(yù)訓(xùn)練模型極大地減少了模型在標(biāo)記數(shù)據(jù)量下游工作的需要,從而適用于一些難以獲得大量標(biāo)記數(shù)據(jù)的場(chǎng)景。

大模型的發(fā)展過程和趨勢(shì):從參數(shù)規(guī)模上看,大模型經(jīng)歷了從預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型的階段,參數(shù)量實(shí)現(xiàn)了從億級(jí)到百萬億級(jí)的發(fā)展。從數(shù)據(jù)模態(tài)來看,大模型正在從文本、語音、視覺等單一模態(tài)大模型,向著多種模態(tài)融合的通用人工智能方向發(fā)展。

2.2. AI大模型讓人形機(jī)器人具備通用任務(wù)解決能力

AI大模型將會(huì)從語音、視覺、決策、控制等多方面實(shí)現(xiàn)同人形機(jī)器人的結(jié)合,形成感知、決策、控制閉環(huán),大大提升機(jī)器人的“智慧”程度:

語音ChatGPT作為一種預(yù)訓(xùn)練語言模型,可以被應(yīng)用于機(jī)器人與人類之間的自然語言交互。例如,機(jī)器人可以通過ChatGPT來理解人類的自然語言指令,并根據(jù)指令進(jìn)行相應(yīng)的動(dòng)作。自然語言是人類最通用的交互媒介,語音作為自然語言的載體將會(huì)是機(jī)器人擬人化的關(guān)鍵任務(wù)。盡管深度學(xué)習(xí)的出現(xiàn)已經(jīng)將以語音識(shí)別技術(shù)、自然語言處理、語音生成技術(shù)為構(gòu)成模塊的語音交互技術(shù)推向相對(duì)成熟的階段,但實(shí)際過程中仍然容易出現(xiàn)語義理解偏差(反諷等)、多輪對(duì)話能力不足、文字生硬的情況。語言大模型為機(jī)器人的自主語音交互難題提供了解決方案,在上下文理解、多語種識(shí)別、多輪對(duì)話、情緒識(shí)別、模糊語義識(shí)別等通用語言任務(wù)上,ChatGPT表現(xiàn)出了不亞于人類的理解力和語言生成能力。在以ChatGPT為代表的大模型的加持下,人形機(jī)器人對(duì)通用語言的理解和交互才能提上日程,這將會(huì)是通用AI賦能通用服務(wù)機(jī)器人的開始。

視覺:視覺大模型賦能人形機(jī)器人識(shí)別更精確,場(chǎng)景更通用。計(jì)算機(jī)視覺的發(fā)展經(jīng)歷了基于以特征描述子代表的傳統(tǒng)視覺方法、以CNN卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù),目前通用的視覺大模型正處于研究探索階段。一方面,大參數(shù)量模型的強(qiáng)擬合能力使得人形機(jī)器人在進(jìn)行目標(biāo)識(shí)別、避障、三維重建、語義分割等任務(wù)時(shí)具備更高的精確度;另一方面,通用大模型解決了過去以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)過分依賴單一任務(wù)數(shù)據(jù)分布,場(chǎng)景泛化效果不佳的問題,通用視覺大模型通過大量數(shù)據(jù)學(xué)到更多的通用知識(shí),并遷移到下游任務(wù)中,基于海量數(shù)據(jù)獲得的預(yù)訓(xùn)練模型具有較好的知識(shí)完備性,大大提升場(chǎng)景泛化效果。人形機(jī)器人的場(chǎng)景相對(duì)工業(yè)機(jī)器人更通用、更復(fù)雜,視覺大模型的All in One 的多任務(wù)訓(xùn)練方案能使得機(jī)器人更好地適應(yīng)人類生活場(chǎng)景。

決策:通用語言、環(huán)境感知能力是自動(dòng)化決策的基礎(chǔ),多模態(tài)大模型契合人形機(jī)器人的決策需求。單一模態(tài)智能無法解決設(shè)計(jì)多模態(tài)信息的決策問題,如“語音告知機(jī)器人去取桌子上綠色蘋果”的任務(wù)。多模態(tài)統(tǒng)一建模,目的是增強(qiáng)模型的跨模態(tài)語義對(duì)齊能力,使模型逐步標(biāo)準(zhǔn)化,使得機(jī)器人能綜合視覺、語音、文本多維度信息,實(shí)現(xiàn)各感官融合決策的能力?;诙嗄B(tài)的預(yù)訓(xùn)練大模型或?qū)⒊蔀槿斯ぶ悄芑A(chǔ)設(shè)施,增強(qiáng)機(jī)器人可完成任務(wù)的多樣性與通用性,讓其不只局限于文本和圖像等單個(gè)部分,而是多應(yīng)用相容,拓展單一智能為融合智能,使機(jī)器人能結(jié)合其感知到的多模態(tài)數(shù)據(jù)實(shí)現(xiàn)自動(dòng)化決策。

控制:生成式AI賦能機(jī)器人自我控制,最終形成感知、決策、控制閉環(huán)。使得人形機(jī)器人具備通用能力,首先需要其具備“常識(shí)”,即通用的語言理解能力(語音)和場(chǎng)景理解能力(視覺);其次需要其具備決策能力,即接收指令后產(chǎn)生的對(duì)任務(wù)的拆解;最后,需要其具備自我控制和執(zhí)行性能,生成式AI的代碼生成能力將最終使得機(jī)器人的感知、決策、動(dòng)作形成閉環(huán),達(dá)到自我控制的目的。事實(shí)上,近來微軟團(tuán)隊(duì)已經(jīng)嘗試將ChatGPT應(yīng)用于機(jī)器人控制的場(chǎng)景中,通過提前寫好機(jī)器人底層函數(shù)庫,并對(duì)其描述功能作用及目標(biāo),ChatGPT能生成完成任務(wù)的代碼。在生成式AI的推動(dòng)下,機(jī)器人編程的門檻將會(huì)慢慢降低,最終實(shí)現(xiàn)自我編程、自我控制,并完成人類習(xí)以為常的通用任務(wù)。

2.3. OpenAI和微軟將大語言模型應(yīng)用于機(jī)器人

OpenAI領(lǐng)投挪威人形機(jī)器人公司1X Technologies。2017年OpenAI推出了用于機(jī)器人的開源軟件Roboschool,在機(jī)器人中部署了新的單樣本模仿學(xué)習(xí)算法,通過人類在VR中向機(jī)器人演示如何執(zhí)行任務(wù)。2018年,OpenAI發(fā)布了8個(gè)模擬機(jī)器人環(huán)節(jié)和事后經(jīng)驗(yàn)回訪基線實(shí)施,并用來訓(xùn)練在物理機(jī)器人上工作的模型。22年,Halodi Robotics在挪威Sunnaas醫(yī)院測(cè)試了醫(yī)護(hù)助理機(jī)器人EVE,讓其執(zhí)行后勤工作。2023年3 月 28 日,OpenAI領(lǐng)投挪威人形機(jī)器人公司1X Technologies(前稱 Halodi Robotics)。Halodi Robotics通過Ansys初創(chuàng)公司計(jì)劃利用Ansys仿真軟件開發(fā)能在日常場(chǎng)景中與人安全協(xié)作的人形機(jī)器人。

微軟提出ChatGPT for Robotics,利用ChatGPT 解決機(jī)器人應(yīng)用程序編寫問題。2023年4月,微軟在其官網(wǎng)發(fā)表了一篇名為《機(jī)器人 ChatGPT:設(shè)計(jì)原則和模型能力(ChatGPT for Robotics: Design Principles and Model Abilities)》論文,這項(xiàng)研究的目標(biāo)是觀察ChatGPT是否可以超越文本思考,并對(duì)物理世界進(jìn)行推理來幫助完成機(jī)器人任務(wù)。人類目前仍然嚴(yán)重依賴手寫代碼來控制機(jī)器人,該團(tuán)隊(duì)一直在探索如何改變這一現(xiàn)實(shí),使用OpenAI的新人工智能語言模型ChatGPT實(shí)現(xiàn)自然的人機(jī)交互。

人類可以從機(jī)器人流程中的in the loop變?yōu)閛n the loop。論文提出,不要求LLM輸出特定于機(jī)器人平臺(tái)或者庫的代碼,只是創(chuàng)造簡(jiǎn)單的高級(jí)函數(shù)庫供ChatGPT調(diào)用,并在后端講高級(jí)函數(shù)庫鏈接到各個(gè)平臺(tái),場(chǎng)景和工具的現(xiàn)有庫和API。結(jié)果證明,ChatGPT的引入,使得人類通過自然語言等高級(jí)語言命令于語言模型交互,用戶通過文本對(duì)話不斷將人類的感知信息輸入ChatGPT,ChatGPT解析觀察流并在對(duì)話系統(tǒng)中輸出相關(guān)操作,不需要生成代碼。這樣,人類可以實(shí)現(xiàn)無縫部署各種平臺(tái)和任務(wù),人類對(duì)ChatGPT輸出的質(zhì)量和安全性進(jìn)行評(píng)估。

人類在機(jī)器人pipeline中的任務(wù)主要是:1)首先,定義一組高級(jí)機(jī)器人 API 或函數(shù)庫。該庫可以針對(duì)特定的機(jī)器人類型進(jìn)行設(shè)計(jì),并且應(yīng)該從機(jī)器人的控制棧或感知庫映射到現(xiàn)有的低層次具體實(shí)現(xiàn)。為高級(jí) API 使用描述性名稱非常重要,這樣 ChatGPT 就可以推理它們的行為。2)為 ChatGPT 編寫一個(gè)文本提示,描述任務(wù)目標(biāo),同時(shí)明確說明高級(jí)庫中的哪些函數(shù)可用。提示還可以包含有關(guān)任務(wù)約束的信息,或者 ChatGPT 應(yīng)該如何組織它的答案,包括使用特定的編程語言,或使用輔助解析組件等。3)用戶通過直接檢查或使用模擬器來評(píng)估ChatGPT 的代碼輸出。如果需要,用戶使用自然語言向 ChatGPT 提供有關(guān)答案質(zhì)量和安全性的反饋。4)當(dāng)用戶對(duì)解決方案感到滿意時(shí),就可以將最終的代碼部署到機(jī)器人上。

ChatGPT可以以zero-shot的方式解決簡(jiǎn)單的機(jī)器人任務(wù)。對(duì)于簡(jiǎn)單的機(jī)器人任務(wù),用戶只需要提供文本提示和函數(shù)庫描述,不需要提供具體的代碼實(shí)例,ChatGPT就可以zero-shot解決時(shí)空推理(ChatGPT控制一個(gè)平面機(jī)器人,用視覺伺服捕捉籃球位置)、控制真實(shí)無人機(jī)完成物體尋找、操縱虛擬無人機(jī)實(shí)現(xiàn)工業(yè)檢測(cè)等問題。

在人類用戶on the loop交互下,ChatGPT可以完成更復(fù)雜的機(jī)器人控制任務(wù)。1)課程學(xué)習(xí):教授ChatGPT簡(jiǎn)單的拾取和放置物體的技能,并將所學(xué)會(huì)的技能按照邏輯組合用于更復(fù)雜的區(qū)塊排列任務(wù);2)Airsim避障:ChatGPT構(gòu)建了避障算法的大部分關(guān)鍵模塊,但需要人工反饋無人機(jī)朝向等信息。人工反饋高級(jí)的自然語言,ChatGPT能夠理解并在適當(dāng)?shù)奈恢眠M(jìn)行代碼修正。

ChatGPT的對(duì)話系統(tǒng)能夠解析觀察并輸出相關(guān)操作。1)帶API的閉環(huán)對(duì)象導(dǎo)航:為ChatGPT提供了對(duì)計(jì)算機(jī)視覺模型的訪問,作為其函數(shù)庫的一部分。ChatGPT在其“代碼“輸出中構(gòu)建感知-動(dòng)作循環(huán),實(shí)現(xiàn)估計(jì)相對(duì)物體角度、探索未知環(huán)境、并導(dǎo)航到用戶指定對(duì)象的功能;2)使用ChatGPT的對(duì)話進(jìn)系統(tǒng)進(jìn)行閉環(huán)視覺語言導(dǎo)航。在模擬場(chǎng)景下,人類用戶將新的狀態(tài)觀測(cè)值作為對(duì)話文本輸入,ChatGPT的輸出僅返回向前的運(yùn)動(dòng)距離和轉(zhuǎn)彎角度,實(shí)現(xiàn)了用“對(duì)話系統(tǒng)”指導(dǎo)機(jī)器人一步步導(dǎo)航到感興趣區(qū)域。

3. 人形,讓機(jī)器人的運(yùn)動(dòng)執(zhí)行更加通用

執(zhí)行能力(機(jī)器人的四肢):行動(dòng)能力(腿)+精細(xì)操作(手)。把機(jī)器人做成人形,是為了讓機(jī)器人的執(zhí)行能力更加通用。機(jī)器人執(zhí)行任務(wù)時(shí)所處的環(huán)境是按照人類的體型建造起來的:建筑、道路、設(shè)施、工具等,這個(gè)世界是為了方便人類這種人形生物才這樣設(shè)計(jì)。如果出現(xiàn)了某種新形態(tài)的機(jī)器人,人們就必須重新設(shè)計(jì)一套機(jī)器人適應(yīng)的全新環(huán)境。設(shè)計(jì)在某個(gè)特定范圍內(nèi)執(zhí)行任務(wù)的機(jī)器人相對(duì)容易,如果想要提高機(jī)器人的通用性,就必須選擇可以作為分身的人形機(jī)器人。本章選擇兩個(gè)代表性產(chǎn)品波士頓動(dòng)力Altas和特斯拉Optimus,從驅(qū)動(dòng)、環(huán)境感知、運(yùn)動(dòng)控制三方面對(duì)比方案差異,探尋人形機(jī)器人運(yùn)動(dòng)控制方案商業(yè)化的趨勢(shì)。

波士頓動(dòng)力Altas定位于技術(shù)的前瞻性研究,側(cè)重探索技術(shù)應(yīng)用的可能性而非商業(yè)化。從硬件架構(gòu)來看, Altas具備出色的動(dòng)態(tài)性能、瞬時(shí)功率密度和穩(wěn)定的運(yùn)動(dòng)姿態(tài),可以實(shí)現(xiàn)高負(fù)載、高復(fù)雜度的運(yùn)動(dòng), 像是一場(chǎng)技術(shù)驅(qū)動(dòng)的盛宴。商業(yè)化并非波士頓動(dòng)力當(dāng)前主要考量因素,Altas項(xiàng)目更多作為一個(gè)研究平臺(tái)供研究者進(jìn)行學(xué)術(shù)試驗(yàn),側(cè)重探索技術(shù)應(yīng)用的可能性而非商業(yè)化。

特斯拉Optimus發(fā)心于人形機(jī)器人的規(guī)?;?、商業(yè)化、標(biāo)準(zhǔn)化,商業(yè)化的目標(biāo)驅(qū)動(dòng)下,成本、能耗成為特斯拉團(tuán)隊(duì)的考量指標(biāo)。

3.1. 驅(qū)動(dòng):液壓驅(qū)動(dòng) VS 電動(dòng)驅(qū)動(dòng)

3.1.1. 電驅(qū)成本低、易于維護(hù)、控制精度高,商業(yè)化潛力高

主流人形機(jī)器人的驅(qū)動(dòng)方案包括液壓驅(qū)動(dòng)和電氣驅(qū)動(dòng)(伺服電機(jī)+減速器)兩種。相比電氣驅(qū)動(dòng),液壓驅(qū)動(dòng)輸出力矩大、功率密度高和過載能力強(qiáng),因而能滿足波士頓動(dòng)力Atlas高負(fù)載動(dòng)作和快速運(yùn)動(dòng)的需求;但液壓驅(qū)動(dòng)的方式能耗大、成本高,同時(shí)容易出現(xiàn)漏液等問題、可維護(hù)性差。一方面,商用場(chǎng)景下高負(fù)載動(dòng)作(如跑酷、后空翻等)屬于非必要行為,另一方面,隨著電驅(qū)系統(tǒng)功率密度和響應(yīng)速度的不斷提升,我們認(rèn)為結(jié)合電驅(qū)成本低、易于維護(hù)且技術(shù)應(yīng)用成熟的優(yōu)勢(shì),基于電驅(qū)的人形機(jī)器人商業(yè)化可能性更高。

3.1.2. 波士頓動(dòng)力Atlas:采用“液壓驅(qū)動(dòng)”方案

波士頓動(dòng)力全身共28個(gè)液壓執(zhí)行器,可執(zhí)行高負(fù)載復(fù)雜動(dòng)作。HPU(Hydraulic Power Unit)作為Atlas的液壓動(dòng)力源具備極小尺寸的高能量密度(~5kW/5Kg),電液經(jīng)由流體管線連接至各液壓泵,可實(shí)現(xiàn)快速響應(yīng)和精確力控,其高瞬時(shí)功率密度的液壓驅(qū)動(dòng)器能支持機(jī)器人實(shí)現(xiàn)奔跑、跳躍、后空翻等復(fù)雜動(dòng)作,機(jī)器人的結(jié)構(gòu)強(qiáng)度得益于其高集成度的結(jié)構(gòu)總成。根據(jù)官方披露影像及專利細(xì)節(jié),我們推測(cè):踝、膝、肘關(guān)節(jié)由液壓缸驅(qū)動(dòng);髖、肩、腕關(guān)節(jié)及腰腹由擺動(dòng)液壓缸驅(qū)動(dòng)。

3.1.3. 特斯拉Optimus:采用“電動(dòng)驅(qū)動(dòng)”方案

單臺(tái)Optimus全身40個(gè)執(zhí)行器,是單臺(tái)多關(guān)節(jié)機(jī)器人的6~7倍。其中:身體關(guān)節(jié)部分采用減速器/絲桿+伺服電機(jī)的傳動(dòng)方式,共計(jì)28個(gè)執(zhí)行器;機(jī)械手基于欠驅(qū)動(dòng)方案,采用電機(jī)+腱繩驅(qū)動(dòng)(tendon-driven)的傳動(dòng)結(jié)構(gòu),單手6個(gè)電機(jī),11個(gè)自由度。

根據(jù)Testla AI Day,特斯拉自主研發(fā)的六種執(zhí)行器中,旋轉(zhuǎn)關(guān)節(jié)方案繼承工業(yè)機(jī)器人,線性執(zhí)行器和微型伺服電機(jī)是人形機(jī)器人新需求,具體看:

旋轉(zhuǎn)關(guān)節(jié)方案(肩、髖、腰腹)伺服電機(jī)+減速器,我們推測(cè),單臺(tái)人形機(jī)器人將搭載6臺(tái)RV減速器(髖、腰腹)和8臺(tái)諧波減速器(肩、腕)。根據(jù)特斯拉Optimus執(zhí)行器方案,RV減速器體積大、負(fù)載能力強(qiáng)、剛度高,適用于髖、腰腹大負(fù)載關(guān)節(jié),其中髖關(guān)節(jié)2*2臺(tái)、腰腹兩個(gè)自由度2臺(tái),共計(jì)6臺(tái);諧波減速器體積小、傳動(dòng)比高、精密度高,適用于肩、腕關(guān)節(jié),其中肩關(guān)節(jié)3*2臺(tái)、腕關(guān)節(jié)1*2臺(tái),共計(jì)8臺(tái)。隨著更多廠商的涌入,其執(zhí)行器方案可能存在差異,若線性執(zhí)行器被旋轉(zhuǎn)執(zhí)行器替代,單臺(tái)機(jī)器人減速器數(shù)量將有所提升。

擺動(dòng)角度不大的關(guān)節(jié)(膝、肘、踝、腕)線形執(zhí)行器(伺服電機(jī)+絲杠)。一體化伺服電動(dòng)缸(伺服電機(jī)+絲杠)方案具備自鎖能力,能耗比純旋轉(zhuǎn)關(guān)節(jié)方案低。線性執(zhí)行器空間利用率高、能提供較大的推動(dòng)力。我們猜測(cè),線性執(zhí)行器基于力矩電機(jī)結(jié)合行星滾柱絲杠的方案將應(yīng)用于線性執(zhí)行器關(guān)節(jié)(髖、膝、踝、肘、腕)中,預(yù)計(jì)合計(jì)將使用14個(gè)線性執(zhí)行器。

行星滾柱絲杠以其高承載、高剛度、長(zhǎng)壽命的特點(diǎn)或成為人形機(jī)器人線性執(zhí)行器的關(guān)鍵傳動(dòng)裝置,通過適配人形機(jī)器人需求實(shí)現(xiàn)降本是大規(guī)模放量的前提。根據(jù)Tesla AI Day 2022會(huì)上展示的信息來看,Optimus線性執(zhí)行器采用的方案即為行星滾柱絲杠一體式伺服電動(dòng)缸。我們認(rèn)為下肢髖、膝、踝關(guān)節(jié)及上肢的肘關(guān)節(jié)的伺服電缸采用高承載、高剛度的行星滾柱絲杠作為傳動(dòng)裝置可能性比較大。行星滾柱絲杠結(jié)構(gòu)復(fù)雜、加工難度大因而成本很高,通過調(diào)整設(shè)計(jì)、工藝方案適配人形機(jī)器人的需要來實(shí)現(xiàn)降本是其大規(guī)模應(yīng)用的前提。

機(jī)械手:Optimus單手包括6個(gè)執(zhí)行器,可實(shí)現(xiàn)11個(gè)自由度,由微型電機(jī)驅(qū)動(dòng),“欠驅(qū)動(dòng)”方案性價(jià)比高,“繩驅(qū)“傳動(dòng)結(jié)構(gòu)不確定性較大。“欠驅(qū)動(dòng)”,系統(tǒng)執(zhí)行器的數(shù)目小于其自由度數(shù)目,因?yàn)闄C(jī)械手本身高自由度數(shù)目的特性,出于提高系統(tǒng)設(shè)計(jì)的集成性、緊湊性和降低成本、更出于簡(jiǎn)化后續(xù)運(yùn)動(dòng)控制的考慮,設(shè)計(jì)者們會(huì)減少所使用電機(jī)的數(shù)目(即執(zhí)行器的數(shù)目),形成了執(zhí)行器的數(shù)目小于其自由度數(shù)目的欠驅(qū)動(dòng)方案。通過機(jī)械結(jié)構(gòu)的優(yōu)化實(shí)現(xiàn)以較少的執(zhí)行機(jī)構(gòu)驅(qū)動(dòng)更多的自由度,節(jié)省成本,是目前商業(yè)產(chǎn)品及高校機(jī)械手研發(fā)的主流選擇。

特斯拉Optimus機(jī)械手采取電機(jī)+腱繩驅(qū)動(dòng)的方式,可能對(duì)手部傳動(dòng)方案進(jìn)行優(yōu)化。盡管繩驅(qū)給機(jī)械手帶來了極大的靈活性,且可以極大簡(jiǎn)化設(shè)計(jì)難度和系統(tǒng)的復(fù)雜性,但其可靠性、傳動(dòng)效率都低于傳統(tǒng)連桿、齒輪齒條等方式,可能是研發(fā)團(tuán)隊(duì)短期開發(fā)的權(quán)宜之計(jì)。

機(jī)械手驅(qū)動(dòng)方案差異較大,電機(jī)的輕量化、低成本是關(guān)鍵。空心杯電機(jī)結(jié)構(gòu)緊湊、能量密度高、能耗低,和人形機(jī)器人機(jī)械手需求契合度高。機(jī)械傳動(dòng)結(jié)構(gòu)上,機(jī)械手的主流方案包括繩驅(qū)(Tendon Driven)、連桿、齒輪齒條、材料形變等。各機(jī)械手驅(qū)動(dòng)方案差異很大:Ritsumeikan Hand Ritsumeikan Hand通過耦合走線實(shí)現(xiàn)了2個(gè)驅(qū)動(dòng)器對(duì)15個(gè)關(guān)節(jié)的驅(qū)動(dòng);Stanford/JPL靈巧手單手16個(gè)電機(jī);Shadow Hand單手30個(gè)電機(jī),合計(jì)24個(gè)自由度。人形機(jī)器人機(jī)械手需要滿足質(zhì)量輕、結(jié)構(gòu)緊湊和抓取力強(qiáng)的要求,因此電機(jī)應(yīng)具有尺寸小、質(zhì)量輕、精度高、扭矩大的特點(diǎn)。

3.2. 環(huán)境感知:深度相機(jī)+激光雷達(dá) VS 純視覺方案

用于實(shí)現(xiàn)機(jī)器人自主移動(dòng)的感知和定位技術(shù)原理主要包括視覺、激光、超聲波、GPS、IMU等,對(duì)應(yīng)機(jī)器人感知系統(tǒng)的不同傳感器類別。SLAM(即時(shí)定位與地圖構(gòu)建)是發(fā)展比較成熟、應(yīng)用廣泛的定位技術(shù),它是機(jī)器人通過對(duì)各種傳感器數(shù)據(jù)進(jìn)行采集和計(jì)算,生成對(duì)其自身位置姿態(tài)的定位和場(chǎng)景地圖信息的系統(tǒng)。SLAM問題可以描述為:機(jī)器人在未知環(huán)境中從一個(gè)未知位置開始移動(dòng),在移動(dòng)過程中根據(jù)位置估計(jì)和傳感器數(shù)據(jù)進(jìn)行自身定位,同時(shí)建造增量式地圖。獲取定位和地圖后,再根據(jù)路徑規(guī)劃算法(全局、局部、避障)實(shí)現(xiàn)自主移動(dòng)。

3.2.1. 波士頓動(dòng)力Atlas:深度相機(jī)+激光雷達(dá)

波士頓動(dòng)力Atlas感知方案融合深度相機(jī)和激光雷達(dá),基于多平面分割算法實(shí)現(xiàn)步態(tài)規(guī)劃。Atlas機(jī)器人感知視覺技術(shù)發(fā)展相對(duì)成熟,它借鑒Google Transformer模型,搭建HydraNet神經(jīng)網(wǎng)絡(luò)模型,優(yōu)化視覺算法,完成了自動(dòng)駕駛純視覺系統(tǒng)的遷移; Atlas使用ToF深度相機(jī)以每秒15 幀的頻率生成點(diǎn)云,基于多平面分割算法從點(diǎn)云中提取環(huán)境表面,數(shù)據(jù)經(jīng)過映射后完成對(duì)周邊物體的識(shí)別。之后,工控機(jī)基于識(shí)別到的表面和物體信息進(jìn)行步態(tài)規(guī)劃,以實(shí)現(xiàn)避障、探測(cè)地面狀況以和巡航等任務(wù)。IHMC全稱為“人類與機(jī)器認(rèn)知研究所”,是一家專注于研發(fā)機(jī)器人控制算法的頂尖機(jī)構(gòu),主要研發(fā)人形機(jī)器人行走所需的關(guān)鍵算法,而指揮Atlas機(jī)器人站立、行走等算法就來自于IHMC。

3.2.2. 特斯拉Optimus:純視覺方案,成本更低

特斯拉Optimus環(huán)境感知采用基于攝像頭的純視覺方案,移植特斯拉全自動(dòng)駕駛系統(tǒng),成本更低。Optimus頭部搭載三枚攝像頭(魚眼攝像頭+左右攝像頭),通過全景分割+自研的三維重建算法(Occupancy Network)實(shí)現(xiàn)環(huán)境感知,純視覺方案相比激光雷達(dá)等感知設(shè)備成本更低,但對(duì)算力要求高。機(jī)器人繼承了Autopilot算法框架,通過重新采集數(shù)據(jù)訓(xùn)練適用于機(jī)器人的神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)環(huán)境的三維重建、路徑規(guī)劃、自主導(dǎo)航、動(dòng)態(tài)交互等。特斯拉強(qiáng)大的全自動(dòng)駕駛系統(tǒng)(FSD)的移植,使機(jī)器人視覺方案在不增加硬件成本的前提下朝著更精確、更智能的方向進(jìn)步。

3.3. 運(yùn)動(dòng)控制:尚未形成通用的控制器解決方案

運(yùn)控算法是核心競(jìng)爭(zhēng)力,各家人形機(jī)器人控制算法均為自研。人形機(jī)器人對(duì)運(yùn)動(dòng)控制能力及感知計(jì)算能力要求較高,且不同廠商的執(zhí)行器數(shù)量和類別差異較大,未來運(yùn)控算法或成為廠商核心競(jìng)爭(zhēng)力,且自研可能性較大;此外人形機(jī)器人控制方案,對(duì)于客戶應(yīng)用場(chǎng)景的了解程度及工藝要求也是重要因素,目前下游場(chǎng)景分散,單獨(dú)一家廠商還很難將人形機(jī)器人做到各個(gè)場(chǎng)景的通用。

3.3.1. 運(yùn)動(dòng)控制算法:思路相似,均為離線行為庫和實(shí)時(shí)調(diào)整

波斯頓動(dòng)力Atlas:基于離線行為庫和模型預(yù)測(cè)控制(MPC)實(shí)現(xiàn)行為控制。離線行為庫基于軌跡優(yōu)化算法(質(zhì)心運(yùn)動(dòng)學(xué)優(yōu)化+運(yùn)動(dòng)學(xué)優(yōu)化)和動(dòng)作捕捉(Motion Capture)創(chuàng)建,技術(shù)人員可通過向庫中添加新軌跡為機(jī)器人添加新功能;機(jī)器人被指定行為目標(biāo)后,從行為庫中選擇盡可能接近目標(biāo)的行為,獲得理論上可行的動(dòng)態(tài)連續(xù)動(dòng)作。模型預(yù)測(cè)控制(MPC)根據(jù)傳感器反饋的實(shí)時(shí)信息,基于行為庫調(diào)整部分參數(shù)(力、姿勢(shì)、關(guān)節(jié)動(dòng)作時(shí)間等)的細(xì)節(jié),以適應(yīng)真實(shí)環(huán)境同理想的差異和其他實(shí)時(shí)因素。MPC這種在線控制方式允許機(jī)器人偏離模版行動(dòng),同時(shí)可以為兩個(gè)行為(如跳躍和后空翻)間預(yù)測(cè)過渡動(dòng)作,簡(jiǎn)化了行為庫的創(chuàng)建過程。

特斯拉Optimus:步態(tài)規(guī)劃算法思路和Altas類似,運(yùn)動(dòng)規(guī)劃器生成參考軌跡,控制器根據(jù)傳感器信息實(shí)時(shí)調(diào)整優(yōu)化行為,控制算法尚不成熟。步態(tài)控制算法中,運(yùn)動(dòng)規(guī)劃器首先基于預(yù)期路徑,生成參考軌跡,確定機(jī)器人模型的動(dòng)力學(xué)參數(shù)。控制器基于傳感器數(shù)據(jù)對(duì)機(jī)器人進(jìn)行姿態(tài)估計(jì),根據(jù)現(xiàn)實(shí)環(huán)境和理想模型的差異,對(duì)機(jī)器人行為參數(shù)進(jìn)行校正,得到真實(shí)行為。此外,在連續(xù)的步態(tài)間,算法結(jié)合了人類行走時(shí)的腳步狀態(tài)(腳掌初始著地->腳趾最后離地),結(jié)合上半身的協(xié)調(diào)擺臂運(yùn)動(dòng),實(shí)現(xiàn)自然擺臂、大跨步以及盡可能的直膝行走,提高行走效率與姿態(tài)。目前機(jī)器人的步態(tài)控制方案還不夠成熟,抗干擾能力較弱,動(dòng)態(tài)穩(wěn)定性差,特斯拉技術(shù)人員表示Optimus的平衡問題可能需要18~36個(gè)月解決。

類似的,Optimus上肢操作借助基于動(dòng)捕和逆運(yùn)動(dòng)學(xué)映射構(gòu)成的離線行為庫,通過實(shí)時(shí)軌跡優(yōu)化實(shí)現(xiàn)自適應(yīng)操作。

3.3.2. 運(yùn)動(dòng)控制器:多為自主設(shè)計(jì),不同廠商需求差異大

人形機(jī)器人采集并處理多種模態(tài)數(shù)據(jù),執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人,對(duì)控制器實(shí)時(shí)算力、集成度要求高。人形機(jī)器人傳感器類型、數(shù)量遠(yuǎn)超工業(yè)機(jī)器人,行動(dòng)過程中需同時(shí)完成3D地圖構(gòu)建、路徑規(guī)劃、多傳感器數(shù)據(jù)采集、采集運(yùn)算并實(shí)現(xiàn)閉環(huán)控制等等,流程相對(duì)繁雜,數(shù)據(jù)維度、數(shù)據(jù)量均高于工業(yè)機(jī)器人,對(duì)算力要求高。工業(yè)機(jī)器人一般通過外接的圖像采集卡和圖像處理軟件實(shí)現(xiàn)識(shí)別和檢測(cè);移動(dòng)場(chǎng)景下的人形機(jī)器人要求圖像處理器集成于控制器芯片中,對(duì)芯片集成度有要求。

人形機(jī)器人控制器多為自主設(shè)計(jì),不同廠商需求差異大。目前人形機(jī)器人下游場(chǎng)景的不確定性較強(qiáng),不同廠商研發(fā)的機(jī)器人驅(qū)動(dòng)方案(如驅(qū)動(dòng)方式、電機(jī)方案)、感知方案(純視覺、多傳感器融合等)、控制算法差異較大,機(jī)器人對(duì)控制器的算力、存儲(chǔ)等有不同的需求,因此控制器的組成有差異,以自主設(shè)計(jì)為主。我們認(rèn)為人形機(jī)器人控制器采用分布式控制系統(tǒng)的方案可能性較大,即由一個(gè)核心控制器和多個(gè)小型控制器構(gòu)成,其中小型控制器用于驅(qū)動(dòng)各個(gè)身體區(qū)域的關(guān)節(jié)。

波士頓動(dòng)力Atlas:機(jī)器人本體搭載3臺(tái)工控機(jī)負(fù)責(zé)運(yùn)控系統(tǒng)的計(jì)算。控制器接收來自激光雷達(dá)、ToF深度相機(jī)的數(shù)據(jù),生成地圖和路徑后基于離線行為庫中規(guī)劃目標(biāo)行為;實(shí)際運(yùn)動(dòng)過程中通過采集 IMU、關(guān)節(jié)位置、力、油壓、溫度等傳感器數(shù)據(jù),針對(duì)動(dòng)作序列進(jìn)行實(shí)時(shí)調(diào)整和優(yōu)化。

特斯拉Optimus:復(fù)用特斯拉汽車的感知和計(jì)算能力,在全自動(dòng)駕駛FSD芯片基礎(chǔ)上開發(fā)適合人形機(jī)器人的控制器系統(tǒng)。FSD芯片集成了中央處理器、神經(jīng)網(wǎng)絡(luò)處理器(NPU)、圖像處理器(GPU)、同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器(SDRAM)、信號(hào)處理器(ISP)、視頻編碼器(H.265)和安全模塊,能高效率地實(shí)現(xiàn)圖像處理、環(huán)境感知、通用計(jì)算和實(shí)時(shí)行為控制。為了匹配人形機(jī)器人和汽車的需求差異,Optimus控制器芯片在FSD芯片基礎(chǔ)上做了適應(yīng)性修改,增加了對(duì)視、聽、觸覺等數(shù)據(jù)采集實(shí)現(xiàn)多模態(tài)信息輸入支持,植入語音交互和無線連接模塊支持人機(jī)溝通,具備硬件保護(hù)功能以保障機(jī)器人和周邊人員安全,進(jìn)而實(shí)現(xiàn)行為決策和運(yùn)動(dòng)控制。

4. 投資結(jié)論及產(chǎn)業(yè)鏈?zhǔn)崂?/span>

目前人形機(jī)器人廠商多為自行采購上游零件,集成以實(shí)現(xiàn)對(duì)自家機(jī)器人的適配,控制算法和控制器的設(shè)計(jì)是機(jī)器人運(yùn)動(dòng)控制的核心和壁壘,可能會(huì)延續(xù)工業(yè)機(jī)器人廠商負(fù)責(zé)本體制造+控制器部分的產(chǎn)業(yè)鏈分工。目前,通用的人形機(jī)器人控制器方案還沒出現(xiàn),出現(xiàn)類似工業(yè)機(jī)器人運(yùn)動(dòng)控制卡這樣通用的、集成化解決方案作為獨(dú)立的產(chǎn)品供應(yīng)至少需要人形機(jī)器人量產(chǎn)之后。

相比工業(yè)機(jī)器人,人形機(jī)器人硬件需求更復(fù)雜、更多元。減速器、伺服電機(jī)、線性執(zhí)行器、滾柱絲杠是人形機(jī)器人的運(yùn)動(dòng)控制產(chǎn)業(yè)鏈中價(jià)值量較大的硬件設(shè)備。1)電機(jī):數(shù)量更多、品類更豐富,需滿足全身各關(guān)節(jié)的驅(qū)動(dòng)需求,手部需采用微型電機(jī)。2)減速器、傳動(dòng)裝置:數(shù)量更多,旋轉(zhuǎn)執(zhí)行器延續(xù)了對(duì)RV、諧波減速器的需求,線性執(zhí)行器中需要用到行星滾柱絲杠作為線性傳動(dòng)裝置。3)環(huán)境感知:區(qū)別工業(yè)機(jī)器人在固定場(chǎng)景外接機(jī)器視覺設(shè)備實(shí)現(xiàn)識(shí)別的方案,人形機(jī)器人場(chǎng)景復(fù)雜,需采用激光雷達(dá)、攝像頭等方案實(shí)現(xiàn)環(huán)境感知、三維重建并實(shí)現(xiàn)路徑規(guī)劃,對(duì)設(shè)備品類、算法、實(shí)時(shí)算力要求更高。4)運(yùn)動(dòng)控制:類似于工業(yè)機(jī)器人,運(yùn)控算法均是廠商自研,開發(fā)難度大,是核心競(jìng)爭(zhēng)力之一;人形機(jī)器人傳感器數(shù)量、品類、執(zhí)行機(jī)構(gòu)復(fù)雜程度遠(yuǎn)高于工業(yè)機(jī)器人,對(duì)控制器實(shí)時(shí)算力、集成度要求高。

5. 風(fēng)險(xiǎn)提示

1)經(jīng)濟(jì)復(fù)蘇低于預(yù)期;2)AI大模型、超融合發(fā)展速度低于預(yù)期;3)出現(xiàn)相似技術(shù)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
具身智能?它為何能賦予機(jī)器人靈魂
從技術(shù)卷到價(jià)格-2023多款人形機(jī)器人新產(chǎn)品一覽!
人形機(jī)器人 大模型,為什么是投資人追逐的新風(fēng)口?|甲子光年
人形機(jī)器人。當(dāng)自動(dòng)駕駛遇上大模型 機(jī)器人加速“直立行走” 這些零部件成未來降本關(guān)鍵。
陳根:在可預(yù)見的未來,人形機(jī)器人正在加速到來?
馬斯克遇難題:未來10年內(nèi),人形機(jī)器人行業(yè)難以大規(guī)模商業(yè)落地|鈦媒體焦點(diǎn)|優(yōu)必選|人工智能|機(jī)器人公司|埃隆
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服