OpenAI機(jī)器人來(lái)了,說(shuō)話竟然會(huì)“結(jié)巴”,AI負(fù)責(zé)人深度拆解背后技術(shù)。OpenAI大模型加持,F(xiàn)igure機(jī)器人再次顛覆了我們的想象!▲測(cè)試員說(shuō)自己餓了,問(wèn)Figure 01有什么能吃的,F(xiàn)igure 01準(zhǔn)確地理解蘋(píng)果是可食用的并精準(zhǔn)遞送了過(guò)去
智東西3月14日消息,昨晚機(jī)器人明星創(chuàng)企Figure發(fā)布了一段2分35秒的視頻。視頻中,F(xiàn)igure 01可以輕松完成很多高難度動(dòng)作:判斷自己眼前看到的這些東西相互之間有什么關(guān)聯(lián);給饑餓的測(cè)試員找到桌子上唯一能吃的蘋(píng)果并精準(zhǔn)遞送過(guò)去;進(jìn)行“回憶”,并對(duì)自己做過(guò)的事情給出評(píng)價(jià);用簡(jiǎn)單易懂的話語(yǔ)口頭解釋自己做事的緣由,比如為什么覺(jué)得自己做的好?這背后,Figure 01用上了OpenAI的大模型能力。整個(gè)過(guò)程中,Figure 01的動(dòng)作非常流暢自然,對(duì)人類語(yǔ)言的理解以及背后含義也能充分Get到,同時(shí)很多語(yǔ)言、動(dòng)作上的細(xì)節(jié)跟人類非常相似,它甚至還會(huì)“結(jié)巴”!簡(jiǎn)直令人驚掉下巴。▲測(cè)試員提問(wèn)說(shuō),你覺(jué)得你剛才做的怎么樣,F(xiàn)igure 01對(duì)自己之前的行為進(jìn)行了評(píng)價(jià)并說(shuō)明原因
Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch對(duì)該演示進(jìn)行了深入技術(shù)拆解。Corey Lynch特別強(qiáng)調(diào)說(shuō),這一切都是機(jī)器人自己學(xué)習(xí)并完成的,沒(méi)有任何人為操控,而且是標(biāo)準(zhǔn)的“1倍速”。▲Corey Lynch發(fā)文進(jìn)行技術(shù)拆解
Figure創(chuàng)始人發(fā)文稱,OpenAI提供了視覺(jué)推理和語(yǔ)言理解能力,而Figure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速、靈敏的機(jī)器人動(dòng)作。▲Figure創(chuàng)始人Brett Adcock發(fā)文
今年2月24日,F(xiàn)igure剛剛宣布獲得了6.75億美元(折合約48.58億人民幣)高額融資,估值達(dá)到26億美元(折合約187.12億人民幣),一舉躍升獨(dú)角獸。其投資方包括微軟、OpenAI、英偉達(dá)、英特爾,陣容十分亮眼。▲Figure宣布融資信息
當(dāng)天,F(xiàn)igure還提前官宣了與OpenAI、微軟達(dá)成合作,稱其將與OpenAI合作開(kāi)發(fā)下一代人形機(jī)器人AI模型,利用微軟云進(jìn)行AI基礎(chǔ)設(shè)施構(gòu)建、訓(xùn)練等。Figure透露,他們將通過(guò)與OpenAI的合作繼續(xù)突破AI學(xué)習(xí)的邊界。OpenAI當(dāng)時(shí)也轉(zhuǎn)發(fā)了Figure的推文稱,OpenAI正在與Figure合作,將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知、推理和交互中。今天的視頻,顯然是Figure與OpenAI合作的階段性成果展示。毫無(wú)疑問(wèn),機(jī)器人與大模型的結(jié)合,又向前邁了一步。當(dāng)然,F(xiàn)igure還不忘在評(píng)論區(qū)放上了自己的招聘鏈接,呼吁更多有志之士加入自己。▲Figure發(fā)布招聘信息
推薦智東西年度會(huì)議。4月18-19日,2024中國(guó)生成式AI大會(huì)將在北京舉行。同期設(shè)有具身智能技術(shù)研討會(huì),優(yōu)必選和科大訊飛的人形機(jī)器人專家領(lǐng)銜。免費(fèi)報(bào)名或購(gòu)票通道開(kāi)放中,期待你的參會(huì)~視頻中,F(xiàn)igure 01機(jī)器人可以理解人的提問(wèn)并對(duì)眼前物體進(jìn)行識(shí)別和理解。比如測(cè)試員問(wèn)Figure 01眼前有什么,F(xiàn)igure 01可以準(zhǔn)確說(shuō)出桌子上有一個(gè)蘋(píng)果放在盤(pán)子中央、有一個(gè)裝有杯子和盤(pán)子的晾碗架,還有測(cè)試員正站在桌子旁,一個(gè)手放在了桌子上。緊接著測(cè)試員問(wèn)它我能吃點(diǎn)什么,F(xiàn)igure 01在思考過(guò)后會(huì)快速準(zhǔn)確地抓取盤(pán)子中的蘋(píng)果交給測(cè)試員。Figure 01在拿蘋(píng)果的過(guò)程中還不忘“倒個(gè)手”,將蘋(píng)果從右手遞到左手,再通過(guò)左手遞給測(cè)試員,其動(dòng)作非常流暢,也非常符合人類做事的習(xí)慣:從距離更近的一邊把物體送過(guò)去。測(cè)試員隨后讓Figure 01一邊整理桌子上的垃圾,一邊回答剛才為什么要這么做。Figure 01馬上開(kāi)始將垃圾撿入籃子里,并在撿的過(guò)程中說(shuō),因?yàn)樘O(píng)果是桌子上唯一能吃的東西,所以我把蘋(píng)果給了你。Figure 01在整理垃圾的過(guò)程中,機(jī)器人手臂和手掌的動(dòng)作非常靈活自然,拿放垃圾的動(dòng)作較為流暢,并且在整理完成后,還不忘貼心地把籃子往前推了一小下。這“一小下”,卻讓我們感到十足的真實(shí)感。它似乎不僅知道如何完成任務(wù),還知道任務(wù)完成后的目的是什么:完成后交給測(cè)試員。但實(shí)際上,測(cè)試員起初并沒(méi)有在語(yǔ)言中提到整理后“遞給他”這件事。接下來(lái),測(cè)試員問(wèn)Figure 01,基于你現(xiàn)在看到的場(chǎng)景,你覺(jué)得你面前的這些餐具一會(huì)兒會(huì)到哪去?Figure 01在思考后回答說(shuō),桌上的餐具,包括盤(pán)子和杯子,很可能會(huì)進(jìn)到晾碗架里。這里我們能看到,F(xiàn)igure 01是可以理解面前的杯子、盤(pán)子與晾碗架之間的關(guān)系的。測(cè)試員緊接著說(shuō),那你能把它們放進(jìn)去嗎?Figure 01在回答可以后,就把面前的一個(gè)杯子和一個(gè)盤(pán)子放到了晾碗架里。▲把杯子放到晾碗架里
▲把盤(pán)子放到晾碗架里
在放入的過(guò)程中,F(xiàn)igure 01知道杯子要倒扣著放進(jìn)晾碗架,這個(gè)要求測(cè)試員完全沒(méi)有說(shuō),同時(shí)Figure 01在放入盤(pán)子的時(shí)候知道要將盤(pán)子卡在晾碗架的槽子里,這一點(diǎn)測(cè)試員同樣沒(méi)有提到。可以看到,F(xiàn)igure 01不僅可以理解測(cè)試員的要求并執(zhí)行,同時(shí)它對(duì)于執(zhí)行過(guò)程中操作的物體以及周邊環(huán)境是有理解的,它可以自己理解杯子和盤(pán)子要如何放進(jìn)晾碗架里。測(cè)試員隨后問(wèn)它,你覺(jué)得你做的怎么樣?Figure 01思考后回答說(shuō)它覺(jué)得自己做的很好,它說(shuō),蘋(píng)果有了新主人、垃圾不見(jiàn)了、桌上的東西也歸位了。測(cè)試員回復(fù)它說(shuō),我同意,謝謝你Figure 01。Figure 01回答說(shuō),不客氣,如果還有什么需要幫忙的,跟我說(shuō)就好。值得一提的是,F(xiàn)igure 01的回復(fù)話語(yǔ)一開(kāi)始竟然“結(jié)巴”了一下:“I……I think……。”這簡(jiǎn)直過(guò)于真實(shí)了,好像它真的在思考自己該如何回答并有一些“猶豫”,說(shuō)話的語(yǔ)氣與真人十分類似。同時(shí),F(xiàn)igure 01能夠理解測(cè)試員話語(yǔ)中“你做的”中到底包含哪些事,包括它自己之前做的遞送蘋(píng)果、整理垃圾、收拾杯盤(pán)。這一點(diǎn)無(wú)疑是更難得的。隨后在視頻說(shuō)明中,F(xiàn)igure提到Figure 01的一些特性,包括充分學(xué)習(xí)、動(dòng)作迅速、可執(zhí)行靈巧操作。AI技術(shù)負(fù)責(zé)人深度拆解實(shí)現(xiàn)原理:流暢雙手動(dòng)作如何實(shí)現(xiàn)?Figure的創(chuàng)始人在X平臺(tái)發(fā)文稱,這是在端到端的神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)的人機(jī)對(duì)話,OpenAI提供的是視覺(jué)推理和語(yǔ)言理解能力,F(xiàn)igure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速、底層級(jí)(low-level)、靈敏的機(jī)器人動(dòng)作。視頻中的測(cè)試員實(shí)際上是Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch,他也是前谷歌DeepMind科學(xué)家。他提到,F(xiàn)igure的機(jī)器人目前可以描述自己的視覺(jué)經(jīng)歷、計(jì)劃未來(lái)的行動(dòng)、進(jìn)行記憶回溯、口頭解釋自己的行為原因。隨后,Corey Lynch對(duì)視頻內(nèi)容進(jìn)行了進(jìn)一步技術(shù)拆解。以下是他技術(shù)拆解的全文:Figure 01所有的行為都是學(xué)習(xí)得來(lái)的(而非遙控操作的),并以正常的速度(1倍速)運(yùn)行。我們將機(jī)器人攝像頭的圖像和機(jī)載麥克風(fēng)捕獲的語(yǔ)音轉(zhuǎn)錄文本輸入到一個(gè)由OpenAI訓(xùn)練的大型多模態(tài)模型中,該模型會(huì)理解圖像和文本。該模型會(huì)處理整個(gè)對(duì)話的歷史記錄,包括過(guò)去的圖像,以產(chǎn)生語(yǔ)言響應(yīng),這些響應(yīng)通過(guò)文本到語(yǔ)音模型被人類聽(tīng)到。同一個(gè)模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪個(gè)學(xué)習(xí)到的閉環(huán)行為以完成給定的命令,將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU并執(zhí)行策略。將Figure 01連接到一個(gè)大型預(yù)訓(xùn)練的多模態(tài)模型,賦予了它一些有趣的新能力。現(xiàn)在,F(xiàn)igure 01+ OpenAI可以:2、在做決策時(shí)使用常識(shí)推理。例如,“桌子上的那個(gè)盤(pán)子和杯子可能接下來(lái)會(huì)放到晾碗架上”。3、將模糊的、高級(jí)別的請(qǐng)求,如“我餓了”,轉(zhuǎn)化為一些符合上下文的行為,如“把蘋(píng)果遞給這個(gè)人”。4、用簡(jiǎn)單的英語(yǔ)描述為什么它執(zhí)行了特定的動(dòng)作。例如,“這是我能從桌子上提供給你的唯一可食用的物品”。一個(gè)理解對(duì)話歷史的大型預(yù)訓(xùn)練模型賦予了Figure 01強(qiáng)大的短期記憶。考慮一下這個(gè)問(wèn)題,“你能把它們放在那里嗎?”“它們”指的是什么,而“那里”又在哪里?正確回答需要反思記憶的能力。有了一個(gè)預(yù)訓(xùn)練模型分析對(duì)話的圖像和文本歷史,F(xiàn)igure 01很快就形成并執(zhí)行了一個(gè)計(jì)劃:最后,讓我們談?wù)剬W(xué)習(xí)得來(lái)的低層級(jí)的(learned low-level)雙手操作。所有的行為都由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng)變換策略驅(qū)動(dòng),將像素直接映射到動(dòng)作。這些網(wǎng)絡(luò)以10Hz的頻率接收機(jī)載圖像,并以200Hz的頻率生成24自由度的動(dòng)作(手腕姿態(tài)和手指關(guān)節(jié)角度)。這些動(dòng)作作為高速率的'設(shè)定點(diǎn)',供更高速率的全身控制器跟蹤。這是一個(gè)有用的關(guān)注點(diǎn)分離:1、互聯(lián)網(wǎng)預(yù)訓(xùn)練模型通過(guò)對(duì)圖像和文本進(jìn)行常識(shí)推理,提出高級(jí)計(jì)劃。2、學(xué)習(xí)到的視覺(jué)運(yùn)動(dòng)策略執(zhí)行計(jì)劃,執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為,比如在任何位置操作可變形的袋子。3、同時(shí),全身控制器確保安全穩(wěn)定的動(dòng)態(tài)。例如,保持平衡。最后,Corey Lynch發(fā)表了自己的一些感受:即使在幾年前,我也會(huì)認(rèn)為和一個(gè)能規(guī)劃和執(zhí)行自己的全學(xué)習(xí)行為的類人機(jī)器人(a humanoid robot while it plans and carries out its own fully learned behaviors)進(jìn)行完整的對(duì)話是我們可能需要等待幾十年才能看到的事情。顯然,很多事情已經(jīng)改變了。在我看來(lái),F(xiàn)igure現(xiàn)在是全世界將具身智能(embodied AI)規(guī)?;瘮U(kuò)展最好的地方。結(jié)語(yǔ):AI大模型與機(jī)器人融合,在Figure發(fā)布的最新視頻中,我們可以看到Figure的人形機(jī)器人與OpenAI大模型能力結(jié)合,完成了此前許多難以完成的“高難度動(dòng)作”,機(jī)器人與人類的人機(jī)交互效果,再次向前迭代。未來(lái)隨著AI大模型與機(jī)器人更加深度的結(jié)合,機(jī)器人真正走向更廣泛的商用、走向千家萬(wàn)戶的進(jìn)度也將提速,具身智能必將成為未來(lái)AI產(chǎn)業(yè)中的一條關(guān)鍵賽道。(本文系網(wǎng)易新聞·網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)
2024年中國(guó)生成式AI大會(huì)預(yù)告
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。