陈乔恩最想删的视频,ts美女视频

OpenAI機(jī)器人來(lái)了，說(shuō)話竟然會(huì)“結(jié)巴”，AI負(fù)責(zé)人深度拆解背后技術(shù)。

作者 | 云鵬

編輯 | 李水青

OpenAI大模型加持，F(xiàn)igure機(jī)器人再次顛覆了我們的想象！

▲測(cè)試員說(shuō)自己餓了，問(wèn)Figure 01有什么能吃的，F(xiàn)igure 01準(zhǔn)確地理解蘋(píng)果是可食用的并精準(zhǔn)遞送了過(guò)去

智東西3月14日消息，昨晚機(jī)器人明星創(chuàng)企Figure發(fā)布了一段2分35秒的視頻。視頻中，F(xiàn)igure 01可以輕松完成很多高難度動(dòng)作：

描述自己眼前看到了什么；

判斷自己眼前看到的這些東西相互之間有什么關(guān)聯(lián)；

給饑餓的測(cè)試員找到桌子上唯一能吃的蘋(píng)果并精準(zhǔn)遞送過(guò)去；

進(jìn)行“回憶”，并對(duì)自己做過(guò)的事情給出評(píng)價(jià)；

用簡(jiǎn)單易懂的話語(yǔ)口頭解釋自己做事的緣由，比如為什么覺(jué)得自己做的好？

這背后，Figure 01用上了OpenAI的大模型能力。

整個(gè)過(guò)程中，Figure 01的動(dòng)作非常流暢自然，對(duì)人類語(yǔ)言的理解以及背后含義也能充分Get到，同時(shí)很多語(yǔ)言、動(dòng)作上的細(xì)節(jié)跟人類非常相似，它甚至還會(huì)“結(jié)巴”！簡(jiǎn)直令人驚掉下巴。

▲測(cè)試員提問(wèn)說(shuō)，你覺(jué)得你剛才做的怎么樣，F(xiàn)igure 01對(duì)自己之前的行為進(jìn)行了評(píng)價(jià)并說(shuō)明原因

Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch對(duì)該演示進(jìn)行了深入技術(shù)拆解。Corey Lynch特別強(qiáng)調(diào)說(shuō)，這一切都是機(jī)器人自己學(xué)習(xí)并完成的，沒(méi)有任何人為操控，而且是標(biāo)準(zhǔn)的“1倍速”。

▲Corey Lynch發(fā)文進(jìn)行技術(shù)拆解

Figure創(chuàng)始人發(fā)文稱，OpenAI提供了視覺(jué)推理和語(yǔ)言理解能力，而Figure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速、靈敏的機(jī)器人動(dòng)作。

▲Figure創(chuàng)始人Brett Adcock發(fā)文

今年2月24日，F(xiàn)igure剛剛宣布獲得了6.75億美元（折合約48.58億人民幣）高額融資，估值達(dá)到26億美元（折合約187.12億人民幣），一舉躍升獨(dú)角獸。其投資方包括微軟、OpenAI、英偉達(dá)、英特爾，陣容十分亮眼。

▲Figure宣布融資信息

當(dāng)天，F(xiàn)igure還提前官宣了與OpenAI、微軟達(dá)成合作，稱其將與OpenAI合作開(kāi)發(fā)下一代人形機(jī)器人AI模型，利用微軟云進(jìn)行AI基礎(chǔ)設(shè)施構(gòu)建、訓(xùn)練等。Figure透露，他們將通過(guò)與OpenAI的合作繼續(xù)突破AI學(xué)習(xí)的邊界。OpenAI當(dāng)時(shí)也轉(zhuǎn)發(fā)了Figure的推文稱，OpenAI正在與Figure合作，將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知、推理和交互中。

今天的視頻，顯然是Figure與OpenAI合作的階段性成果展示。毫無(wú)疑問(wèn)，機(jī)器人與大模型的結(jié)合，又向前邁了一步。

當(dāng)然，F(xiàn)igure還不忘在評(píng)論區(qū)放上了自己的招聘鏈接，呼吁更多有志之士加入自己。

▲Figure發(fā)布招聘信息

推薦智東西年度會(huì)議。4月18-19日，2024中國(guó)生成式AI大會(huì)將在北京舉行。同期設(shè)有具身智能技術(shù)研討會(huì)，優(yōu)必選和科大訊飛的人形機(jī)器人專家領(lǐng)銜。免費(fèi)報(bào)名或購(gòu)票通道開(kāi)放中，期待你的參會(huì)~

01.

短短2分半視頻細(xì)節(jié)多到炸裂，

Figure的機(jī)器人太逼真了！

視頻中，F(xiàn)igure 01機(jī)器人可以理解人的提問(wèn)并對(duì)眼前物體進(jìn)行識(shí)別和理解。

比如測(cè)試員問(wèn)Figure 01眼前有什么，F(xiàn)igure 01可以準(zhǔn)確說(shuō)出桌子上有一個(gè)蘋(píng)果放在盤(pán)子中央、有一個(gè)裝有杯子和盤(pán)子的晾碗架，還有測(cè)試員正站在桌子旁，一個(gè)手放在了桌子上。

緊接著測(cè)試員問(wèn)它我能吃點(diǎn)什么，F(xiàn)igure 01在思考過(guò)后會(huì)快速準(zhǔn)確地抓取盤(pán)子中的蘋(píng)果交給測(cè)試員。

Figure 01在拿蘋(píng)果的過(guò)程中還不忘“倒個(gè)手”，將蘋(píng)果從右手遞到左手，再通過(guò)左手遞給測(cè)試員，其動(dòng)作非常流暢，也非常符合人類做事的習(xí)慣：從距離更近的一邊把物體送過(guò)去。

測(cè)試員隨后讓Figure 01一邊整理桌子上的垃圾，一邊回答剛才為什么要這么做。

Figure 01馬上開(kāi)始將垃圾撿入籃子里，并在撿的過(guò)程中說(shuō)，因?yàn)樘O(píng)果是桌子上唯一能吃的東西，所以我把蘋(píng)果給了你。

Figure 01在整理垃圾的過(guò)程中，機(jī)器人手臂和手掌的動(dòng)作非常靈活自然，拿放垃圾的動(dòng)作較為流暢，并且在整理完成后，還不忘貼心地把籃子往前推了一小下。

這“一小下”，卻讓我們感到十足的真實(shí)感。它似乎不僅知道如何完成任務(wù)，還知道任務(wù)完成后的目的是什么：完成后交給測(cè)試員。但實(shí)際上，測(cè)試員起初并沒(méi)有在語(yǔ)言中提到整理后“遞給他”這件事。

接下來(lái)，測(cè)試員問(wèn)Figure 01，基于你現(xiàn)在看到的場(chǎng)景，你覺(jué)得你面前的這些餐具一會(huì)兒會(huì)到哪去？

Figure 01在思考后回答說(shuō)，桌上的餐具，包括盤(pán)子和杯子，很可能會(huì)進(jìn)到晾碗架里。這里我們能看到，F(xiàn)igure 01是可以理解面前的杯子、盤(pán)子與晾碗架之間的關(guān)系的。

測(cè)試員緊接著說(shuō)，那你能把它們放進(jìn)去嗎？Figure 01在回答可以后，就把面前的一個(gè)杯子和一個(gè)盤(pán)子放到了晾碗架里。

▲把杯子放到晾碗架里

▲把盤(pán)子放到晾碗架里

在放入的過(guò)程中，F(xiàn)igure 01知道杯子要倒扣著放進(jìn)晾碗架，這個(gè)要求測(cè)試員完全沒(méi)有說(shuō)，同時(shí)Figure 01在放入盤(pán)子的時(shí)候知道要將盤(pán)子卡在晾碗架的槽子里，這一點(diǎn)測(cè)試員同樣沒(méi)有提到。

可以看到，F(xiàn)igure 01不僅可以理解測(cè)試員的要求并執(zhí)行，同時(shí)它對(duì)于執(zhí)行過(guò)程中操作的物體以及周邊環(huán)境是有理解的，它可以自己理解杯子和盤(pán)子要如何放進(jìn)晾碗架里。

測(cè)試員隨后問(wèn)它，你覺(jué)得你做的怎么樣？

Figure 01思考后回答說(shuō)它覺(jué)得自己做的很好，它說(shuō)，蘋(píng)果有了新主人、垃圾不見(jiàn)了、桌上的東西也歸位了。

測(cè)試員回復(fù)它說(shuō)，我同意，謝謝你Figure 01。Figure 01回答說(shuō)，不客氣，如果還有什么需要幫忙的，跟我說(shuō)就好。

值得一提的是，F(xiàn)igure 01的回復(fù)話語(yǔ)一開(kāi)始竟然“結(jié)巴”了一下：“I……I think……。”這簡(jiǎn)直過(guò)于真實(shí)了，好像它真的在思考自己該如何回答并有一些“猶豫”，說(shuō)話的語(yǔ)氣與真人十分類似。

同時(shí)，F(xiàn)igure 01能夠理解測(cè)試員話語(yǔ)中“你做的”中到底包含哪些事，包括它自己之前做的遞送蘋(píng)果、整理垃圾、收拾杯盤(pán)。這一點(diǎn)無(wú)疑是更難得的。

隨后在視頻說(shuō)明中，F(xiàn)igure提到Figure 01的一些特性，包括充分學(xué)習(xí)、動(dòng)作迅速、可執(zhí)行靈巧操作。

02.

AI技術(shù)負(fù)責(zé)人深度拆解實(shí)現(xiàn)原理：

多個(gè)大模型參與，

流暢雙手動(dòng)作如何實(shí)現(xiàn)？

Figure的創(chuàng)始人在X平臺(tái)發(fā)文稱，這是在端到端的神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)的人機(jī)對(duì)話，OpenAI提供的是視覺(jué)推理和語(yǔ)言理解能力，F(xiàn)igure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速、底層級(jí)（low-level）、靈敏的機(jī)器人動(dòng)作。

視頻中的測(cè)試員實(shí)際上是Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch，他也是前谷歌DeepMind科學(xué)家。

他提到，F(xiàn)igure的機(jī)器人目前可以描述自己的視覺(jué)經(jīng)歷、計(jì)劃未來(lái)的行動(dòng)、進(jìn)行記憶回溯、口頭解釋自己的行為原因。

隨后，Corey Lynch對(duì)視頻內(nèi)容進(jìn)行了進(jìn)一步技術(shù)拆解。以下是他技術(shù)拆解的全文：

Figure 01所有的行為都是學(xué)習(xí)得來(lái)的（而非遙控操作的），并以正常的速度（1倍速）運(yùn)行。

我們將機(jī)器人攝像頭的圖像和機(jī)載麥克風(fēng)捕獲的語(yǔ)音轉(zhuǎn)錄文本輸入到一個(gè)由OpenAI訓(xùn)練的大型多模態(tài)模型中，該模型會(huì)理解圖像和文本。

該模型會(huì)處理整個(gè)對(duì)話的歷史記錄，包括過(guò)去的圖像，以產(chǎn)生語(yǔ)言響應(yīng)，這些響應(yīng)通過(guò)文本到語(yǔ)音模型被人類聽(tīng)到。同一個(gè)模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪個(gè)學(xué)習(xí)到的閉環(huán)行為以完成給定的命令，將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU并執(zhí)行策略。

將Figure 01連接到一個(gè)大型預(yù)訓(xùn)練的多模態(tài)模型，賦予了它一些有趣的新能力。現(xiàn)在，F(xiàn)igure 01+ OpenAI可以：

1、描述它的周圍環(huán)境。

2、在做決策時(shí)使用常識(shí)推理。例如，“桌子上的那個(gè)盤(pán)子和杯子可能接下來(lái)會(huì)放到晾碗架上”。

3、將模糊的、高級(jí)別的請(qǐng)求，如“我餓了”，轉(zhuǎn)化為一些符合上下文的行為，如“把蘋(píng)果遞給這個(gè)人”。

4、用簡(jiǎn)單的英語(yǔ)描述為什么它執(zhí)行了特定的動(dòng)作。例如，“這是我能從桌子上提供給你的唯一可食用的物品”。

一個(gè)理解對(duì)話歷史的大型預(yù)訓(xùn)練模型賦予了Figure 01強(qiáng)大的短期記憶。

考慮一下這個(gè)問(wèn)題，“你能把它們放在那里嗎？”“它們”指的是什么，而“那里”又在哪里？正確回答需要反思記憶的能力。

有了一個(gè)預(yù)訓(xùn)練模型分析對(duì)話的圖像和文本歷史，F(xiàn)igure 01很快就形成并執(zhí)行了一個(gè)計(jì)劃：

1）把杯子放在晾碗架上。

2）把盤(pán)子放在晾碗架上。

最后，讓我們談?wù)剬W(xué)習(xí)得來(lái)的低層級(jí)的（learned low-level）雙手操作。

所有的行為都由神經(jīng)網(wǎng)絡(luò)視覺(jué)運(yùn)動(dòng)變換策略驅(qū)動(dòng)，將像素直接映射到動(dòng)作。這些網(wǎng)絡(luò)以10Hz的頻率接收機(jī)載圖像，并以200Hz的頻率生成24自由度的動(dòng)作（手腕姿態(tài)和手指關(guān)節(jié)角度）。這些動(dòng)作作為高速率的'設(shè)定點(diǎn)'，供更高速率的全身控制器跟蹤。這是一個(gè)有用的關(guān)注點(diǎn)分離：

1、互聯(lián)網(wǎng)預(yù)訓(xùn)練模型通過(guò)對(duì)圖像和文本進(jìn)行常識(shí)推理，提出高級(jí)計(jì)劃。

2、學(xué)習(xí)到的視覺(jué)運(yùn)動(dòng)策略執(zhí)行計(jì)劃，執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為，比如在任何位置操作可變形的袋子。

3、同時(shí)，全身控制器確保安全穩(wěn)定的動(dòng)態(tài)。例如，保持平衡。

最后，Corey Lynch發(fā)表了自己的一些感受：

即使在幾年前，我也會(huì)認(rèn)為和一個(gè)能規(guī)劃和執(zhí)行自己的全學(xué)習(xí)行為的類人機(jī)器人（a humanoid robot while it plans and carries out its own fully learned behaviors）進(jìn)行完整的對(duì)話是我們可能需要等待幾十年才能看到的事情。顯然，很多事情已經(jīng)改變了。

在我看來(lái)，F(xiàn)igure現(xiàn)在是全世界將具身智能（embodied AI）規(guī)?；瘮U(kuò)展最好的地方。

03.

結(jié)語(yǔ)：AI大模型與機(jī)器人融合，

加速具身智能技術(shù)迭代

在Figure發(fā)布的最新視頻中，我們可以看到Figure的人形機(jī)器人與OpenAI大模型能力結(jié)合，完成了此前許多難以完成的“高難度動(dòng)作”，機(jī)器人與人類的人機(jī)交互效果，再次向前迭代。

未來(lái)隨著AI大模型與機(jī)器人更加深度的結(jié)合，機(jī)器人真正走向更廣泛的商用、走向千家萬(wàn)戶的進(jìn)度也將提速，具身智能必將成為未來(lái)AI產(chǎn)業(yè)中的一條關(guān)鍵賽道。

（本文系網(wǎng)易新聞·網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容，未經(jīng)賬號(hào)授權(quán)，禁止隨意轉(zhuǎn)載。）

2024年中國(guó)生成式AI大會(huì)預(yù)告

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看