全球頂級(jí)AI科學(xué)家李飛飛領(lǐng)銜的具身智能項(xiàng)目到底長(zhǎng)啥樣？

2023-07-11 20:41:46來(lái)源：金融界

美國(guó)國(guó)家工程院院士、斯坦福大學(xué)教授李飛飛團(tuán)隊(duì)于近日發(fā)布了具身智能的最新研究成果，大模型接入機(jī)器人，可將復(fù)雜指令轉(zhuǎn)化成具體行動(dòng)規(guī)劃，人類可以很隨意地用自然語(yǔ)言給機(jī)器人下達(dá)指令，機(jī)器人也無(wú)需額外數(shù)據(jù)和訓(xùn)練。

(資料圖片)

該項(xiàng)目名為“VoxPoser”，相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練，該項(xiàng)目用大模型指導(dǎo)機(jī)器人如何與環(huán)境進(jìn)行交互，所以直接解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。

《科創(chuàng)板日?qǐng)?bào)》記者從官網(wǎng)到采訪多位業(yè)內(nèi)人士，一探這位全球頂尖AI科學(xué)家具身智能項(xiàng)目“VoxPoser”的真面目。

▍具身智能=？

《科創(chuàng)板日?qǐng)?bào)》記者在VoxPoser官網(wǎng)看到，大模型接入機(jī)器人后，人類可以隨意用自然語(yǔ)言給機(jī)器人下達(dá)指令，就像這樣：

大語(yǔ)言模型+視覺語(yǔ)言模型，可以在3D空間中分析出目標(biāo)和需要繞過(guò)的障礙，幫助機(jī)器人做行動(dòng)規(guī)劃，就像這樣：

更重要的是，真實(shí)世界中的機(jī)器人在未經(jīng)“培訓(xùn)”的情況下，可以直接執(zhí)行任務(wù)，就像這樣：

接入大模型后，機(jī)器人是如何“聽懂人話”的呢？根據(jù)李飛飛團(tuán)隊(duì)闡述的工作原理：

首先，給定環(huán)境信息（用相機(jī)采集RGB-D圖像）和人類要執(zhí)行的自然語(yǔ)言指令。

隨后，LLM（大語(yǔ)言模型）根據(jù)這些內(nèi)容編寫代碼，所生成代碼與VLM（視覺語(yǔ)言模型）進(jìn)行交互，指導(dǎo)系統(tǒng)生成相應(yīng)的操作指示地圖，即3D Value Map（包括在哪里行動(dòng)，怎么行動(dòng)）。

最后，運(yùn)動(dòng)規(guī)劃器合成6-DoF動(dòng)作（上下、左右、前后，6自由度）。

對(duì)于VoxPoser項(xiàng)目，北京智譜華章科技有限公司AMiner項(xiàng)目團(tuán)隊(duì)在官方微博表示，他們指出了機(jī)器人操作中的一個(gè)主要瓶頸，即大多數(shù)模型仍依賴預(yù)定義的運(yùn)動(dòng)原語(yǔ)來(lái)進(jìn)行與環(huán)境的物理交互。

機(jī)器人要靈活運(yùn)動(dòng)，依賴預(yù)先輸入的數(shù)據(jù)來(lái)訓(xùn)練，但后者稀缺且昂貴，所以直到目前為止，機(jī)器人也只能實(shí)現(xiàn)工程師們預(yù)先定義的有限功能。

根據(jù)李飛飛團(tuán)隊(duì)成員Wenlong Huang在社交媒體的闡述，VoxPoser的原理是不需要對(duì)機(jī)器人進(jìn)行預(yù)訓(xùn)練，即可有效解決原本的數(shù)據(jù)難題。

李飛飛團(tuán)隊(duì)的研究成果，在國(guó)內(nèi)外社交媒體上引起了廣泛的討論。《科創(chuàng)板日?qǐng)?bào)》記者注意到，一名前微軟研究員和亞馬遜云專家評(píng)價(jià)稱，“這項(xiàng)研究走在了人工智能系統(tǒng)最重要、最復(fù)雜的前沿”，私募大佬但斌也在微博上轉(zhuǎn)發(fā)了相關(guān)文章。

▍更智能的機(jī)器人，AI能力是關(guān)鍵

由于AI的加持，打開了人們對(duì)于機(jī)器人技術(shù)發(fā)展和應(yīng)用場(chǎng)景的想象空間，近期機(jī)器人板塊熱度再次襲來(lái)，漲勢(shì)明顯。

一名機(jī)械行業(yè)券商研究員告訴《科創(chuàng)板日?qǐng)?bào)》記者，近期他們正在密集調(diào)研機(jī)器人公司，尤其是人形機(jī)器人企業(yè)，并組織交流，要求是“調(diào)研50家機(jī)器人企業(yè)，交流100場(chǎng)”。

該研究員表示，但市場(chǎng)目前還是在炒作零部件供應(yīng)商，AI+機(jī)器人，現(xiàn)在核心矛盾是AI能力，也即大模型、算法、操作系統(tǒng)等軟件層面的構(gòu)建方案，而真正具備這些能力的機(jī)器人企業(yè)并不多。

中國(guó)通信工業(yè)協(xié)會(huì)兩化融合委員會(huì)副會(huì)長(zhǎng)吳高斌接受《科創(chuàng)板日?qǐng)?bào)》記者采訪時(shí)表示，接入大模型，對(duì)整個(gè)機(jī)器人軟件和硬件系統(tǒng)提出了許多新要求。一方面，大模型需要更強(qiáng)大的計(jì)算和存儲(chǔ)能力。機(jī)器人廠商需要投入更多的資源來(lái)提升硬件設(shè)備的性能，以滿足大模型的需求。

另一方面，大模型對(duì)軟件系統(tǒng)的要求也更高。機(jī)器人廠商需要開發(fā)更加復(fù)雜和高效的算法和軟件架構(gòu)，以支持大模型的訓(xùn)練和應(yīng)用。此外，大模型的使用還需要更多的數(shù)據(jù)集和標(biāo)注，機(jī)器人廠商需要建立更完善的數(shù)據(jù)采集和管理系統(tǒng)。

因此，不同量級(jí)的公司對(duì)大模型的需求也存在一定的差異。吳高斌告訴記者，大型機(jī)器人廠商通常具有強(qiáng)大的研發(fā)實(shí)力和資源，對(duì)于他們而言，接入大模型幾乎是必選項(xiàng)，小型機(jī)器人廠商的市場(chǎng)需求相對(duì)較小，可能更注重成本和性能的平衡，則并不一定要接入大模型。

前述研究員也告訴記者，AI+機(jī)器人方向，他們現(xiàn)在最關(guān)注的是特斯拉、小米、達(dá)闥、優(yōu)必選這些頭部企業(yè)的最新動(dòng)向。

在剛剛結(jié)束的2023年世界人工智能大會(huì)上，特斯拉、達(dá)闥是位數(shù)不多展出人形機(jī)器人實(shí)物的廠商，在兩個(gè)展區(qū)，擠滿了前來(lái)觀展的人員。在AI+機(jī)器人的概念下，產(chǎn)業(yè)鏈上哪種類型的公司將更具競(jìng)爭(zhēng)力也成為了一個(gè)關(guān)注的焦點(diǎn)。

吳高斌認(rèn)為，從整個(gè)產(chǎn)業(yè)鏈來(lái)看，與大模型相關(guān)的公司可能更具競(jìng)爭(zhēng)力。這包括大型機(jī)器人廠商、人工智能技術(shù)提供商、數(shù)據(jù)服務(wù)提供商等。這些公司能夠提供更先進(jìn)的技術(shù)和更完善的解決方案，從而在市場(chǎng)上占據(jù)更有競(jìng)爭(zhēng)力的地位。

關(guān)鍵詞：

責(zé)任編輯：hnmd003