全球頂級(jí)AI科學(xué)家李飛飛領(lǐng)銜的具身智能項(xiàng)目 到底長(zhǎng)啥樣?

2023-07-11 20:41:46來(lái)源:金融界  

美國(guó)國(guó)家工程院院士、斯坦福大學(xué)教授李飛飛團(tuán)隊(duì)于近日發(fā)布了具身智能的最新研究成果,大模型接入機(jī)器人,可將復(fù)雜指令轉(zhuǎn)化成具體行動(dòng)規(guī)劃,人類可以很隨意地用自然語(yǔ)言給機(jī)器人下達(dá)指令,機(jī)器人也無(wú)需額外數(shù)據(jù)和訓(xùn)練。


(資料圖片)

該項(xiàng)目名為“VoxPoser”,相比傳統(tǒng)方法需要進(jìn)行額外的預(yù)訓(xùn)練,該項(xiàng)目用大模型指導(dǎo)機(jī)器人如何與環(huán)境進(jìn)行交互,所以直接解決了機(jī)器人訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。

《科創(chuàng)板日?qǐng)?bào)》記者從官網(wǎng)到采訪多位業(yè)內(nèi)人士,一探這位全球頂尖AI科學(xué)家具身智能項(xiàng)目“VoxPoser”的真面目。

▍具身智能=?

《科創(chuàng)板日?qǐng)?bào)》記者在VoxPoser官網(wǎng)看到,大模型接入機(jī)器人后,人類可以隨意用自然語(yǔ)言給機(jī)器人下達(dá)指令,就像這樣:

大語(yǔ)言模型+視覺語(yǔ)言模型,可以在3D空間中分析出目標(biāo)和需要繞過(guò)的障礙,幫助機(jī)器人做行動(dòng)規(guī)劃,就像這樣:

更重要的是,真實(shí)世界中的機(jī)器人在未經(jīng)“培訓(xùn)”的情況下,可以直接執(zhí)行任務(wù),就像這樣:

接入大模型后,機(jī)器人是如何“聽懂人話”的呢?根據(jù)李飛飛團(tuán)隊(duì)闡述的工作原理:

首先,給定環(huán)境信息(用相機(jī)采集RGB-D圖像)和人類要執(zhí)行的自然語(yǔ)言指令。

隨后,LLM(大語(yǔ)言模型)根據(jù)這些內(nèi)容編寫代碼,所生成代碼與VLM(視覺語(yǔ)言模型)進(jìn)行交互,指導(dǎo)系統(tǒng)生成相應(yīng)的操作指示地圖,即3D Value Map(包括在哪里行動(dòng),怎么行動(dòng))。

最后,運(yùn)動(dòng)規(guī)劃器合成6-DoF動(dòng)作(上下、左右、前后,6自由度)。

對(duì)于VoxPoser項(xiàng)目,北京智譜華章科技有限公司AMiner項(xiàng)目團(tuán)隊(duì)在官方微博表示,他們指出了機(jī)器人操作中的一個(gè)主要瓶頸,即大多數(shù)模型仍依賴預(yù)定義的運(yùn)動(dòng)原語(yǔ)來(lái)進(jìn)行與環(huán)境的物理交互。

機(jī)器人要靈活運(yùn)動(dòng),依賴預(yù)先輸入的數(shù)據(jù)來(lái)訓(xùn)練,但后者稀缺且昂貴,所以直到目前為止,機(jī)器人也只能實(shí)現(xiàn)工程師們預(yù)先定義的有限功能。

根據(jù)李飛飛團(tuán)隊(duì)成員Wenlong Huang在社交媒體的闡述,VoxPoser的原理是不需要對(duì)機(jī)器人進(jìn)行預(yù)訓(xùn)練,即可有效解決原本的數(shù)據(jù)難題。

李飛飛團(tuán)隊(duì)的研究成果,在國(guó)內(nèi)外社交媒體上引起了廣泛的討論。《科創(chuàng)板日?qǐng)?bào)》記者注意到,一名前微軟研究員和亞馬遜云專家評(píng)價(jià)稱,“這項(xiàng)研究走在了人工智能系統(tǒng)最重要、最復(fù)雜的前沿”,私募大佬但斌也在微博上轉(zhuǎn)發(fā)了相關(guān)文章。

▍更智能的機(jī)器人,AI能力是關(guān)鍵

由于AI的加持,打開了人們對(duì)于機(jī)器人技術(shù)發(fā)展和應(yīng)用場(chǎng)景的想象空間,近期機(jī)器人板塊熱度再次襲來(lái),漲勢(shì)明顯。

一名機(jī)械行業(yè)券商研究員告訴《科創(chuàng)板日?qǐng)?bào)》記者,近期他們正在密集調(diào)研機(jī)器人公司,尤其是人形機(jī)器人企業(yè),并組織交流,要求是“調(diào)研50家機(jī)器人企業(yè),交流100場(chǎng)”。

該研究員表示,但市場(chǎng)目前還是在炒作零部件供應(yīng)商,AI+機(jī)器人,現(xiàn)在核心矛盾是AI能力,也即大模型、算法、操作系統(tǒng)等軟件層面的構(gòu)建方案,而真正具備這些能力的機(jī)器人企業(yè)并不多。

中國(guó)通信工業(yè)協(xié)會(huì)兩化融合委員會(huì)副會(huì)長(zhǎng)吳高斌接受《科創(chuàng)板日?qǐng)?bào)》記者采訪時(shí)表示,接入大模型,對(duì)整個(gè)機(jī)器人軟件和硬件系統(tǒng)提出了許多新要求。一方面,大模型需要更強(qiáng)大的計(jì)算和存儲(chǔ)能力。機(jī)器人廠商需要投入更多的資源來(lái)提升硬件設(shè)備的性能,以滿足大模型的需求。

另一方面,大模型對(duì)軟件系統(tǒng)的要求也更高。機(jī)器人廠商需要開發(fā)更加復(fù)雜和高效的算法和軟件架構(gòu),以支持大模型的訓(xùn)練和應(yīng)用。此外,大模型的使用還需要更多的數(shù)據(jù)集和標(biāo)注,機(jī)器人廠商需要建立更完善的數(shù)據(jù)采集和管理系統(tǒng)。

因此,不同量級(jí)的公司對(duì)大模型的需求也存在一定的差異。吳高斌告訴記者,大型機(jī)器人廠商通常具有強(qiáng)大的研發(fā)實(shí)力和資源,對(duì)于他們而言,接入大模型幾乎是必選項(xiàng),小型機(jī)器人廠商的市場(chǎng)需求相對(duì)較小,可能更注重成本和性能的平衡,則并不一定要接入大模型。

前述研究員也告訴記者,AI+機(jī)器人方向,他們現(xiàn)在最關(guān)注的是特斯拉、小米、達(dá)闥、優(yōu)必選這些頭部企業(yè)的最新動(dòng)向。

在剛剛結(jié)束的2023年世界人工智能大會(huì)上,特斯拉、達(dá)闥是位數(shù)不多展出人形機(jī)器人實(shí)物的廠商,在兩個(gè)展區(qū),擠滿了前來(lái)觀展的人員。在AI+機(jī)器人的概念下,產(chǎn)業(yè)鏈上哪種類型的公司將更具競(jìng)爭(zhēng)力也成為了一個(gè)關(guān)注的焦點(diǎn)。

吳高斌認(rèn)為,從整個(gè)產(chǎn)業(yè)鏈來(lái)看,與大模型相關(guān)的公司可能更具競(jìng)爭(zhēng)力。這包括大型機(jī)器人廠商、人工智能技術(shù)提供商、數(shù)據(jù)服務(wù)提供商等。這些公司能夠提供更先進(jìn)的技術(shù)和更完善的解決方案,從而在市場(chǎng)上占據(jù)更有競(jìng)爭(zhēng)力的地位。

關(guān)鍵詞:

責(zé)任編輯:hnmd003

相關(guān)閱讀

推薦閱讀