2025北京智源大會6月6日開幕,智源研究院院長王仲遠就多模態(tài)大模型、具身智能等熱點問題接受媒體采訪。他表示,多模態(tài)大模型已在特定場景啟動落地,但尚未實現(xiàn)高度普適化。智源多模態(tài)大模型是為了推動AI從數(shù)字世界走向物理世界,未來除了視頻、文字、語音、腦信號數(shù)據(jù)等,多模態(tài)大模型還將加入3D信號、時空信號等數(shù)據(jù)進行融合。
從繁雜的模態(tài)數(shù)據(jù)中篩選最有效信息亟待突破
王仲遠表示,互聯(lián)網(wǎng)文本數(shù)據(jù)基本已經(jīng)被使用完畢,大語言模型性能提升已相對緩慢?,F(xiàn)實世界中存在大量多模態(tài)數(shù)據(jù),比如流程圖、CT數(shù)據(jù)和各行業(yè)的傳感器數(shù)據(jù)等,可以突破大語言模型的瓶頸。
開幕式上,智源研究院推出“悟界”系列大模型,其中,Emu3作為原生多模態(tài)統(tǒng)一架構,讓大模型具備理解和推理世界的能力。
如何理解原生多模態(tài)大模型的“原生”概念?王仲遠說,當前多模態(tài)大模型的學習路徑,尤其是多模態(tài)理解模型,通常是先將語言模型訓練到很強的程度,隨后再學習其他模態(tài)信息,如同先達到博士學位水平,再去接觸其他知識。在此過程中,模型的能力可能會出現(xiàn)下降,從“博士”水平降至“大學”甚至“高中”水平。
但人類的學習路徑不是這樣的,小朋友從出生就開始聽到世界的聲音,跟各種物品、圖像交互學習,父母通過聲音教他。所謂的“原生”正是如此,是指在模型訓練初始階段,就將文字、圖像、聲音乃至腦信號等各種模態(tài)數(shù)據(jù)都納入其中進行訓練。隨著模態(tài)種類不斷增加,如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息,成為亟待突破的技術難題。目前,不僅智源研究院,行業(yè)內(nèi)眾多機構都在積極探索原生多模態(tài)技術。
此外,也有專家學者猜測,國際上近期發(fā)布的產(chǎn)品背后或許已運用原生多模態(tài)技術,不過這些產(chǎn)品對技術細節(jié)的披露愈發(fā)稀少。從行業(yè)專家及學術層面來看,原生多模態(tài)是值得深入探索的技術路線,它與企業(yè)多模態(tài)技術路線存在差異。企業(yè)多模態(tài)技術是先強化語言模型,再添加多模態(tài),更便于實現(xiàn)產(chǎn)業(yè)落地。
在產(chǎn)業(yè)界,多模態(tài)大模型依然在做圖像生成、視頻生成,這些在設計、廣告、電商領域有很好的落地,可以極大提升生產(chǎn)效率。王仲遠介紹,多模態(tài)大模型已在特定場景啟動落地,但尚未實現(xiàn)高度普適化。在實際場景中,多模態(tài)需求不可回避。例如,英語教學需融合聲音、圖像與場景理解,但當前多模態(tài)大模型能力仍顯著弱于語言模型,導致產(chǎn)品效果不及預期。盡管產(chǎn)業(yè)界嘗試通過“打補丁”的方式優(yōu)化體驗,但根本性突破仍依賴更強大的基礎模型。
未來多模態(tài)模型將加入3D信號、時空信號等
“智源多模態(tài)大模型是為了推動AI從數(shù)字世界走向物理世界?!蓖踔龠h說,具身領域的數(shù)據(jù)有更多模態(tài),現(xiàn)在的模態(tài)包括視頻、文字、語音、腦信號數(shù)據(jù)等,未來還可能加入3D信號、時空信號等數(shù)據(jù)。
“我們做的原生多模態(tài)世界模型的統(tǒng)一架構,不僅理解靜態(tài)的多模態(tài)數(shù)據(jù),還要理解空間、時間?!彼e例說,現(xiàn)在很多多模態(tài)模型看到桌子上的咖啡杯,會描述“咖啡杯在桌上,咖啡杯是白色的,上面有一些文字”,但人類對空間上的認知會覺得“咖啡杯在桌子的邊緣,很危險”?,F(xiàn)在絕大部分多模態(tài)大模型不具備這樣的判斷能力。
有了空間的理解后,機器人操作時就應該從桌子邊緣往里拿杯子,而不是從里往外拿杯子?!翱Х缺锌赡艿粝氯ド踔僚K地板,這就是時空智能預測,是我們要探索的多模態(tài)世界模型的能力?!?/p>
具身智能“小組賽”還未結束,遠沒有到“淘汰賽”
談及具身智能,王仲遠表示,在具身智能發(fā)展過程中,智源希望能探索出獨特的發(fā)展路徑:首先是數(shù)字智能物理化。通過大模型技術將數(shù)字世界的推理、規(guī)劃等智能能力延伸至物理世界,推動機器人從“單一功能”向“通用智能”進化。
其次是低成本功能化。聚焦垂直場景,降低單臺機器人成本并強化特定能力,如家庭清潔、工業(yè)分揀,通過規(guī)?;涞胤e累數(shù)據(jù),逐步拓展應用邊界,讓很多小型機器人也能走進千家萬戶。因為大型人形機器人技術復雜度高,商業(yè)化周期更長,而小型專用機器人若能在細分場景實現(xiàn)極致性價比,可能率先滲透家庭與產(chǎn)業(yè)場景,為具身智能的長期發(fā)展奠定基礎。
目前,許多智能駕駛車企正在進軍具身智能領域。對此,他認為,車企的核心優(yōu)勢體現(xiàn)在制造能力與產(chǎn)業(yè)鏈整合、落地場景資源兩個方面。智能駕駛車企積累的交通、出行等場景數(shù)據(jù),可能為具身智能提供初期應用場景,比如物流、服務機器人等。
但具身智能的技術復雜度遠超智能駕駛,需融合感知、決策、行動等多維度能力,對算法、硬件協(xié)同要求更高,車企現(xiàn)有技術積累未必直接適用。另外,具身智能尚處發(fā)展早期?!靶〗M賽”階段,大模型機構、硬件廠商、科研團隊等多方參與,不同領域玩家的技術路徑仍在碰撞中,遠沒有到“淘汰賽”階段,最終誰能形成突破尚未可知?!安贿^,越來越多參與方共建具身智能產(chǎn)業(yè),本身是件好事,每一方都會帶來不同的視角和理念。具身智能最終是交叉學科,不同思想的碰撞一定有利于產(chǎn)業(yè)發(fā)展?!?/p>
未來三年,具身智能最可能在哪個領域產(chǎn)生突破性的規(guī)?;瘧??王仲遠認為,首先是在相對封閉的特定場景里落地,比如工廠,這不僅能規(guī)避當前具身智能不成熟階段的安全隱患,同時也能替代人類進行相對重復且枯燥的任務。
新京報記者 張璐
編輯 劉夢婕 校對 付春愔