久久青青亚洲国产,久久青青草原精品国产,成人熟女视频一区二区三区,久久久一本色中文字幕

<small id="ftpiv"></small>

<track id="ftpiv"></track>

<small id="ftpiv"></small>

北交所頻道新京號電子報千龍網(wǎng) 貝殼財經(jīng) 北京BEIJING 新京雅集專題商務合作愛心模式

微博

微信

首頁 > 北京

智源研究院院長王仲遠：多模態(tài)大模型尚未實現(xiàn)高度普適化

2025-06-07 08:49 記者：張璐編輯：劉夢婕

未來，多模態(tài)大模型將加入3D信號、時空信號等數(shù)據(jù)。

2025北京智源大會6月6日開幕，智源研究院院長王仲遠就多模態(tài)大模型、具身智能等熱點問題接受媒體采訪。他表示，多模態(tài)大模型已在特定場景啟動落地，但尚未實現(xiàn)高度普適化。智源多模態(tài)大模型是為了推動AI從數(shù)字世界走向物理世界，未來除了視頻、文字、語音、腦信號數(shù)據(jù)等，多模態(tài)大模型還將加入3D信號、時空信號等數(shù)據(jù)進行融合。

從繁雜的模態(tài)數(shù)據(jù)中篩選最有效信息亟待突破

王仲遠表示，互聯(lián)網(wǎng)文本數(shù)據(jù)基本已經(jīng)被使用完畢，大語言模型性能提升已相對緩慢?，F(xiàn)實世界中存在大量多模態(tài)數(shù)據(jù)，比如流程圖、CT數(shù)據(jù)和各行業(yè)的傳感器數(shù)據(jù)等，可以突破大語言模型的瓶頸。

開幕式上，智源研究院推出“悟界”系列大模型，其中，Emu3作為原生多模態(tài)統(tǒng)一架構，讓大模型具備理解和推理世界的能力。

如何理解原生多模態(tài)大模型的“原生”概念？王仲遠說，當前多模態(tài)大模型的學習路徑，尤其是多模態(tài)理解模型，通常是先將語言模型訓練到很強的程度，隨后再學習其他模態(tài)信息，如同先達到博士學位水平，再去接觸其他知識。在此過程中，模型的能力可能會出現(xiàn)下降，從“博士”水平降至“大學”甚至“高中”水平。

但人類的學習路徑不是這樣的，小朋友從出生就開始聽到世界的聲音，跟各種物品、圖像交互學習，父母通過聲音教他。所謂的“原生”正是如此，是指在模型訓練初始階段，就將文字、圖像、聲音乃至腦信號等各種模態(tài)數(shù)據(jù)都納入其中進行訓練。隨著模態(tài)種類不斷增加，如何從繁雜的模態(tài)數(shù)據(jù)中篩選出最有效的信息，成為亟待突破的技術難題。目前，不僅智源研究院，行業(yè)內(nèi)眾多機構都在積極探索原生多模態(tài)技術。

此外，也有專家學者猜測，國際上近期發(fā)布的產(chǎn)品背后或許已運用原生多模態(tài)技術，不過這些產(chǎn)品對技術細節(jié)的披露愈發(fā)稀少。從行業(yè)專家及學術層面來看，原生多模態(tài)是值得深入探索的技術路線，它與企業(yè)多模態(tài)技術路線存在差異。企業(yè)多模態(tài)技術是先強化語言模型，再添加多模態(tài)，更便于實現(xiàn)產(chǎn)業(yè)落地。

在產(chǎn)業(yè)界，多模態(tài)大模型依然在做圖像生成、視頻生成，這些在設計、廣告、電商領域有很好的落地，可以極大提升生產(chǎn)效率。王仲遠介紹，多模態(tài)大模型已在特定場景啟動落地，但尚未實現(xiàn)高度普適化。在實際場景中，多模態(tài)需求不可回避。例如，英語教學需融合聲音、圖像與場景理解，但當前多模態(tài)大模型能力仍顯著弱于語言模型，導致產(chǎn)品效果不及預期。盡管產(chǎn)業(yè)界嘗試通過“打補丁”的方式優(yōu)化體驗，但根本性突破仍依賴更強大的基礎模型。

未來多模態(tài)模型將加入3D信號、時空信號等

“智源多模態(tài)大模型是為了推動AI從數(shù)字世界走向物理世界?！蓖踔龠h說，具身領域的數(shù)據(jù)有更多模態(tài)，現(xiàn)在的模態(tài)包括視頻、文字、語音、腦信號數(shù)據(jù)等，未來還可能加入3D信號、時空信號等數(shù)據(jù)。

“我們做的原生多模態(tài)世界模型的統(tǒng)一架構，不僅理解靜態(tài)的多模態(tài)數(shù)據(jù)，還要理解空間、時間?！彼e例說，現(xiàn)在很多多模態(tài)模型看到桌子上的咖啡杯，會描述“咖啡杯在桌上，咖啡杯是白色的，上面有一些文字”，但人類對空間上的認知會覺得“咖啡杯在桌子的邊緣，很危險”?，F(xiàn)在絕大部分多模態(tài)大模型不具備這樣的判斷能力。

有了空間的理解后，機器人操作時就應該從桌子邊緣往里拿杯子，而不是從里往外拿杯子?！翱Х缺锌赡艿粝氯ド踔僚K地板，這就是時空智能預測，是我們要探索的多模態(tài)世界模型的能力?！?/p>

具身智能“小組賽”還未結束，遠沒有到“淘汰賽”

談及具身智能，王仲遠表示，在具身智能發(fā)展過程中，智源希望能探索出獨特的發(fā)展路徑：首先是數(shù)字智能物理化。通過大模型技術將數(shù)字世界的推理、規(guī)劃等智能能力延伸至物理世界，推動機器人從“單一功能”向“通用智能”進化。

其次是低成本功能化。聚焦垂直場景，降低單臺機器人成本并強化特定能力，如家庭清潔、工業(yè)分揀，通過規(guī)?；涞胤e累數(shù)據(jù)，逐步拓展應用邊界，讓很多小型機器人也能走進千家萬戶。因為大型人形機器人技術復雜度高，商業(yè)化周期更長，而小型專用機器人若能在細分場景實現(xiàn)極致性價比，可能率先滲透家庭與產(chǎn)業(yè)場景，為具身智能的長期發(fā)展奠定基礎。

目前，許多智能駕駛車企正在進軍具身智能領域。對此，他認為，車企的核心優(yōu)勢體現(xiàn)在制造能力與產(chǎn)業(yè)鏈整合、落地場景資源兩個方面。智能駕駛車企積累的交通、出行等場景數(shù)據(jù)，可能為具身智能提供初期應用場景，比如物流、服務機器人等。

但具身智能的技術復雜度遠超智能駕駛，需融合感知、決策、行動等多維度能力，對算法、硬件協(xié)同要求更高，車企現(xiàn)有技術積累未必直接適用。另外，具身智能尚處發(fā)展早期?！靶〗M賽”階段，大模型機構、硬件廠商、科研團隊等多方參與，不同領域玩家的技術路徑仍在碰撞中，遠沒有到“淘汰賽”階段，最終誰能形成突破尚未可知?！安贿^，越來越多參與方共建具身智能產(chǎn)業(yè)，本身是件好事，每一方都會帶來不同的視角和理念。具身智能最終是交叉學科，不同思想的碰撞一定有利于產(chǎn)業(yè)發(fā)展?！?/p>

未來三年，具身智能最可能在哪個領域產(chǎn)生突破性的規(guī)?；瘧?？王仲遠認為，首先是在相對封閉的特定場景里落地，比如工廠，這不僅能規(guī)避當前具身智能不成熟階段的安全隱患，同時也能替代人類進行相對重復且枯燥的任務。

新京報記者張璐

編輯劉夢婕校對付春愔

微博

我要評論

直播

預告

高考第二日語數(shù)英收官考場外考生暢聊感受
2025-06-08 14:30

熱點

最新

熱議

想要發(fā)表評論，閱讀更多精彩內(nèi)容，快來下
載新京報客戶端吧