每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

一場需要耐心的長期主義競賽 具身智能業內激辯三大核心問題

2025-11-21 22:40:39

11月20日智源2025具身開放日上,多位技術負責人探討具身智能未來,共識遠少于分歧,但更深層共識是具身智能競爭在于長期投入、真實落地與數據質量。討論涉及世界模型、是否收斂到統一架構、數據瓶頸等問題,專家認為具身智能需根植于真實機器人數據,架構創新、真實世界落地、機器人數量增長與高質量動作數據積累需同時發生。

每經記者|可楊    每經編輯|廖丹    

11月20日下午,在智源2025具身開放日上,在多位技術負責人參與的BAAI具身模型會客廳討論中,關于具身智能未來的共識遠少于分歧。

世界模型是不是核心,具身智能是否會收斂到統一架構,語言是否應該退居次要,動作模型如何設計,數據從哪里來??每一個問題都仍在探索之中。

但《每日經濟新聞》記者注意到,另一種更深層的共識正在形成——具身智能的真正競爭不在概念,而在長期投入、真實落地與數據質量。

未來幾十年,當機器人在真實世界中創造價值、積累經驗、形成反饋時,或許才能孕育出具身智能的“ChatGPT時刻”。在此之前,這仍是一場需要耐心的長期主義競賽。

圖片來源:主辦方供圖

世界模型是萬能鑰匙?

當討論具身智能的關鍵路徑時,世界模型總是被提及,與世界模型的結合是不是未來具身智能發展的關鍵?

這個問題隨著世界模型概念的模糊化,而在業內產生分歧。

北京大學助理教授、銀河通用創始人王鶴認為,“世界模型”一詞最早來自強化學習領域,指的是根據當前狀態與所采取的動作,預測下一步狀態變化的動力學模型。然而,在Sora等視頻生成模型出現后,世界模型概念逐漸向用視頻生成未來傾斜,這讓它與具身智能所需的能力發生了偏移。

王鶴認為,視頻生成模型并不能直接作為具身智能的通用解決方案。原因在于,機器人與人的身體差異巨大,即使訓練出一個能想象人類如何操作世界的視頻模型,也不能保證它對機器人同樣有效。即便是當下最像人的人形機器人,其動作空間、靈巧度和執行方式都與人類存在不小差距,看起來像人做事,不等于機器人學會了做事。

但王鶴同時強調,對未來進行預測是具身智能不可缺少的一環,機器人必須能夠根據未來目標倒推當前動作,并對環境變化保持前向與后向的推理能力。因此,具身世界模型是必要的,但它必須根植于真實機器人數據,才能有真正屬于機器人的世界模型誕生。

智源研究院院長王仲遠認可世界模型對具身智能未來發展的重要性。他指出,當下業界對世界模型并無統一定義。“如果世界模型僅僅指視頻生成(Video Generation),那顯然不夠。”真正對具身智能有意義的是能夠根據過去的時空狀態,準確預測“下一時刻狀態”,并據此規劃動作的模型,這種預測是基于前序的時空狀態和現場環境上下文,進而給出的精準決策。

王仲遠舉例稱,自己回答問題時,要基于前一位嘉賓的發言內容以及現場環境,做出“拿起話筒”這一決策。這才是機器人需要的世界模型,不僅僅是生成幾秒鐘后的畫面,而是要基于對環境的理解,給出一個準確的步驟動作和響應。

具身智能會否收斂到統一架構?

在大語言模型時代,Transformer架構(一種基于自注意力機制的神經網絡架構)一統天下。具身智能領域是否會收斂到一個統一的架構?是否會出現屬于機器人的“具身Transformer”?

中國科學院大學教授趙東斌給出了一種可能性。他表示,目前Transformer在具身智能領域的應用已經帶來了顯著的性能提升,例如近期Physical Intelligence發布的π*0.6模型,利用強化學習獲取數據鏈,能夠在疊衣服、裝盒子等多個任務中實現通用。他認為,隨著技術演進,模型架構可能會收斂到單一模型,或者呈現多樣化但核心統一的態勢。

此外,大部分嘉賓則對于技術路線的收斂持認可態度。在此基礎上,如果具身智能最終會收斂到一個統一架構,那么這個“具身Transformer”的技術路徑在哪里?

招商局集團AI首席科學家張家興認為,當下大模型的發展邏輯難以直接遷移到具身智能。“過去三年形成的LLM(Large Language Model,大語言模型)與VLM(Vision-Language Model,視覺語言模型)等結構,是以語言為中心,而語言在人類執行動作時并不參與。”他舉例稱,人類開車時不會在大腦中不斷語言化動作指令,因此語言作為中間層的VLA架構(視覺語言動作模型,Vision-Language-Action),其本質與機器人需要的結構不一致。

張家興提出,具身智能需要一個完全屬于機器人自身的智能結構,而不是從現有VLA體系延展出來的產物。現階段,他認為真正的具身架構還未出現,業界正在等待一個來自基礎大模型領域的突破性創新,類似當年Transformer論文那樣。這種創新將有可能弱化語言在模型中的中心地位,讓模型以行動和視覺作為驅動核心。

與張家興的視角類似,清華大學助理教授、星海圖聯合創始人趙行認為,視覺是世界上最通用的感知傳感器,具身智能的基礎模型應當遵循生物進化規律:先有運動和視覺,最后才誕生高級語言智慧。因此,理想的模型順序應該是Action First(動作優先),然后Vision(視覺),最后Language(語言)。

趙行強調了一個關鍵差異:具身模型是一個閉環系統。語言模型是一問一答的開放系統,而具身模型需要“動作—反饋—再次動作”的實時循環,其核心是持續的環境交互。它必須從世界反饋中修正自己的策略,而不是完成一次思考后給出單一答案。

智元機器人合伙人、首席科學家羅劍嵐在此基礎上進一步擴展了閉環系統的結構組成。他認為,未來一定會出現閉環一致的“具身Transformer 系統”,但未必是單一模型,而更可能是由視覺(V)、語言(L)、動作(A)等模塊共同構成的系統。“VLA 的趨勢是對的,但最終形態不會是今天這個樣子。”真正的質變可能需要等到具身智能互聯網形成,即成千上萬臺機器人在真實場景中解決具體問題,累積海量數據后,才能催生出真正的統一系統。

在架構探索之外,動作輸出端的不成熟也是當下具身智能無法收斂的重要原因。王鶴指出,目前行業在動作輸出上尚未收斂,存在大量基于概率匹配的方法,這類方法雖然適合處理連續變量,但為端到端的深度強化學習埋下了隱患,如何對概率模型應用策略更新是尚未解決的問題。

王鶴認為,短期內行業需依賴仿真環境和合成數據來探索動作優先的架構,因為目前全球僅有約一千臺人形機器人在運行,數據量遠不足以支撐新架構的探索。“長期來看,地球上人形機器人的數量必須保持長期高速增長,只有這樣,它們的能力才能同步提升,而反過來,能力的增長又會進一步推動數量增長,最終才能孕育出真正強大的模型。”

自變量創始人、CEO王潛則認為,是否叫Transformer并不重要,Transformer 更像蓋樓的鋼筋,真正決定樓是什么樣子的,是建筑的結構設計。他強調,物理世界充滿了語言和圖像無法描述的精細摩擦與接觸過程,因此必須建立一個獨立于虛擬世界的、能夠描繪復雜物理過程的基礎模型。“可能十年后或者是五年后,可能反而是我們從物理世界中收集到的數據來做出來的多模態模型,反過來吞噬今天的一些基礎模型。”

突破跨域數據瓶頸一定要用真實數據嗎?

無論是否收斂到一個統一模型,對所有具身企業而言,一個共識正在形成:如果具身智能要走到“ChatGPT時刻”,必須先解決數據問題。

張家興團隊選擇“高質量+低成本”的路線,以真實物理世界的探索數據為基礎,并通過低成本的人類采集來構建數據金字塔的中間層,試圖以最高效的方式夯實數據地基。

趙行則提出了數據采集的三個維度:真實性、多樣性和規模化。他強調必須以真實機器人的素材為起點,且不能局限于實驗室,必須深入真實場景。羅劍嵐同樣堅持真實數據路線,他認為,靠遙控操作采集數據只是起步,未來必須依靠大量部署在真實環境中的機器人,在自主交互中產生廣泛數據,形成自我反饋和提升的閉環。

王仲遠主張利用互聯網上的海量視頻數據作為基座模型的學習來源,這類似于人類兒童通過看視頻認識世界。在此基礎上,再通過真機采集的數據進行強化學習和反饋,不斷精進能力。

但亦有真實數據之外的探索路徑。

王鶴在討論中提到,全球規模化運行的人形機器人可能僅在千臺級,甚至更少,如此小的機器人人口,遠不足以支撐一個動作優先的基礎模型。

王鶴認為,短期內行業必須依賴模擬環境與合成數據,這會比受限于真實機器數量的方式發展得更快。但長期來看,只有當機器人數量進入指數級增長,數據才可能形成正反饋循環,推動模型與能力共同演進。

加速進化創始人、CEO程昊認為,數據瓶頸的破解是一個螺旋上升的過程。目前極速進化多使用仿真數據以求速度,目標是為了讓機器人具備落地能力,從而在真實場景中收集數據。當真實數據遇到瓶頸時,再回退到仿真環境中進行針對性訓練。“機器人落地創造價值,價值驅動規模,規模反哺模型。”

在海量數據需求之外,王潛認為,自變量什么數據都在用,只是側重點不同。互聯網數據用于學習通用常識,仿真數據用于導航和探索,而真實的物理接觸數據則是核心壁壘。

王潛提到,根本在于所有類型的數據都可以被利用,但真正的挑戰在于:處理好任何單一類型的數據都相當困難。這背后涉及大量核心的工程問題,也正是團隊日常工作的重點所在,同時這些難題也構成了行業的技術壁壘。

一個清晰的現實浮現出來:具身智能的未來并非由某一種技術突破決定,而是取決于架構創新、真實世界落地、機器人數量增長與高質量動作數據積累是否能同時發生。具身智能的發展路徑比語言模型時代更復雜,也更漫長。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
欧美区一区二区三区在线视频 | 久久综合亚洲国产 | 亚洲成V人片在线观看 | 亚洲日韩精品一区二区 | 日韩精品一区二区三区免费视频 | 欧美性爱在线免费观看 |