每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

大模型熱潮第三年,“AI春晚”又換主角 為什么是具身智能?

每日經濟新聞 2025-06-06 21:19:20

6月6日,第七屆北京智源大會開幕,本次大會關鍵詞從“大語言模型”躍升為“具身智能”與“機器人2.0”。宇樹科技CEO王興興等成為大會焦點。面壁智能CEO李大海表示,大模型技術成熟推動產業關注重心轉移。智源研究院院長王仲遠稱,人工智能正加速從數字世界走向物理世界。與會者還就機器人賽事價值、具身智能產業化關鍵、機器人形態及VLA模型等議題展開探討。

每經記者|可楊    每經編輯|陳俊杰    

早早就沒了位置,人墻圍了一層又一層,宇樹機器人、天工機器人一登場,就調動了全場氣氛。

6月6日,由北京智源人工智能研究院主辦的“AI春晚”——第七屆北京智源大會(以下簡稱智源大會)正式開幕。

大模型熱潮進入第三年,智源大會的關鍵詞已經從“大語言模型”躍升為“具身智能”與“機器人2.0”。

作為產業風向標,在智源大會上,OpenAI創始人山姆·奧特曼以及“深度學習之父”辛頓曾發表演講;月之暗面創始人楊植麟曾經歷人墻圍堵,熱度遠超如今首個沖向IPO的智譜AI;而今,大會上的“明星”是宇樹科技創始人、CEO(首席執行官)王興興。

變化的背后,AI(人工智能)正加速邁入“干實事”的新階段:從機器人表演走向實際應用,從模型訓練走向產業閉環。物理世界的復雜性、數據采集的現實需求、人與機器的自然交互,正在共同推動具身智能成為AI發展的下一個技術高地。

具身智能會客廳對話現場 主辦者供圖

“AI春晚”,主角又換了

結束開幕式上的“智源具身智能會客廳”圓桌對話后,宇樹科技CEO王興興在現場安保引導下離場,想要上前與其交流的觀眾被隔絕在人墻外。

這或許是吸取了去年的“教訓”,彼時的明星公司是月之暗面,楊植麟在下場后幾度被人墻圍住無法脫身。

如果以2022年末ChatGPT的發布作為節點,三屆智源大會,不僅見證了大模型時代AI技術的跨越式發展,也折射出人工智能產業關注重心的變動軌跡。

2023年,AI領域風頭無兩的是OpenAI所引領的生成式大語言模型熱潮,當年大會的高光時刻是OpenAI的代表人物山姆·奧特曼(Sam Altman)與“深度學習之父”辛頓(Geoffrey Hinton)的亮相。

2024年,以月之暗面、百度、智譜AI為代表的國產大模型廠商迅速崛起,在語言模型與多模態模型領域競逐成“主角”,開發出Kimi的月之暗面備受追捧。

2025年,具身智能集中搶鏡,機器人、跨模態系統、物理智能等成為主論壇的重要議題。變化背后,是技術路線的演進和應用價值的再認識。

面壁智能CEO兼聯合創始人李大海在接受《每日經濟新聞》記者采訪時表示,技術的發展是非線性的。大模型本質上是一項基礎性技術,未來一定是非常重要的底層基礎設施。隨著這項技術逐步成熟,產業關注的重心自然也開始從底層模型向其之上的具體應用轉移,這種關注點的遷移是合理且必然的。

同時,李大海認為,大模型“奇點”正在到來,其身處其中有非常強烈的感受,當前大模型在訓練過程中,已經能夠利用自身的特性,反哺訓練過程,實現大模型訓練的加速,形成“用大模型訓練大模型”的良性循環。“整個技術的發展在加速,(所以)才有外面能看到的整個行業的變化越來越大(的情況)。”

“人工智能正加速從數字世界走向物理世界,這是我們對整個大的技術發展趨勢的判斷。”智源研究院院長王仲遠受訪時表示。

從“秀肌肉”到“干實事”

在2024年的智源大會開幕式上,月之暗面、百川智能、智譜AI與面壁智能四家國產大模型公司曾罕見同臺,展開通往通用人工智能(AGI)之路的對話。而2025年,圓桌環節的對話主角,從大模型轉向了具身智能。

開年以來,具身智能成為人工智能領域最熱的關鍵詞,伴隨而來的,是形態各異的機器人頻繁亮相各種公眾賽事:從春節晚會上的舞蹈表演,到格斗競技場上的人形對抗賽;從物流分揀的真實場景模擬,到即將在北京舉辦的“世界人形機器人運動會”。

眼下風靡的機器人比賽,是驗證技術的試驗場,還是秀肌肉的“秀場”?

對此,王興興認為,當前機器人賽事的價值在于讓大眾“看到機器人已經發展到什么階段了”。他坦言,盡管人形機器人還不能“真正進入家庭干活”,但通過格斗、跳舞等全身動作訓練,一方面可以展示當前AI控制系統的水平,另一方面,跳舞和格斗,其實是機器人全身動作的一部分。“我們的目標一直是希望通過AI技術讓機器人能做各種全身動作,來實現終極目標,去真正解放人類生產力。”

王興興進一步解釋道,這種展示不僅有助于訓練和驗證模型能力,也開始體現出一定的商業價值。今年上半年,人形機器人租賃市場就比較火爆,王興興認為,這也是一種產業價值的體現。

北京人形機器人創新中心總經理熊友軍也表示,接下來的“世界人形機器人運動會”,不僅包括格斗等競技類項目,還將引入短跑、接力、足球、舞蹈等來自人類場景的形式。同時,賽事中還包含多個真實生活和工業場景,如工廠的物流搬運、醫院的醫藥分揀、酒店的服務應用等。

熊友軍表示,這些比賽場景來自具體的企業提出的真實場景需求,和機器人即將走入現實的生活密切相關。“這是一個很好的訓練場,對提升機器的技術有很大幫助,也是潛在客戶了解和跟機器人企業溝通的橋梁。”

盡管表演與賽事火熱,但具身智能產業化真正的關鍵仍是“干活”能力的打造。對此,銀河通用創始人王鶴指出,當前行業已經有許多炫酷技能,但需要反思的是,如果在真實環境下無法保證成功率,這些技能的產業價值就非常有限。

王鶴介紹,銀河通用與智源研究院的聯合團隊正在重點攻關“通用移動抓取”任務,即通過導航與抓取組合,讓機器人在貨架等實際工作場景中完成復雜動作。王鶴透露,銀河通用的機器人已經在北京值守7家24小時無人藥店,由人形機器人完成取藥和對接騎手的任務。他進一步強調,希望賽事和應用場景能進一步打通,用賽事去引領有價值的、可落地的技能。

人形機器人現場展示格斗 主辦方供圖

人形還是非人形?

在AI模型“上天入地”的浪潮中,被稱為“AI+機器人”終極形態的具身智能,正成為產業界和學術界同時瞄準的下一個技術制高點。

“其實我一直不堅持一定要做(成)人形(機器人)。”在談到人形機器人是否是具身智能唯一形態時,王興興表示,從工程實踐角度出發,宇樹科技早期做機器狗,轉向人形機器人屬于“順理成章”。在一些場景中,用輪式底盤替代腿部同樣非常實用。

“但為什么大家現在喜歡用人形,尤其上半身保留人的樣子?核心是因為現在AI大部分還是依賴人來做數據采集。”王興興解釋說,人形機器人上半身動作和人類一致,可以讓AI采集數據、訓練模型都更加方便,“包括我們機器人跳舞或者做一些格斗和別的比賽,說實在的,如果你做成別的樣子就沒辦法做這個事情”。

不過王興興也明確指出,未來隨著AGI的誕生,機器人的形態將會“千奇百怪”,比現在要多非常多倍,甚至多100倍都有可能。但在當前階段,人形形態仍在數據采集、模型訓練和落地效率上具備“實用主義”的優勢。

與王興興偏向技術現實主義的觀點不同,熊友軍更看重人形在未來市場中的地位。他認為,雖然從技術上講,具身智能載體可以多種多樣,但“人形機器人是具身智能發展、研究的最佳載體”。他指出,未來具身智能的最大應用場景不是工業,而是家庭和商用服務,“今天工廠場景只是‘開胃小菜’”。

熊友軍認為,人形機器人更容易被人接受。它們會成為生活中的伙伴、朋友,甚至像現在很多年輕人所說的——可能是愛人。這種人機交互的自然程度是其他形態難以比擬的。他還補充道,人形機器人適配人類環境的成本更低,如果不是人形,就可能需要為機器人改造環境。這在實際部署中會帶來額外成本。熊友軍表示,長期來看,人形仍是具身智能最具發展潛力的形態。

展區機器狗 主辦方供圖

在形態問題的背后,具身智能的“智能”來源何處,是另一個爭議核心。自動駕駛中,VLA(視覺語言動作模型)已成為主流解決方案,但面對具身智能中復雜度更高的任務環境,VLA能否“泛化”仍待驗證。

王鶴認為,自動駕駛的經驗已初步證明了“端到端”方案有更好的擴展性,不依賴無窮無盡的規則,而是通過數據去驅動模型。他表示,VLA的意義在于,通過視覺觀測和自然語言指令,直接輸出動作決策,中間不再需要其他環節。這種路徑可以讓模型更充分地吸收數據背后的知識,發揮出最大的性能,而不受制于模塊化方案。

不過,王鶴也直言,目前VLA是具身智能研究的熱點,只是針對VLA究竟要突破什么,行業同樣有不同觀點。比如,有人希望把人類能做的所有事情都整合到VLA中,形成一個基座模型。王鶴認為這太著急了。他指出,人類認知不是只有視覺和語言,還包括力覺、觸覺、嗅覺、味覺、溫覺、聽覺??“所以VLA只能是一個起點,要想真正做到人類級別的具身智能,只能不斷融合新的模態。”

王鶴認為,目前VLA最適合的任務是移動、抓取和放置。這些以視覺為主,加上末端的觸覺或力覺傳感器即可執行,這類任務在工業和服務場景中已經足夠廣泛,如果能先將這類VLA模型做扎實,“將會是具身智能真正第一次高潮的到來”。

穹徹智能聯合創始?、上海交通?學教授、上海創智學院副院?盧策吾則補充,VLA模型“確實集合了機器人幾件要干的事”——Vision(視覺)理解世界,Language(語言)與人類溝通,Action(動作)改變世界。但他也指出VLA當前存在很大的限制。具身智能面對的物理世界比無人駕駛復雜得多,無人車只需在兩個維度做決策,且場景相對固定,而通用具身智能的場景是開放且有接觸的,空間更大、不確定性更多。因此,要做到通用,就要壓縮它的“不確定性”,并不停地在兼容框架中增加更多額外信息,在端到端的模型里壓縮它的空間。

此外,他強調對物理世界理解能力的增強也是“壓縮任務空間”的關鍵。穹徹團隊在其第二代“機器人大腦”中,加入了“數字基因”“仿真數據資產”等模塊,希望通過仿真產生大量數據,減少真實世界中訓練對樣本量的依賴。盧策吾認為,找到更聰明的方式理解世界,把它們融合到VLA里,才可能真正推動通用智能的拐點出現。

從人形機器人的路徑分歧,到VLA模型的能力邊界,在具身智能這條路上,數據仍是燃料,形態仍有博弈。但最終,理解世界并與之交互的能力,或許才是決定智能生命形態的關鍵點。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

機器人 機器視覺 Ai 人形機器人 具身智能 大模型

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
午夜国产人成视频 | 中文字幕在线精品乱码高清视频 | 日本午夜a大片 | 色综合综合久久88网色鬼 | 亚洲Av不卡在线观看 | 久久国内精品综合 |