每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

對話生數科技創始人兼首席科學家朱軍:AI視頻生成正邁入“高可控”時代

每日經濟新聞 2025-03-29 21:15:27

3月29日,在2025中關村論壇年會期間的“未來人工智能先鋒論壇”上,生數科技創始人兼首席科學家朱軍宣布,生數科技正式發布業內首個高可控視頻大模型Vidu Q1,并計劃于4月全球上線。該模型在技術層面實現重大突破,能夠接受空間布局信息作為輸入,極大提升了視頻生成的可控性。朱軍認為,2025年將是AI視頻模型商業化快速發展的一年。

每經記者 可楊    每經編輯 陳俊杰    

大模型的發展日新月異。

3月29日,在2025中關村論壇年會期間舉辦的“未來人工智能先鋒論壇”上,清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍宣布,生數科技正式發布業內首個高可控視頻大模型Vidu Q1,并計劃于4月全球上線。

會后,在接受媒體采訪時,朱軍談到,2025年將是AI(人工智能)視頻商業化快速發展的一年。視頻大模型的商業化路徑相較于語言大模型更加多元,行業競爭格局也不同于“大模型內卷”態勢。

朱軍認為,未來視頻大模型不會出現類似語言模型市場那樣的“一超多強”格局,而是依賴持續創新能力,向更高質量、更長時長、更強敘事性的方向發展。

主辦方供圖

談商業化:2025年將是AI視頻模型商業化快速發展的一年

朱軍介紹,相較于生數科技在1月推出的Vidu 2.0,Vidu Q1在技術層面實現了重大突破,能夠接受空間布局信息作為輸入,極大提升了視頻生成的可控性,使視頻生成走向“高可控”時代成為可能。

朱軍指出,走向高可控為AI視頻生成的發展找到了新路徑,清晰指出了AI視頻生成的痛點,通過技術手段引入多元素控制,它不再是沒有頭緒的“亂生成”,而是人為可控,這就讓AI視頻生成與當下精益求精的制作逐漸趨向一致。

另一方面,高可控意味著AI視頻生成的創意呈現更極致、更多元。朱軍表示,過去Vidu陸續在畫面生成、生成速度、多主體一致等視頻生成關鍵環節下功夫,現在,當“高可控”時代到來時,人們將能夠更便捷地將自己頭腦中的想法變成現實。具體而言,Vidu Q1在多主體細節可控、音效同步可控 、畫質增強方面均取得成效。

對于多模態模型層面的探索,朱軍在采訪中表示,生數科技自成立之初便專注于多模態大模型研發,Vidu的基座本身就是一個多模態大模型,視頻只是多模態技術的其中一種表現形式。除此之外,公司還在探索音頻及機器人可控操作數據的應用等多種模態。“對我們來說底層架構基本上是一樣的,沒有修改就可以去適應多模態,只是面向用戶的需求,在不同階段會推出。”

朱軍認為,未來多模態的發展方向是智能體與工作流的全面打通,這種打通也是生數科技規劃的重要方向。朱軍表示,未來也需要通過推動智能體與工作流的打通,實現不同模態之間的協同,以更好地服務各行業用戶。

在商業化方面,朱軍坦言,隨著AI視頻技術的商業價值不斷提升,資本市場對生數科技的關注重點也在發生變化。朱軍表示,在公司早期階段,投資人更關注團隊實力,而如今,除了技術壁壘,商業化進展已成為核心考量因素。“視頻的價值密度更高,商業化進程也更快。2025年將是AI視頻模型商業化快速發展的一年。”

目前,其SaaS(軟件即服務)產品已覆蓋全球200多個國家和地區,上線100天內用戶突破千萬,增速位居全球第一。同時,在MaaS(模型即服務)端,AI視頻技術正在深入應用于動漫影視、文旅、廣告、游戲等多個行業,重塑內容生產模式。

近期,OpenAI宣布在GPT-4o模型中集成了迄今為止最先進的圖像生成器,并將其整合進ChatGPT中,未來,視頻生成能力會否同樣被集成進大模型?朱軍認為,現在談這個問題為時尚早。

目前,視頻生成的重點仍然是提升視頻生成的質量和效率,而隨著基座模型的不斷優化,AI視頻生成自然會逐步向交互式方向發展,但其中最核心突破點仍在于理解能力和可控性。朱軍表示,只有實現真正的高可控生成,才能滿足未來交互式AI視頻的需求。

在談及高可控能力是否會影響創意表達時,朱軍表示兩者并不沖突。相反,提升可控性能夠讓創作過程更加高效、精準,減少用戶反復試驗的成本,提高創作體驗。

“在AI視頻創作中,用戶的輸入可能是圖片或文字,我們的任務是精準理解并實現他們的需求。”朱軍解釋道,過去,AI視頻生成往往帶有較高的隨機性,用戶需要反復嘗試才能獲得理想的結果。而高可控能力的引入,使模型能夠更準確地理解并執行用戶的創作意圖,同時保持創意表達的自由度,例如動作幅度、想象力等方面依然可以充分發揮。

談行業:視頻行業很難出現類似DeepSeek的模型

朱軍在接受采訪時表示,2025年行業整體落地進展非常快,例如在視頻和音頻領域,由于其應用場景較為通用,市場接受度更高,而語言模型的落地則往往需要結合行業專業知識,因此鏈路相對較長。不過,目前行業內同樣有應用公司致力于推進大語言模型的落地應用。

談及技術突破,朱軍強調,目前階段最重要的仍然是通用基礎模型的提升。“它決定了我們后端在控制和一致性方面的能力,所有后端的實現都依賴于基礎模型的進展。”基于基礎模型,生數科技也在不斷探索,以實現更高的模型一致性和可控性。

朱軍認為,與語言模型不同,視頻大模型的商業化路徑相對更快。他指出,視頻的消費需求非常曠闊,因此,當前行業內領先的公司在視頻大模型領域各具特色,并形成了不同的商業化布局。這一領域并不像語言模型市場那樣“內卷”,而是呈現出更多元化的競爭格局。

目前,大語言模型行業逐步進入收購與被收購階段,朱軍認為,這與行業發展狀態相關。語言模型的競爭已經進入深水區,領先企業在技術和市場布局方面占據優勢,而視頻大模型則完全不一樣,中國的視頻大模型在全球范圍內很多方面都有應用,這與語言模型的發展狀態截然不同。

未來,視頻大模型行業是否會和語言大模型一樣,只會留下幾家專注于基礎模型研發的公司?朱軍認為,大概率不會出現一家獨大的情況。一方面,視頻大模型行業不算擁擠;另一方面,從人工智能發展的長期來看,核心因素在于團隊是否具備持續創新能力。今天,模型的發展大部分是階段性發展,盡管目前已經可以服務專業用戶并生成高質量內容,但整體上仍有很大提升空間,包括效率、成本以及內容密度等方面的突破。

相比于語言模型,視頻生成模型的起步稍晚,但朱軍認為,這種“后發”反而帶來了更快、更堅定的前進步伐。他提到,視頻模型領域已經形成了對效率優化的共識。例如,生數科技在推出Vidu2.0時,就明確提出要做“最高效、最便宜的高質量視頻模型”。這種理念已經深入行業,因此,他判斷視頻領域很難出現類似DeepSeek在語言模型中“效率遙遙領先”的局面,而是更期待讓視頻模型朝著“更可控、更好用”的方向發展。

談及開源,朱軍表示,開源一直是人工智能行業的重要趨勢,生數科技也會開放部分創新方法供業界使用。然而,他指出,大部分所謂的開源模型并未真正開放核心訓練過程及數據。“DeepSeek之所以受到用戶歡迎,核心在于其出色的效果和高效率。對C端用戶而言,最關心的始終是質量和效率,而非模型是開源還是閉源。”

目前,視頻生成模型大多集中在5秒以內的短視頻,朱軍認為,這主要是成本問題,而非能力限制。同時,用戶的使用習慣也影響了視頻時長的選擇。“現階段,大部分用戶習慣于豎屏短視頻,而如果要創作1分鐘以上的內容,就需要更完整的故事架構,涉及到從文案策劃到內容創作的完整流程,而不僅僅是簡單的‘圖生視頻’。”

朱軍認為,隨著基礎模型能力的提升,行業將逐步向更長時長、更具敘事性的場景拓展。“從短視頻向更長時長、敘事性更強的方向發展,將成為未來的一個重要趨勢。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

Ai 大模型 生數科技 視頻大模型

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
亚洲欧美日韩v在线播放 | 亚洲人成网国产最新在线 | 亚洲精品乱码99视频 | 亚洲一区二区三区香蕉 | 日本日本乱码伦视频在线 | 日韩免费码中文字幕 |