要聞

對話生數科技創始人兼首席科學家朱軍：AI視頻生成正邁入“高可控”時代

每日經濟新聞 2025-03-29 21:15:27

3月29日，在2025中關村論壇年會期間的“未來人工智能先鋒論壇”上，生數科技創始人兼首席科學家朱軍宣布，生數科技正式發布業內首個高可控視頻大模型Vidu Q1，并計劃于4月全球上線。該模型在技術層面實現重大突破，能夠接受空間布局信息作為輸入，極大提升了視頻生成的可控性。朱軍認為，2025年將是AI視頻模型商業化快速發展的一年。

每經記者可楊每經編輯陳俊杰

大模型的發展日新月異。

3月29日，在2025中關村論壇年會期間舉辦的“未來人工智能先鋒論壇”上，清華大學人工智能研究院副院長、生數科技創始人兼首席科學家朱軍宣布，生數科技正式發布業內首個高可控視頻大模型Vidu Q1，并計劃于4月全球上線。

會后，在接受媒體采訪時，朱軍談到，2025年將是AI（人工智能）視頻商業化快速發展的一年。視頻大模型的商業化路徑相較于語言大模型更加多元，行業競爭格局也不同于“大模型內卷”態勢。

朱軍認為，未來視頻大模型不會出現類似語言模型市場那樣的“一超多強”格局，而是依賴持續創新能力，向更高質量、更長時長、更強敘事性的方向發展。

主辦方供圖

談商業化：2025年將是AI視頻模型商業化快速發展的一年

朱軍介紹，相較于生數科技在1月推出的Vidu 2.0，Vidu Q1在技術層面實現了重大突破，能夠接受空間布局信息作為輸入，極大提升了視頻生成的可控性，使視頻生成走向“高可控”時代成為可能。

朱軍指出，走向高可控為AI視頻生成的發展找到了新路徑，清晰指出了AI視頻生成的痛點，通過技術手段引入多元素控制，它不再是沒有頭緒的“亂生成”，而是人為可控，這就讓AI視頻生成與當下精益求精的制作逐漸趨向一致。

另一方面，高可控意味著AI視頻生成的創意呈現更極致、更多元。朱軍表示，過去Vidu陸續在畫面生成、生成速度、多主體一致等視頻生成關鍵環節下功夫，現在，當“高可控”時代到來時，人們將能夠更便捷地將自己頭腦中的想法變成現實。具體而言，Vidu Q1在多主體細節可控、音效同步可控、畫質增強方面均取得成效。

對于多模態模型層面的探索，朱軍在采訪中表示，生數科技自成立之初便專注于多模態大模型研發，Vidu的基座本身就是一個多模態大模型，視頻只是多模態技術的其中一種表現形式。除此之外，公司還在探索音頻及機器人可控操作數據的應用等多種模態。“對我們來說底層架構基本上是一樣的，沒有修改就可以去適應多模態，只是面向用戶的需求，在不同階段會推出。”

朱軍認為，未來多模態的發展方向是智能體與工作流的全面打通，這種打通也是生數科技規劃的重要方向。朱軍表示，未來也需要通過推動智能體與工作流的打通，實現不同模態之間的協同，以更好地服務各行業用戶。

在商業化方面，朱軍坦言，隨著AI視頻技術的商業價值不斷提升，資本市場對生數科技的關注重點也在發生變化。朱軍表示，在公司早期階段，投資人更關注團隊實力，而如今，除了技術壁壘，商業化進展已成為核心考量因素。“視頻的價值密度更高，商業化進程也更快。2025年將是AI視頻模型商業化快速發展的一年。”

目前，其SaaS（軟件即服務）產品已覆蓋全球200多個國家和地區，上線100天內用戶突破千萬，增速位居全球第一。同時，在MaaS（模型即服務）端，AI視頻技術正在深入應用于動漫影視、文旅、廣告、游戲等多個行業，重塑內容生產模式。

近期，OpenAI宣布在GPT-4o模型中集成了迄今為止最先進的圖像生成器，并將其整合進ChatGPT中,未來，視頻生成能力會否同樣被集成進大模型？朱軍認為，現在談這個問題為時尚早。

目前，視頻生成的重點仍然是提升視頻生成的質量和效率，而隨著基座模型的不斷優化，AI視頻生成自然會逐步向交互式方向發展，但其中最核心突破點仍在于理解能力和可控性。朱軍表示，只有實現真正的高可控生成，才能滿足未來交互式AI視頻的需求。

在談及高可控能力是否會影響創意表達時，朱軍表示兩者并不沖突。相反，提升可控性能夠讓創作過程更加高效、精準，減少用戶反復試驗的成本，提高創作體驗。

“在AI視頻創作中，用戶的輸入可能是圖片或文字，我們的任務是精準理解并實現他們的需求。”朱軍解釋道，過去，AI視頻生成往往帶有較高的隨機性，用戶需要反復嘗試才能獲得理想的結果。而高可控能力的引入，使模型能夠更準確地理解并執行用戶的創作意圖，同時保持創意表達的自由度，例如動作幅度、想象力等方面依然可以充分發揮。

談行業：視頻行業很難出現類似DeepSeek的模型

朱軍在接受采訪時表示，2025年行業整體落地進展非常快，例如在視頻和音頻領域，由于其應用場景較為通用，市場接受度更高，而語言模型的落地則往往需要結合行業專業知識，因此鏈路相對較長。不過，目前行業內同樣有應用公司致力于推進大語言模型的落地應用。

談及技術突破，朱軍強調，目前階段最重要的仍然是通用基礎模型的提升。“它決定了我們后端在控制和一致性方面的能力，所有后端的實現都依賴于基礎模型的進展。”基于基礎模型，生數科技也在不斷探索，以實現更高的模型一致性和可控性。

朱軍認為，與語言模型不同，視頻大模型的商業化路徑相對更快。他指出，視頻的消費需求非常曠闊，因此，當前行業內領先的公司在視頻大模型領域各具特色，并形成了不同的商業化布局。這一領域并不像語言模型市場那樣“內卷”，而是呈現出更多元化的競爭格局。

目前，大語言模型行業逐步進入收購與被收購階段，朱軍認為，這與行業發展狀態相關。語言模型的競爭已經進入深水區，領先企業在技術和市場布局方面占據優勢，而視頻大模型則完全不一樣，中國的視頻大模型在全球范圍內很多方面都有應用，這與語言模型的發展狀態截然不同。

未來，視頻大模型行業是否會和語言大模型一樣，只會留下幾家專注于基礎模型研發的公司？朱軍認為，大概率不會出現一家獨大的情況。一方面，視頻大模型行業不算擁擠；另一方面，從人工智能發展的長期來看，核心因素在于團隊是否具備持續創新能力。今天，模型的發展大部分是階段性發展，盡管目前已經可以服務專業用戶并生成高質量內容，但整體上仍有很大提升空間，包括效率、成本以及內容密度等方面的突破。

相比于語言模型，視頻生成模型的起步稍晚，但朱軍認為，這種“后發”反而帶來了更快、更堅定的前進步伐。他提到，視頻模型領域已經形成了對效率優化的共識。例如，生數科技在推出Vidu2.0時，就明確提出要做“最高效、最便宜的高質量視頻模型”。這種理念已經深入行業，因此，他判斷視頻領域很難出現類似DeepSeek在語言模型中“效率遙遙領先”的局面，而是更期待讓視頻模型朝著“更可控、更好用”的方向發展。

談及開源，朱軍表示，開源一直是人工智能行業的重要趨勢，生數科技也會開放部分創新方法供業界使用。然而，他指出，大部分所謂的開源模型并未真正開放核心訓練過程及數據。“DeepSeek之所以受到用戶歡迎，核心在于其出色的效果和高效率。對C端用戶而言，最關心的始終是質量和效率，而非模型是開源還是閉源。”

目前，視頻生成模型大多集中在5秒以內的短視頻，朱軍認為，這主要是成本問題，而非能力限制。同時，用戶的使用習慣也影響了視頻時長的選擇。“現階段，大部分用戶習慣于豎屏短視頻，而如果要創作1分鐘以上的內容，就需要更完整的故事架構，涉及到從文案策劃到內容創作的完整流程，而不僅僅是簡單的‘圖生視頻’。”

朱軍認為，隨著基礎模型能力的提升，行業將逐步向更長時長、更具敘事性的場景拓展。“從短視頻向更長時長、敘事性更強的方向發展，將成為未來的一個重要趨勢。”

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

Ai 大模型生數科技視頻大模型

上一篇文章

國務院國資委：將對整車央企進行戰略性重組

返回每經網首頁

下一篇文章

#深圳首提100%容虧率國資在探索容錯機制方面 , 邁出的前所未有的一步