要聞

繞開光刻機“卡脖子”，中國新型芯片問世！專訪北大孫仲：支撐AI訓練和具身智能，可在28納米及以上成熟工藝量產

每日經濟新聞 2025-12-29 18:13:45

今年10月，北京大學孫仲教授團隊成功研制基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片，精度達24位定點，提升5個數量級。該芯片可支撐6G、具身智能及AI大模型訓練等場景，能在28納米及以上成熟工藝量產，繞開光刻機限制。目前，芯片尚處實驗室階段，更適用于中等規模場景。團隊計劃兩年內提升芯片陣列規模，以在更多場景產生實際效用。

每經記者｜張蕊每經編輯｜廖丹

2eic4iblTAWEUYyODBRum19tdIUibzvVv6dMklrXfibU8ahSQ53RuKJkUJacldibR1qDoWjeibNv0VydVTGyPJpO5shA.jpg

當AI時代算力集群規模正逐步從萬卡向十萬卡、百萬卡甚至千萬卡升級時，一支中國團隊悄然另辟蹊徑。

今年10月，北京大學人工智能研究院/集成電路學院雙聘助理教授孫仲與北京大學集成電路學院蔡一茂教授、王宗巍助理教授率領的團隊成功研制出基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片，在全球范圍內首次將模擬計算的精度提升至24位定點精度，讓未來同等任務下使用更少的計算卡成為可能。

這是一種完全不同于目前所有商用量產芯片的新型芯片，計算精度從1%躍升至千萬分之一；可以支撐6G、具身智能及AI大模型訓練等多個前沿場景；更重要的是，它可在28納米及以上成熟工藝量產，繞開光刻機“卡脖子”環節。

事實上，AI大模型、具身智能、6G等應用背后都是矩陣計算，AI推理是做矩陣乘法，AI訓練是在解矩陣方程。而英偉達的崛起正是得益于GPU（圖形處理器）很擅長做矩陣計算。

作為北京大學人工智能研究院的研究員，“熱愛且擅長”讓孫仲深耕模擬計算領域多年。從聚焦AI算法底層通用矩陣計算加速研究，到在《自然·電子學》《自然·通訊》等頂刊發表系列成果，他始終錨定模擬計算——這個上世紀30至60年代曾風靡一時卻因精度瓶頸被數字計算取代的技術，在他眼中正是突破算力困局的關鍵。

新型芯片研制成功對于應對AI領域的算力與能耗挑戰有何意義？隨著摩爾定律漸趨終結、數字計算陷入能耗困局，GPU還能否一直“稱王”？近日，《每日經濟新聞》記者對孫仲進行了深入專訪。

談技術：為何要重返“過時”的模擬計算？

NBD：芯片研制成功的意義是什么？有觀點認為，它為算力領域提供了新的技術路線，有助于減少對單一計算范式的依賴，是否如此？

孫仲：確實如此。計算范式只有兩種：模擬（類比）計算與數字計算。當前主流芯片——無論是GPU、TPU（張量處理器）、CPU（中央處理器）還是NPU（神經網絡處理器）——都是數字芯片，底層都是硅基器件，基于邏輯門（邏輯函數）、晶體管，都要二進制化。以先進GPU為例，一張卡可能集成超過1000億個晶體管，因此能提供很大的算力。但如果追本溯源，會發現數字計算其實并非一種很高效的計算方式。

舉例來說，想要完成一次簡單的“1+1”需要28個晶體管，想完成兩個10位數的乘法需要約1萬個晶體管。但正因為現在晶體管可以做得很小，才能在芯片上容納千億級的晶體管，所以它可以“以量換算”——一次操作要消耗1萬個晶體管，它不在乎，因為它足夠多，1000億除以1萬還有1000萬，這意味著它還有很大算力。

而一個芯片里能有這么多晶體管，在于摩爾定律。我認為摩爾定律是讓現在數字芯片如此成功的唯一推手。最初晶體管做出來大概是5厘米×5厘米×5厘米這么大，因為有摩爾定律，5厘米變成5納米，所以千億級的晶體管也可以被塞進去，否則，一萬個晶體管可能要鋪滿整間屋子甚至整個樓層。

注：摩爾定律是由英特爾公司聯合創始人戈登·摩爾提出。該定律提到，當價格不變時，集成電路上可容納的晶體管數目每隔18至24個月增加一倍，性能也將提升一倍。

但如今摩爾定律趨于終結，晶體管很難再微縮，所以業界現在只能橫向堆計算卡：少則百卡，多則萬卡、十萬卡。但這樣的方式我認為是不可持續的——能耗、碳排放均呈指數級上升，與國家“雙碳”目標相悖。因此，我認為需要探索一種不同的計算范式，即模擬（類比）計算。

模擬計算并非全新的計算范式，在上世紀30至60年代曾被廣泛應用，但隨著計算任務日益復雜，其精度瓶頸凸顯，逐漸被數字計算取代。我們這次研究的核心正是要解決模擬計算“算不準”這一痛點。

NBD：模擬（類比）計算是比數字計算更高效嗎？

孫仲：是的。模擬計算也叫類比計算，人類從小算“1+1”，并非動用28個晶體管，而是“一根筷子加一根筷子等于兩根筷子”“一棵樹加一棵樹等于兩棵樹”的物理類比，一根筷子、一棵樹都是物理系統。若將“筷子”“樹”縮至電子尺度——1個電子加1個電子是2個電子，這永遠成立，要做計算的時候，就可以直接通過物理定律來做計算——相較于28個晶體管，電子級類比在硬件資源開銷與能耗上均下降數個量級。

數字計算是二進制，都以0和1來表示信息，例如“5”被編碼為“101”，任何運算都需通過邏輯門對二進制信息進行操作；模擬計算則無需編碼，“5”可直接對應物理量（如5 V、5000Ω），加法與乘法都可以直接通過物理定律瞬時完成。

換句話說，數字計算中間有一個“翻譯”環節，而這個環節把原本的信息“翻譯”得體量更為龐大，計算過程需要去一一處理這些更龐大的信息，才能得到針對原始問題的解。而模擬計算則省去了這個中間環節，所以速度更快，能耗也大幅降低。

NBD：既然數字計算流程如此繁瑣，為什么要設計成這樣？為什么早期計算機仍然舍棄模擬計算而轉向數字？

孫仲：根本原因在于可靠性。轉成0和1，就只需要區分0和1，這是最可靠的。數字計算的魯棒性更好，抗干擾能力更強；而早期模擬計算追求連續函數輸出，極易受噪聲影響，導致結果漂移，加之當時也缺乏現在的穩定器件，模擬精度難以保證，因此業界普遍轉向數字范式。

NBD：就是說模擬計算長期受困于精度瓶頸，而你們的研究恰好解決了這一難題？

孫仲：是的。精度問題一直是“如鯁在喉”的關鍵痛點，我們將相對誤差大幅壓降至千萬分之一（10??）量級，相當于把這個“鯁”拿出來了，這也是我們的成果受到廣泛關注的核心原因。

2eic4iblTAWEUYyODBRum19tdIUibzvVv6dwJQeyrjHRm8EOubKOX1jIoFoGR3zE6WntudEmdVua63el7AQdJv7vg.jpg

談突破：新型芯片精度提升5個數量級

NBD：將相對誤差壓降至千萬分之一是怎么做到的？

孫仲：首先需要強調一個前提，提升精度不能以犧牲能效或速度為代價，否則沒有意義。也就是說，不能精度提升了，能效反而下降或者計算速度比數字芯片還慢了。

為了提升精度，我們沿用了計算機領域的經典迭代優化算法。簡單來說，就是基于2019年提出的低精度電路來解方程，解方程的過程就好比在一片山谷中找最低點，能量函數最低點就是方程的最優解。2019年的這個電路一上來就會告訴你最低點在某個盆地，它不是精確的最低點，但是非常接近。之后再以高精度模擬計算電路反復修正，如果精確點是1，首次迭代得0.9，二次得0.99，三次得0.999??僅需數次迭代就能把精度提升非常多，并且能效仍比數字計算高數個量級。

NBD：能否具體介紹一下這款芯片？

孫仲：我們的研究以阻變存儲器為介質，摒棄傳統硅基晶體管與邏輯門，采用類比方式完成計算。具體而言，就是將待解的矩陣方程映射至電路物理量，使電路自發求解矩陣方程，而非由邏輯門一步步推算。

2019年我們用設計的第一個電路類比求解時，可以求解成功，但精度比較低——1%量級的誤差，準確度可達99%，聽起來還好，但對于需要級聯千步乃至萬步的大規模計算任務而言，誤差將呈指數級累積——在半導體領域，如果每一步工藝成功率是99%，就意味著這個芯片做出來的成功率是0。同理，在計算環節若每步保留1%誤差，千步之后結果將面目全非。

因此，必須把單步誤差壓得足夠低，降至千萬分之一乃至億分之一（10??）量級，才能滿足AI訓練等場景對FP16（浮點16位）精度的剛性需求。我們的研究正是將相對誤差從1%降至千萬分之一，將精度提升至24位定點精度，提升了5個數量級，使模擬計算首次具備與主流數字精度接軌的能力，24位定點精度相當于數字計算的浮點32位（FP32），從而展現出廣闊的應用前景。

NBD：在研制成功的過程中有沒有遇到一些困難？

孫仲：嚴格意義上的困難集中在認知層面。模擬計算長期被貼上“低精度”標簽，早期我們自己也接受這個設定，所以在2019—2022年間，我們陸續設計了多款電路，解各類矩陣方程，但都停留在低精度（1%左右的相對誤差）。每當向外推介時，對方一句“精度問題怎么解決”便足以讓討論終止，低精度應用的局限性顯而易見。

真正要應用的話，高精度肯定是一個基本需求，只有突破了精度瓶頸，才能談規模應用。上世紀，模擬計算就是因為精度瓶頸才被數字計算取代。但從科學探索和原始創新的角度來看，低精度階段必不可少。

NBD：這款新型芯片的創新點主要是什么？

孫仲：歸納起來，主要創新有三點。

第一，器件層面：上世紀的模擬計算都是基于傳統硅基電路，多用于求解微分方程；我們則首次采用已可量產的、足夠成熟的阻變存儲器作為核心器件，面向矩陣方程求解，形成“現代模擬計算”范式。

第二，電路層面：2019年我們提出一種全新的反饋電路，這是核心。可以在不顯著增加能耗與延時的前提下，將計算誤差由1%降低至千萬分之一量級，使模擬計算首次具備與FP32等同的數值可靠性。

第三，算法層面：引入了經典的迭代優化及“位切片”算法——將24位定點數拆分為8組3位并行或串行處理，再通過移位相加得到全精度結果，從而高效實現高精度矩陣乘法。

NBD：阻變存儲器在這個過程中扮演什么角色？

孫仲：阻變存儲器是實現高速、低功耗矩陣方程求解的硬件載體，我們利用它實現了最核心的矩陣方程求解的電路，能夠實現快速近似求解，然后再用高精度的模擬計算系統迭代，實現高精度的方程求解。

但這樣的載體其實并不一定非要是阻變存儲器，是因為我一直從事阻變存儲器的研究，原則上，其他的存儲器（比如相變、磁性、鐵電存儲器等）都可以承載該電路。換句話說，類比計算的核心是數學到物理的映射，物理系統可以是多元的，不局限于阻變存儲器。

2eic4iblTAWEUYyODBRum19tdIUibzvVv6dq1bQAicWWImrjpDapfUd8s1Zhqst1p8lV6WolurlNZtNchZriabjEuEw.jpg

談應用：新型芯片更適用于中等規模場景

NBD：目前這款芯片的研究處于什么階段？

孫仲：目前還處在實驗室階段。我們假設未來6G大規模MIMO（天線陣列）的某類任務由我們的芯片執行，并給出相應的性能評估，屬于原理性驗證，并非現網實測。

由于實驗室的規模比較小，尚無法與高端數字芯片抗衡。晶體管已經可做到納米尺度并且運行頻率極高，在小規模任務上優勢明顯。我們的芯片更適用于中等規模場景，也就是在中等規模才能發揮出優勢。太小則性能不及，超大規模則暫時夠不著。

目前，所有主流AI訓練均為一階方法，二階訓練方法速度會更快，迭代次數會更少，但是每次迭代都要解一次矩陣方程，單次計算量巨大，這對于數字芯片來說是很難的。但我們的技術恰好可以去做快速矩陣方程求解，因此理論上非常適合來做二階訓練的加速。

NBD：二階訓練是否特指大模型的訓練？

孫仲：并非只有大模型才是AI，小規模的神經網絡也是AI，所以無所謂大模型小模型，小至傳統神經網絡，大至千億參數模型，都可以使用二階訓練；其目的是為了讓AI訓練得更快。

NBD：除AI訓練、6G外，還有哪些潛在應用？

孫仲：具身智能、超級計算。像氣象預報、量子力學、熱擴散模擬等超級計算都是解微分方程，而微分方程在數字計算機上需轉成矩陣方程后才能求解。因此，超算中心的絕大部分算力實質上都是用于解矩陣方程。所以，超算領域甚至可以是一個更大的、更契合的應用場景。

NBD：在超算領域應用還需要做什么？

孫仲：需要擴大芯片的矩陣規模（指數據規模，即矩陣行列數），因為超算要解的都是很大的問題，涉及的矩陣規?？赡苁恰鞍偃f×百萬”級別的。如果需求是解“百萬×百萬”的方程，硬件也需要對應擴展。當然，我們不會直接去做“百萬×百萬”的陣列，而是通過算法設計實現“以小博大”——例如以512×512硬件求解1024×1024方程，以1024×1024硬件求解2048×2048方程，依此類推。

NBD：這個規模要做大依靠什么？

孫仲：要流片，要去代工廠做。跟數字芯片的流程是一樣的，我們的芯片也能在現有的代工廠產線上做出來，這是相較于量子計算、光計算的顯著優勢——它們因材料與工藝條件差異，無法沿用當前生產線。

NBD：預計多久能夠落地到消費端？若面向消費端，還需完成哪些關鍵環節？

孫仲：這沒辦法準確預估。首先我們要擴大芯片的陣列規模；其次必須投入大量工程資源，包括流片、測試、可靠性驗證等量產前工作；最后還需商業推動——說服產業鏈伙伴放棄現有方案、采用新技術，這都屬于典型的市場行為。

NBD：下一步有什么規劃？

孫仲：就團隊內部而言，我們設定的工作節點是：兩年內把陣列從16×16提升至128×128，并力爭擴展至512×512。達到這樣的規模后，就能夠在具身智能、6G通信等中等規模矩陣場景產生實際效用。

NBD：要在兩年內完成16×16到512×512的躍升，技術難度如何？

孫仲：芯片規模擴大必然伴隨寄生效應、良率控制、功耗分布等工程挑戰，所以肯定是有難度的，需要在器件、電路與工藝層面同步優化。

需要強調的是，新型芯片問世，證實了一條新路徑的可行性。我們需要提前做技術儲備：當某類計算任務（如超級AI）急切需要做矩陣方程求解時，中國要有現成方案和團隊站在那里，可能不是我們，是其他團隊，但要有這樣的儲備。GPU當年僅用于游戲，2012年因AI需求爆發而一飛沖天；同理，中國必須儲備多種先進技術，以等待屬于自己的“2012時刻”。當窗口開啟，技術儲備將決定我們能否抓住下一波浪潮。

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

新鳳鳴：公司以自有資金向江蘇新拓新增15億元人民幣注冊資本

返回每經網首頁

下一篇文章

本輪巴以沖突已致加沙地帶71266人死亡