要聞

中國電信發布單體稠密萬億參數語義模型用了普通訓練方案9%的算力資源

每日經濟新聞 2024-06-19 12:39:03

每經記者｜楊卉每經編輯｜魏官紅

6月19日，《每日經濟新聞》記者從中國電信處獲悉，近日，中國電信人工智能研究院（TeleAI）聯合北京智源人工智能研究院發布了全球首個單體稠密萬億參數語義模型Tele-FLM-1T，成為國內首批發布稠密萬億參數大模型的機構。

《每日經濟新聞》記者了解到，針對大模型訓練算力消耗高的問題，TeleAI與智源基于模型生長和損失預測等關鍵技術聯合研發出的Tele-FLM系列模型，僅使用了業界普通訓練方案9%的算力資源，基于112臺A800服務器，用時4個月完成了3個模型總計2.3T tokens的訓練。

中國電信方面透露，Tele-FLM-1T版本即將開源，期望為社區訓練萬億稠密模型提供技術參考，避免萬億模型訓練收斂難等問題。

據悉，作為最早布局并首先開源大模型的央企機構，TeleAI去年發布了千億參數“星辰”語義大模型；今年2月，TeleAI自主研發的星辰大模型首次通過了“境內深度合成服務算法備案”。今年5月15日，根據北京市生成式人工智能服務備案信息公告，星辰大模型再次通過產品備案。“雙備案”標志著星辰大模型可正式對外提供生成式人工智能服務。

開源方面，TeleAI已接連開源7B、12B、52B參數規模大模型。隨著TeleChat系列模型的發布，TeleAI還同步對多個大模型落地項目進行了能力升級，如在某市民生訴求場景項目上，通過引入TeleChat-52B模型能力，整體應用效果提升40%。

封面圖片來源：視覺中國-VCG41N1419339719

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。