每日經濟新聞
要聞

每經網首頁 > 要聞 > 正文

GPT-5來了,微軟搶先接入:一鍵生成網頁、博士級智能,所有用戶免費使用;馬斯克不服

每日經濟新聞 2025-08-08 12:39:32

每經編輯|程鵬 杜宇    

當地時間8月7日,OpenAI推出大型語言模型GPT-5,這一成果歷經多次推遲后終于面世。這距離GPT-4的發布已過去了兩年半。OpenAI稱它是“世界上最好的模型”,將免費提供給用戶。

 

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiae5AdxKPDVKP5x0cUZjccibCuLa4bUfrNWibiahy2BSicwnlMdhIKXPRrn1g.jpg圖片來源:OpenAI官網

 

首席執行官山姆·奧爾特曼在發布會上形容,與GPT-5對話“就像在與某個領域的博士級專家交流”。這一版本首次采用集成模型架構,將根據任務自動選擇推理深度,無需用戶切換模式。

 

目前Plus、Pro、團隊和免費用戶均已接入GPT-5,企業版與教育版用戶預計將在一周內覆蓋,免費用戶將在數天內完成覆蓋。

 

也有業內人士認為GPT-5“不夠驚艷”,馬斯克在社交媒體表示“不服”稱,GPT-5在ARC-AGI-2上沒有打敗Grok 4。

 

eFJHus9stzdnBcOEicb4YqdVpLExjCYqDYlc8pH5aShZ1voYnrticAlqKFW77n50fibicMWTK3D2g4NLOiaDPZZl1Iw.png

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

面向所有用戶開放

OpenAI在新聞稿中寫道,GPT-5的智能性能遠超公司之前的所有模型,在編碼、數學、寫作、健康、視覺感知等領域均擁有卓越的性能。

聲明補充稱,GPT-5是一個統一的系統,能夠識別何時快速響應,何時需要更長時間的思考以提供專家級的應答,不必由用戶手動選擇使用常規語言模型還是推理系統。

OpenAI表示,GPT-5將面向所有用戶開放。即C端免費用戶也可以使用GPT-5,但有使用次數限制,每天可以聊“幾個小時”,當達到上限后,會自動切換到GPT-5 mini模型。Plus用戶則將擁有比免費用戶“高得多”的使用額度 ,基本滿足日常應用。Pro會員則可訪問GPT-5 Pro版本——該版本具有擴展推理能力,可提供更全面、更準確的答案。

對于開發者API用戶來講,GPT-5幾乎給出了一個難以拒絕的價格:每百萬token輸入1.25美元,輸出10美元。這個價格不僅比GPT 4o便宜,也僅為Claude Opus 4.1的1/15,甚至比一直以“低價”著稱的Gemini 2.5 Pro更便宜。

先前,OpenAI首席執行官薩姆·奧爾特曼(Sam Altman)稱GPT-5是一次“重大升級”。

ChatGPT團隊負責人Nick Turley表示,新模型在響應速度、回答準確性以及減少“幻覺”方面都優于前代產品,“你跟它對話時,會感覺自然了不少。”

在8月7日的簡報會上,奧爾特曼對GPT-5給予了極高評價,將GPT-5定位為通往AGI的重要里程碑。他表示:“在以往歷史上任何時期,擁有像GPT-5這樣的東西都是不可想象的。”

“這是第一次感覺就像在與任何領域的專家交談。”Altman在簡報會上甚至不惜用“踩”GPT-4抬高GPT-5。他說:“我嘗試過用回GPT-4,但效果相當糟糕。”

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiaem0yEEjibMAYXxlops1ibNpD0gjibRnLFay92sTRnn838hsJS4Px7OMMoA.jpg圖片來源:視覺中國

 

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

一鍵生成網頁、像詩人一樣寫作

更懂健康問題

根據OpenAI介紹,作為OpenAI的“最強大模型”,GPT-5在三個關鍵領域實現了顯著提升。

 

首先是編程能力。GPT-5是OpenAI迄今為止最強大的編碼模型,在復雜的前端生成和大型代碼庫調試方面表現突出,能夠僅憑一個提示就創建美觀響應式的網站、應用程序App和游戲。早期測試者注意到其在間距、排版和留白等設計選擇方面的改進。

在從GitHub獲取現實世界編碼任務的基準測試SWE-bench Verified中,GPT-5思考后首次嘗試的準確率達74.9%,高于OpenAI推理模型o3的69.1%和GPT-4o的30.8%。

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiaelzULGYPxlEeMsrSzvaAibO197CrVGmONK0SD8lSmQ0dC7gGF6eYF8sQ.jpg

評論指出,這意味著,GPT-5的表現略勝于Anthropic周二推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro,后兩者在SWE-bench Verified測試的得分分別為74.5%和59.6%。

不過,在衡量數學、人文和自然科學領域模型表現的各學科專家級能力Humanity’s Last Exam測試中,帶有擴展推理功能的GPT-5增強版本GPT-5 pro在使用工具的情況下得分42%。這略低于得分44.4%的xAI模型Grok 4 Heavy。

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiaez6V93mYYS166ODQzha7trFPmmlONnNwnWBLjp2moDoRG21F76TkYKg.jpg

奧爾特曼稱,GPT-5尤其擅長按需啟動整個軟件App,也就是所謂的“氛圍編碼”、即用AI根據自然語言提示生成功能代碼,從而加快開發速度。

作為實例,OpenAI的研究者演示了,要求GPT-5創建一款網頁App,幫助說英語的用戶學習法語,且該App必須有一個引人入勝的主題,包含抽認卡、測驗、經典的貪吃蛇游戲,以及追蹤每日學習進度的方法。

研究者將相同的提示詞提交到兩個GPT-5 窗口中,幾分鐘后生成了兩個不同的App。OpenAI的負責人稱,這些App“存在一些缺陷”,但用戶可以根據個人喜好再調整AI生成的軟件,例如更改背景或添加更多標簽頁。

在創意寫作方面,GPT-5能夠處理結構復雜的寫作任務,如無韻律的抑揚格五音步詩或自然流動的自由詩,猶如詩人。OpenAI的ChatGPT業務副總Nick Turley表示,GPT-5在創意任務上表現出“更好的品味”,響應更自然。

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiaecO2DKtR4iciaK5OTc4TaiaqlQBbC3Z86IO7ssemDfIpLhd9aqIzX46slA.jpg

 

健康咨詢是第三個重要提升領域。

 

GPT-5能更積極地標記潛在健康問題,幫助用戶解析醫療結果,盡管OpenAI強調,ChatGPT不能替代醫療專業人員。

在名為HealthBench Hard Hallucinations的測試中,具備思考能力的GPT-5出現幻覺的錯誤信息率僅為1.6%。這遠低于GPT-4o和o3模型,后兩者的錯誤信息率分別為15.8%和12.9%。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

幻覺可能性顯著降低 新的安全訓練模式

OpenAI稱,GPT-5相比此前的模型更可靠和實用,它能更準確地回答現實世界的疑問,出現幻覺的可能性顯著降低。

 

在對代表ChatGPT生產流量的匿名提示詞啟用網絡搜索后,GPT-5響應中包含事實錯誤的可能性比GPT-4o低約45%;在思考后,GPT-5響應中包含事實錯誤的可能性比o3低約 80%。下圖可見,GPT-5響應的錯誤信息率僅為4.8%,GPT-4o為20.6%,o3為22%。

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiae5LMlQqMUxahdyMAhIibFibcxFexiaWYks1WfQ9qSicuCb7SfU9a0DCc50A.jpg

OpenAI還表示,為GPT-5引入了一種新的安全訓練形式,名為安全補全(safe completions)。它教模型在安全范圍內盡可能給出最有幫助的答案。有時,這可能意味著部分回答用戶的問題,或者只提供高水平的回答。

如果需要拒絕,經過訓練的GPT-5會以透明的方式告知用戶拒絕的原因,并提供安全的替代方案。

在受控的實驗和OpenAI的生產模型中,OpenAI都發現這種安全補全的方法更加細致入微,能夠更好地引導雙重用途問題,增強對模糊意圖的魯棒性,并減少不必要的過度拒絕。

OpenAI的后訓練負責人Michelle Pokrass表示:“GPT-5已經過訓練,能夠識別任務何時無法完成,避免猜測,并能更清晰地解釋局限性,相比之前的模型,這減少了無根據的斷言。”

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

推出四種可選的 ChatGPT聊天預設性格

OpenAI稱,GPT-5在指令執行方面表現提升,其執行自定義指令的能力也得到了相應的提升。OpenAI將為所有ChatGPT用戶推出四種預設性格的全新研究預覽版。

初始的四種性格選項——憤世嫉俗者(Cynic)、機器人(Robot)、傾聽者(Listener)和書呆子(Nerd)都是可選的,用戶可在設置中隨時調整,用以匹配ChatGPT和用戶的溝通風格。

eFJHus9stzdnBcOEicb4YqdVpLExjCYqDF0kOofUYrxRfMz4UeQxskM1IbGXUy6U1aeyXjGEO9JLAkGdriaObCCA.png

上述四種性格最初適用于文本聊天,之后將擴展到語音聊天,讓用戶無需編寫自定義提示詞即可設置ChatGPT的交互方式——無論是簡潔專業的、周到支持的,還是略帶諷刺的。

此外,微軟在GPT-5發布當日即宣布,將其整合到廣泛的產品線中。在企業級應用方面,Microsoft 365 Copilot將利用GPT-5更好地處理復雜問題、在長對話中保持專注并理解用戶上下文。企業用戶可通過推理功能處理電子郵件、文檔和文件。

對于消費者,Microsoft Copilot的新智能模式將利用GPT-5幫助用戶發現最佳解決方案。用戶可通過copilot.microsoft.com或Windows、Mac、Android和iOS設備上的Copilot應用免費體驗GPT-5。

CFF20LXzkOx4czmaia3NdROcEhiaQHjFiaedOTQ4kvFhOPianyllx2ntgltbe1ObG4PFzAeU3KeDpRyM0SAaLw5yJA.jpg

開發者將通過GitHub Copilot和Visual Studio Code獲得GPT-5支持,用于編寫、測試和部署代碼。Azure AI Foundry平臺將提供所有GPT-5模型,配備AI驅動的模型路由器,根據每個任務的復雜性、性能需求和成本效率選擇最優模型。

CFF20LXzkOwNfsay86cib4p0S2T0NfBIZicSMl7tYnKBaibmLibs8uIQI1mZYasibU5KFf6wlMM5EENdMic3ibFTHCmUw.png

馬斯克拆臺

 

值得注意的是,在GPT-5的發布會上,現場也出了一些小bug,直播中展示的性能圖表存在數據與圖表顯示不匹配的情況,例如在編程基準測試(swe-bench)的圖表中,GPT-5的準確率標注為52.8%,但對應的柱狀圖高度卻超過了標注為69.1%的舊模型O3的柱狀圖,引發了網友的廣泛質疑。奧特曼也承認了錯誤:

 

KmXPKA19gW80Lhc0tgswpbtQ4ck2trIBibSeQ73FrsmGKnN3zv1uNwmaiaaQDgqlBALwxctibjw96icktUdptdAnbA.png

更尷尬的是,馬斯克也跑來拆臺,轉發了GPT-5在ARC-AGI-2上沒有打敗Grok 4的消息:

KmXPKA19gW80Lhc0tgswpbtQ4ck2trIBiaqIjfhXAjqnJWNWWOSTWBUCMC6blysSuRrXFI4qKIb6rG98QQNG1tQ.png

據證券時報報道,有人工智能資深研究員認為,GPT-5 仍然只是“漸進式優化”,而非顛覆性、跨越式的提升。GPT-5表現不夠驚艷的核心原因在于,大模型訓練遵循Scaling Laws(縮放定律),即模型性能隨著參數規模、訓練數據量、計算資源的增加而提升。如今這一定律正在放緩,預訓練帶來的邊際收益在減弱,而且全球高質量數據已經枯竭,這也使得OpenAI的訓練資源面臨瓶頸,模型性能提升十分有限。

GPT-5這次發布或許還與OpenAI近期資本運作有關。

據參考消息網援引《金融時報》網站8月1日報道,OpenAI已獲得83億美元新資本,估值達到3000億美元。據知情人士透露,這筆新資金來自黑石集團、得克薩斯太平洋集團資本公司、富達管理與研究公司和普徠仕公司等原有及新加入的投資者。

GPT-5的發布,將進一步鞏固OpenAI在大模型技術領域的領先優勢,提振投資者信心,有助于公司估值的增長及股票二次出售計劃的實施。

編輯|程鵬 杜宇 易啟江

校對|段煉

封面圖片來源:截圖

CFF20LXzkOyYmal29zn37N5Bg2NQ4tyN4ylvMFyM3VmF4x90Uj4cDmoEphibia4RN55ibIXmqU1Od9w2Q5nhA08lA.png

每日經濟新聞綜合自OpenAI官網、證券時報、21世紀經濟報道、第一財經、公開資料

 

 

 

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

歡迎關注每日經濟新聞APP

每經經濟新聞官方APP

0

0

免费阿v网站在线观看,九九国产精品视频久久,久热香蕉在线精品视频播放,欧美中文字幕乱码视频
亚洲国产99热最新在线 | 亚洲精品在线视频中文网 | 亚洲AV乱码一区二区三区按摩 | 久久中文字幕永久第一页 | 日韩vs欧美vs国产肉 | 专区一va亚洲v专区在线专区 |