GPT-5亮相!奥特曼:这是全球最先进的AI模型(图)

北京时间8月8日凌晨1点，OpenAI推出其最新大型人工智能模型GPT-5，这是公司迄今最智能、快速且实用的AI系统。

OpenAI首席执行官萨姆·奥特曼（Sam Altman）称，GPT-5如同博士级专家团队，内置推理能力，能在编码、数学、写作、医疗和视觉感知等领域提供专家级回答，显著超越前代模型。

GPT-5现通过ChatGPT向所有用户开放，包括免费、Plus、Pro和Team用户。免费用户首次体验推理模型，达到限额后切换至GPT-5 mini。Plus用户享有更高使用限额，Pro用户可无限制访问GPT-5及更强大的GPT-5 Pro。企业版和教育版用户将在约一周后获得访问权限。OpenAI还为开发者提供GPT-5、GPT-5 mini和GPT-5 nano三种API版本，满足不同需求。

GPT-5在多项基准测试中创下新高：数学（AIME 2025无工具得分94.6%）、编码（SWE-bench Verified 74.9%，Aider Polyglot 88%）、多模态理解（MMMU 84.2%）和医疗（HealthBench Hard 46.2%）。

GPT-5显著减少“幻觉”，在匿名ChatGPT流量测试中，回答包含事实错误的概率比GPT-4o低45%，推理模式下比OpenAI o3低80%。

在LongFact和FActScore等事实性基准测试中，GPT-5（带推理）的幻觉率约为o3的六分之一，确保长篇内容更准确。OpenAI引入“安全完成”训练，模型在处理模糊或双重用途问题时提供高层次、安全的回答，并透明解释拒绝原因，欺骗率从4.8%降至2.1%。

OpenAI在GPT-5开发过程中进行了广泛的安全评估，包括5000小时的测试。OpenAI称，GPT-5不会直接拒绝回答可能存在风险的问题，而是采用“安全完成”策略，提供符合安全限制的高层次回答，以避免潜在危害。

在简报会上，OpenAI展示了GPT-5的“氛围编码”功能，即用户通过简单的文字提示即可生成软件。OpenAI的研究人员要求GPT-5开发一个帮助英语使用者学习法语的网页应用，需具备吸引人的主题，包括闪卡、测验和每日进度跟踪功能。

OpenAI在两个GPT-5窗口中输入相同提示，模型在几秒内生成了两个不同的应用。OpenAI的研究人员表示，这些应用“有些粗糙”，但用户可根据需要进一步调整AI生成的软件，例如更改背景或添加新标签。

微软首席执行官萨蒂亚·纳德拉（Satya Nadella）周四在X平台发帖称：“难以相信当前距奥特曼在雷德蒙德向世界首次展示GPT-4仅过去两年半时间，技术进步之快令人惊叹。”他指的是2023年2月奥特曼在微软华盛顿总部展示GPT-4的场景。

根据微软的博客文章，GPT-5将迅速集成到微软产品中，包括Microsoft 365 Copilot、面向消费者的Copilot以及供开发者将AI模型融入第三方应用的Azure AI Foundry。

企业文件管理公司Box近几周对GPT-5进行了广泛测试。Box首席执行官亚伦·列维(Aaron Levie)表示，以往AI模型在处理复杂数学或长文档逻辑时常失败，但GPT-5是“彻底的突破”。他在接受CNBC采访时表示：“该模型能保留更多信息，并运用更高水平的推理和逻辑能力进行决策。”

GPT-5发布：模型能力全面“屠榜”，构建“超级智能”第一步

经历过无数次「跳票」之后，GPT-5 终于来了。

北京时间 8 月 8 日凌晨一点，颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕。

与此前 OpenAI 速通式的发布会明显不同，这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵，你方唱罢我登场，从各种角度展示 GPT-5 的强悍性能。

先说重点：GPT-5 在多个领域的表现都迎来了全面提升，在文本、WebDev 和视觉感知能力领域排名第一；在硬提示、编码、数学、创造力、长查询等方面排名第一 GPT-5，在代号为「峰会」的测试下，目前保持着截至目前最高的 Arena 分数，可以说是字面意义上的「屠榜」了。

Sam Altman 表示，GPT-4o 就像中学生，而 GPT-5 就像大学生，甚至形容 GPT-5 是第一部配备视网膜显示屏的 iPhone——「你问它一个问题，也许能得到正确答案，也许会得到一些疯狂的东西。GPT-4 则感觉像在和一名大学生对话。而 GPT-5，是第一次让我真正感觉像在与一位博士级别的专家交谈。」Sam Altman 这样介绍 GPT-5 的能力提升。

尽管 ChatGPT 的周活跃用户已接近 7 亿，但 OpenAI 过去一段时间实际上并未拥有行业领先的前沿模型。现在，OpenAI 相信 GPT-5 将使其稳稳地重回排行榜榜首。

Altman 甚至直接在发布会中断言：「这是世界上编码能力最强的模型，是世界上写作能力最强的模型，也是世界上在医疗保健领域最强的模型」

同时 OpenAI 也在发布会上宣称，除了代码能力爆表，GPT-5 的写作功底和回答健康相关问题的准确性也更上一层楼。同时 GPT-5 不仅在智能上实现了「巨大飞跃」，还大幅减少了「一本正经胡说八道」的幻觉问题。它在理解和遵循指令方面表现更出色，拍马屁的倾向也大大降低了。

01

告别「幻觉」，AI 更可靠了

首先是本次更新的模型阵容，GPT-5 系列一共有 GPT-5, mini, nano, chat 四个版本，其中 Chat 版本对应的是实现更自然、更智能的响应的体验——你甚至可以用它来学习一门新的语言。

另外，现在当你打开 ChatGPT 网页之后，首先会注意到 GPT-5 被呈现为一个单一模型，而不是一个常规模型外加一个独立的推理模型。

这背后其实是 OpenAI 开发的一个路由系统（router），它会自动为更复杂的查询切换到推理能力更强的版本，或者在你告诉它努力思考时也会这样做。（Altman 称之前的模型选择界面是「一个非常混乱的烂摊子」。）

「AI 幻觉」一直是大家吐槽的重灾区。好消息是，GPT-5 在这方面下了大功夫，官方宣称其产生幻觉的可能性「显著降低」。具体来说：

在联网搜索时，GPT-5 的回答出现事实错误的概率比 GPT-4o 低了 45%。

在独立思考时，其回答出错的概率更是比 OpenAI o3 低了 80%

GPT-5 也在新的 ARC-AGI-2 上进行了测试。除 Grok 4（思考）外，它的表现优于所有主要模型。

此外，GPT-5 还成了一个「老实人」。它不太会再对用户撒谎，吹嘘自己能完成办不到的任务。当遇到不可能完成、指令不明确或缺少关键工具的任务时，它会更诚实地沟通自己的局限。

这次更新最有趣的一点，莫过于引入了四种全新的「人格」模式，用户可以自由选择。它们分别是：

犬儒 (Cynic)

机器人 (Robot)

倾听者 (Listener)

学霸 (Nerd)

这些模式是可选的，你可以根据自己的喜好，设定 ChatGPT 与你互动和回答问题的方式。想让它跟你抬杠，还是像个耐心的朋友一样倾听？现在都可以由你说了算。

「这个模型给人的『感觉』真的很好，」ChatGPT 的负责人 Nick Turley 说，「我认为人们会真切地感受到这一点，特别是那些平时不怎么研究模型的普通用户。」

此外，你还可以为单个聊天窗口更改颜色主题，代码编辑器主题爱好者狂喜了。

「软件按需生成」时代来临？代码能力逆天

随着代码能力的进一步提升，Altman 预测，GPT-5 强大的编码能力将开启一个他称之为「软件按需生成」的时代。

在 OpenAI 的测试中，GPT-5 在 SWE-Bench, SWE-Lancer, 和 Aider Polyglot 等多个编码基准测试中的表现均优于任何其他模型。在人类最终测试中取得 42% 的成绩，在 SWE 基准测试中取得 75% 的成绩。

一个小插曲是，发布会上的这张图的坐标轴明显有不少槽点，不仅有 52.8 > 69.1 这样的弱智错误，也实际上夸大了 GPT-5 的能力提升，在社交媒体上被网友群嘲「你这 PPT 怕最好别是 GPT-5 做的」。

在发布会上，OpenAI 的后期训练负责人 Yann Dubois 使用 GPT-5 现场演示，要求它生成一个用于学习法语、并带有互动游戏的网站。在短短几秒钟内，GPT-5 就编写了数百行代码，并直接展示了网站的前端界面。他在 Zoom 上分享屏幕并进行了简单的点击操作，一切看起来都完美运行。

发布会现场，OpenAI 还直接展示了一款仅靠一段提示词就由 GPT-5 创作的 3D 游戏。其创作的 3D 场景不仅画面精致，其中的物理效果也非常准确的还原出了对应的效果。

更安全，更「诚实」

据模型安全研究负责人 Alex Beutel 介绍，为了解其安全风险，OpenAI 对 GPT-5 进行了「超过五千小时」的测试。其中一个重点是「确保模型不会对用户撒谎」。

虽然 GPT-5 的幻觉（hallucination）比 OpenAI 的 o3 推理模型要少，但「自信地撒谎」仍然是大型语言模型固有的问题。当模型开始像智能体（agent）一样完成任务时，这个问题会变得更加复杂。不过 OpenAI 表示，GPT-5 在更可靠地处理多步骤任务方面表现更好。「过去，我们看到过模型声称完成了某项任务，但实际上并没有完成的情况，」Beutel 说，「这是个问题。」

对于以前会直接拒绝回答的提示，GPT-5 将提供 OpenAI 所谓的「安全补全」机制（safe completions）。Beutel 解释说：「比如有人问『点燃某种特定材料需要多少能量？』，这可能是一个试图绕过安全防护造成伤害的恶意问题，也可能是一个想了解材料物理特性的学生。这给模型如何回应带来了真正的挑战。」

通过「安全补全」，GPT-5「试图在保持安全的约束下，给出尽可能有帮助的答案」。模型通常只会部分遵从，并提供一些无法被实际用于造成伤害的、更宏观层面的信息。

04

如何用上 GPT-5

那么，大家最关心的问题来了：怎么才能用上 GPT-5 呢？

好消息是，所有 ChatGPT 用户都可以现在立即免费体验到 GPT-5。这也是 OpenAI 第一次面向所有用户免费开放前沿模型。当然，不同级别的用户权限不同：

Plus 订阅用户在达到使用上限前，可以有更多的使用次数。

Pro 订阅用户则可以访问具备更强推理能力的GPT-5 Pro版本。

当用户达到使用上限后，ChatGPT 会自动切换到一个「迷你版」的 GPT-5 来处理后续的请求。同时，随着 GPT-5 的上线，它将正式取代 GPT-4o, OpenAI o3, OpenAI o4-mini, GPT-4.1 和 GPT-4.5 等一系列旧模型。

此外 Token 定价部分，标准版 GPT-5 为每百万输入 Token 1.25 美元，每百万输出 Token 10 美元。mini 版与 Nano 版定价都便宜不少。

详细定价可参考下图截取自官网的信息。

此外，OpenAI 还在 API 中发布了一个名为「Minimal」的新参数，这样你就可以在所有用例中使用 GPT-5，只需改变推理的力度。

除了 OpenAI 的第一方平台，微软 CEO 纳德拉同时也宣布，GPT-5 已在微软全系平台上线，包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry。同时所有这些改进均在 Azure 上进行训练。

最后，Altman 表示，OpenAI 的使命是开发通用人工智能（AGI）。GPT-5 使他们更接近这一目标，尽管整个行业已经开始转向构建所谓的「超级智能」。

「我有点讨厌 AGI 这个词，因为现在每个人对它的定义都略有不同，」Altman 说，「但这是朝着真正强大的模型迈出的重要一步。这显然是需要一个具备通用智能的模型才能做到。」

然而，他也承认相比起真正的 AGI， GPT-5 仍然「缺少一些非常重要的东西」。

「这不是一个模型，它是从它所发现的新事物中所生长出来的原生事物，对我来说，这正是它为什么能成为 AGI 「种子」的原因。」Sam Altman 这样介绍道。

GPT-5亮相!奥特曼:这是全球最先进的AI模型(图)

热点

江油霸凌事件引发大规模抗议遭警方镇压(组图)

台球厅变淫窟女陪打后收500元当场「激战」大叔6分钟

外媒:江油暴动震怒习近平传市委书记遭免职(组图)

布莱德彼特母亲惊传逝世享寿84岁孙女悲恸追忆

就在今晚极光夜袭全美18州…准备追光

苹果元气大伤十多位AI人才遭挖角跳槽Meta、OpenAI等

发表评论取消回复

GPT-5亮相!奥特曼:这是全球最先进的AI模型(图)

热点

江油霸凌事件引发大规模抗议 遭警方镇压(组图)

台球厅变淫窟 女陪打后收500元当场「激战」大叔6分钟

外媒:江油暴动震怒习近平 传市委书记遭免职(组图)

布莱德彼特母亲惊传逝世 享寿84岁 孙女悲恸追忆

就在今晚 极光夜袭全美18州…准备追光

苹果元气大伤 十多位AI人才遭挖角 跳槽Meta、OpenAI等

发表评论取消回复

江油霸凌事件引发大规模抗议遭警方镇压(组图)

台球厅变淫窟女陪打后收500元当场「激战」大叔6分钟

外媒:江油暴动震怒习近平传市委书记遭免职(组图)

布莱德彼特母亲惊传逝世享寿84岁孙女悲恸追忆

就在今晚极光夜袭全美18州…准备追光

苹果元气大伤十多位AI人才遭挖角跳槽Meta、OpenAI等