选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?
2025-04-24 11:33:34 AI 4观看
摘要 一句话看懂:o3 以深度推理与工具调用能力领跑复杂任务,GPT-4.1 超长上下文与精准指令执行适合 API 开发,而 o4-mini 则堪称日常任务的「性价比之王」。如果你最近关注 AI 新闻,可能会被各种层出不穷的新模型搞得

一句话看懂:o3 以深度推理与工具调用能力领跑复杂任务,GPT-4.1 超长上下文与精准指令执行适合 API 开发,而 o4-mini 则堪称日常任务的「性价比之王」。0YU28资讯网——每日最新资讯28at.com

如果你最近关注 AI 新闻,可能会被各种层出不穷的新模型搞得眼花缭乱。0YU28资讯网——每日最新资讯28at.com

尤其是堪称「起名黑洞」的 OpenAI,命起名来可谓是毫无章法。0YU28资讯网——每日最新资讯28at.com

即便是 AI 圈的资深团队,在面对同时发布的 o3、o4-mini、GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 时,也是蒙圈的。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

为了解决这个困扰,来自 Every 和 DataCamp 的团队在经过反复测试、来回切换模型,折腾了很多提示词后,得出了以下结论:0YU28资讯网——每日最新资讯28at.com

o3:OpenAI 最新的旗舰模型,也是最会「深度思考」的选手 —— 专为自主复杂推理与工具调用设计。0YU28资讯网——每日最新资讯28at.com

o4‑mini:效率发动机 —— 速度快、价格低,对数学、视觉推理和成本敏感型开发任务表现惊人。它不是明星旗舰,也不是基准霸主,但凭借效率优势,完全可以承担一般的任务。0YU28资讯网——每日最新资讯28at.com

GPT‑4.1:API 专用的主力干将 —— 指令遵循严谨,长上下文记忆出众。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

接下来,看看这三款模型的新特性、各自擅长什么,以及在 Every 团队的工作流中,它们实际表现如何。0YU28资讯网——每日最新资讯28at.com

o3——OpenAI 最强推理模型

o3 是 OpenAI 最新的前沿模型,旨在提升其在编码、数学、科学与视觉感知等复杂任务上的推理能力。0YU28资讯网——每日最新资讯28at.com

它也是首个具备自主工具调用能力的推理模型,可使用搜索、Python、图像生成以及图像解读等工具来完成任务。0YU28资讯网——每日最新资讯28at.com

凭借这一能力,就让它在针对现实世界问题求解的高级基准测试中表现出色,而此前的模型往往难以胜任。0YU28资讯网——每日最新资讯28at.com

OpenAI 特别强调了 o3 相较于 o1 的显著提升,并将其定位为迄今为止功能最强、适用面最广的模型。0YU28资讯网——每日最新资讯28at.com

o3 不只是像 GPT‑4o 那样会用工具、能看图 —— 它还能把这些工具和图像融入自己的推理过程。0YU28资讯网——每日最新资讯28at.com

o3 的优势

・工具调用0YU28资讯网——每日最新资讯28at.com

o3 既懂得如何使用单个工具,也知道如何把多种工具串联起来,并在关键时刻切换方案。0YU28资讯网——每日最新资讯28at.com

假设你上传一张月度销售图表,它可能先用 OCR 提取数据,再写 Python 代码计算同比增长,随后检索行业基准为结果提供背景 —— 一气呵成。0YU28资讯网——每日最新资讯28at.com

在单条回复中,它最多可调用 600 次工具,边执行边自我优化;一旦出现问题,也能迅速调整方向。就像一位自驱的分析师,随身携带瑞士军刀,而且知道什么时候该用哪一把刀。0YU28资讯网——每日最新资讯28at.com

・视觉推理0YU28资讯网——每日最新资讯28at.com

o3 会带着真实语境去深度解析图像。其他模型也许只会说「这是一幅描绘女性的画」,而 o3 会放大画角,读出画家签名,查出画作悬挂的博物馆,并为你讲述其所属艺术流派的历史。0YU28资讯网——每日最新资讯28at.com

o3 的技术创新

性能大幅跃升绝非偶然。OpenAI 团队通过多项突破,才拿出了如此漂亮的成绩单:0YU28资讯网——每日最新资讯28at.com

・扩展强化学习0YU28资讯网——每日最新资讯28at.com

OpenAI 发现,只要在强化学习阶段提升算力投入,模型效果就能显著提升,这与 GPT 系列在监督预训练里的「越算越强」规律如出一辙。不同的是,此时的 o3 并非优化「下一词预测」,而是通过最大化强化学习奖励来学习,且常在工具增强环境中训练。0YU28资讯网——每日最新资讯28at.com

实质上,OpenAI 把强化学习当成了「放大版预训练」:训练更久、用更多算力,结果也更好。由此解锁了长期规划与序列推理等能力,例如竞技编程、多步数学证明。再配合工具调用,性能增益更加明显。0YU28资讯网——每日最新资讯28at.com

・动态视觉推理0YU28资讯网——每日最新资讯28at.com

o3 在视觉推理上同样大幅跃进。它不仅能理解图片,还把图像直接纳入推理循环 —— 解释、操作、反复查看都不在话下。因而在科学图表、数学示意图,甚至通过照片排定日程等任务上表现突出。0YU28资讯网——每日最新资讯28at.com

核心做法是:在整个推理过程中始终保留原图。0YU28资讯网——每日最新资讯28at.com

与传统「生成文本描述后就丢图」的做法不同,o3 可借助工具随时放大、旋转、重看图像任意区域,使推理更灵活,也能处理更凌乱的视觉输入,如模糊白板、手绘草图或会议日程照片。0YU28资讯网——每日最新资讯28at.com

举个例子,OpenAI 让 o3 读取一张低清晰度的演出排期照片,并规划一份在每场活动之间留出 10 分钟休息的行程 —— 既要解析视觉布局,又得实时应用约束条件。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

比如,给 o1 看一幅粗糙草图,问「这将绘制哪种分形?」——o1 答错了;而 o3 直接命中了「龙形曲线」。0YU28资讯网——每日最新资讯28at.com

虽然只是小测试,但结果令人惊喜,因为我们并未提供太多线索。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

・更优成本效率0YU28资讯网——每日最新资讯28at.com

更令人意外的是,o3 的性价比也更高:在相同推理成本下,它交出了更好的成绩。这或许得益于架构级优化,提高了 Token 吞吐量并降低了延迟。0YU28资讯网——每日最新资讯28at.com

自 Deepseek‑R1 以 ChatGPT 仅几分之一的成本取得高性能以来,成本一直是热门话题,而 o3 的表现显然再次推高了业界预期。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

o4‑mini—— 小巧、敏锐,却实力惊人

o4‑mini 是 OpenAI o 系列推理模型的最新成员。0YU28资讯网——每日最新资讯28at.com

它针对速度、低成本以及工具增强推理能力进行了优化,提供 200 000 Token 的上下文窗口,并可输出最多 100000 个 Token,性能与 o3、o1 相当。0YU28资讯网——每日最新资讯28at.com

在工具层面,o4‑mini 兼容 Python 执行、网页浏览和图像输入,可接入 OpenAI 的标准接口(包括 Chat Completions 和 Responses)。支持流式输出、函数调用及结构化输出,但暂不支持微调和嵌入(Embeddings)。0YU28资讯网——每日最新资讯28at.com

o4‑mini 兼顾「量」和「质」:面向普通用户的每日消息上限达 150 条,而 o3 的上限是每周 50 条;在数学、编程和高视觉负载任务上,它以更快速度、极低成本,达到接近 o3 的性能。0YU28资讯网——每日最新资讯28at.com

虽然 o3 仍然是 OpenAI 最强的推理模型,但 o4‑mini 可以使用十分之一不到的费用获得 o3 大部分的性能。0YU28资讯网——每日最新资讯28at.com

o4‑mini 的优势

・体积虽小,威力十足0YU28资讯网——每日最新资讯28at.com

要分析海量数据,或汇总凌乱的研究表格?o4‑mini 轻松应对 —— 筛选洞见、编写结构化查询语言(SQL)、检索数据,并将结果绘制成可交互图表。0YU28资讯网——每日最新资讯28at.com

o3 也许要十几步推理、付出不菲的 token 成本,而 o4‑mini 直截了当,给你既简洁又合理的答案。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

・工具齐全,算力更省0YU28资讯网——每日最新资讯28at.com

o4‑mini 提供与 o3 同级别的完整工具箱,包括 Python、网页浏览、图像分析与生成等。0YU28资讯网——每日最新资讯28at.com

生成分析报告时,它可以一次完成:拉取 CSV,用 Python 清洗并制图,上网查找行业宏观数据进行对比,最后输出 Markdown 报告;整个过程无需承担 o3 的计算开销。0YU28资讯网——每日最新资讯28at.com

o4‑mini 与 o4‑mini‑high

打开 ChatGPT 应用,你会发现有 o4‑mini 和 o4‑mini‑high 两种选择。0YU28资讯网——每日最新资讯28at.com

顾名思义,o4‑mini‑high 就是通过更多推理算力的投入,来换取更佳表现。0YU28资讯网——每日最新资讯28at.com

这意味着 o4‑mini‑high 相比于 o4‑mini:0YU28资讯网——每日最新资讯28at.com

会在内部花费更多时间处理每个提示词;0YU28资讯网——每日最新资讯28at.com

通常能生成更高质量的输出,尤其是多步任务;0YU28资讯网——每日最新资讯28at.com

但响应速度更慢,且可能消耗更多 Token。0YU28资讯网——每日最新资讯28at.com

如果你更看重速度,o4‑mini 或许更合适。若任务需要复杂推理(尤其涉及代码或视觉输入)、更长上下文,或对精度要求极高,那么 o4‑mini‑high 更有可能给出更好的结果。0YU28资讯网——每日最新资讯28at.com

实测表现

接下来,对 o4‑mini 分别在数学和编码场景下进行测试。0YU28资讯网——每日最新资讯28at.com

・数学0YU28资讯网——每日最新资讯28at.com

首先,给它一道看似简单、却常常难住语言模型的计算题。0YU28资讯网——每日最新资讯28at.com

目的不是测它的基础算术,而是想看看它会如何解题:一步步推理,还是调用像计算器这样的工具。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

第一次回答错了。于是,直接提醒它要使用计算器。0YU28资讯网——每日最新资讯28at.com

第二次虽然算对了,但仍有两个问题:0YU28资讯网——每日最新资讯28at.com

它把答案称为「约等于」,可这道减法题根本不用任何估算。0YU28资讯网——每日最新资讯28at.com

从推理过程能看出它并未真正调用计算器,尽管输出里写着「计算器显示」,这与实际计算方式不符。更离谱的是,它还去搜了网页,而这种基础题完全无需联网查询。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

随后又给了它一道更有挑战性的数学题,这回表现就稳多了。0YU28资讯网——每日最新资讯28at.com

模型反应迅速,用一小段 Python 脚本就解出了答案,而且还能在思维链里直接看到代码。能把代码公开为推理过程的一部分,确实相当实用。0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

・生成 p5.js 游戏0YU28资讯网——每日最新资讯28at.com

在这个测试中,选用算力更高的 o4‑mini‑high。0YU28资讯网——每日最新资讯28at.com

提示词:给我做一款引人入胜的无尽跑酷游戏。关键操作说明显示在屏幕上。p5.js 场景,不要 HTML。我喜欢像素风恐龙和有趣的背景。0YU28资讯网——每日最新资讯28at.com

第一次生成的结果:0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

有些地方我想调整,于是再次进行提示:0YU28资讯网——每日最新资讯28at.com

画一只更像样的恐龙 —— 那东西一点也不像恐龙。0YU28资讯网——每日最新资讯28at.com

让玩家按下任意键再开始游戏 —— 不要一启动就自动开始;同时确保所有操作说明仍然显示在屏幕上。0YU28资讯网——每日最新资讯28at.com

游戏结束后,让玩家可以重新尝试。0YU28资讯网——每日最新资讯28at.com

第二次生成的结果:0YU28资讯网——每日最新资讯28at.com

0YU28资讯网——每日最新资讯28at.com

这次好多了,但这只「恐龙」看起来还是像一台老式电影摄像机。0YU28资讯网——每日最新资讯28at.com

GPT‑4.1—— 为精准而生,不为「氛围」服务

目前 GPT‑4.1 只通过 API 向开发者开放,目标是以毫不妥协的精准度执行细致入微的指令。0YU28资讯网——每日最新资讯28at.com

它没有 4.5 等前辈那种「梦幻」气质,却更加结构化、可靠且一致。可以把它当作 OpenAI 面向特定开发任务的高负荷「劳模」,而非发散创意的灵感源泉。0YU28资讯网——每日最新资讯28at.com

GPT‑4.1 的优势

・遵循复杂指令0YU28资讯网——每日最新资讯28at.com

GPT‑4.1 处理任务就像经验老到的领航员。0YU28资讯网——每日最新资讯28at.com

比如你正在写一个食谱生成器,并且把所有的要求都写在了一个提示词里 —— 以 Markdown 输出、避开特定话题、按指定顺序列出烹饪步骤,并附上钠含量等关键指标。0YU28资讯网——每日最新资讯28at.com

旧版模型可能会漏掉步骤或乱了顺序,而 4.1 会严格遵照你的路线,哪怕十分漫长、全是弯弯绕绕。0YU28资讯网——每日最新资讯28at.com

这带来了两大好处:写提示词的时间更短,处理模型输出的时间也更短。0YU28资讯网——每日最新资讯28at.com

・记忆力惊人0YU28资讯网——每日最新资讯28at.com

上下文窗口从 128000 个 token 扩大到 1000000 个 token,比 GPT‑4o 足足多出了 8 倍。0YU28资讯网——每日最新资讯28at.com

你只需一次性设定语气或结构,它便能在多轮对话中持续遵循,无需每次从头设置。0YU28资讯网——每日最新资讯28at.com

这让很多实际场景变得可行:一次性处理完整日志、为代码仓库建索引、顺畅运行多文档法律流程,或分析长篇内容,全程无需分块或摘要。0YU28资讯网——每日最新资讯28at.com

・结构化输出0YU28资讯网——每日最新资讯28at.com

GPT‑4.1 就像自驾游里那个「只要路线明确就特别好相处」的朋友。给它清晰的行程表,它就执行得又准又快。0YU28资讯网——每日最新资讯28at.com

可如果抛给它「氛围」式的提示词,比如「能不能让这个食谱 App 像走进一家温馨的地下酒吧?」,它可能立刻就想回家。0YU28资讯网——每日最新资讯28at.com

GPT‑4.1、GPT-4.1 mini 和 GPT-4.1 nano

如果你想在编码、指令遵循以及长上下文任务上获得最优综合表现,就选 GPT‑4.1。它能胜任复杂的编码工作流,也能在单条提示词中处理大体量文档。0YU28资讯网——每日最新资讯28at.com

GPT‑4.1 mini 属于中端选项,延迟和成本更低,却几乎具备与完整版相同的能力。在多项基准(包括指令遵循和图像推理)中,它能追平甚至超越 GPT‑4o。0YU28资讯网——每日最新资讯28at.com

GPT‑4.1 nano 是系列中体积最小、速度最快、成本最低的模型(0.1 美元 / 百万 Token),面向自动补全、分类,以及从长文档中抽取信息等任务。虽然它的推理和规划能力不如更大的模型,但对于某些任务来说,这已经足够用了。0YU28资讯网——每日最新资讯28at.com

与完整版的 GPT‑4.1 一样,mini 和 nano 都支持 100 万 Token 的上下文窗口。0YU28资讯网——每日最新资讯28at.com

对比竞品的表现• GPT-4.1 vs Claude 3.7 Sonnet

根据测试,在代码的优雅度和结构性方面,Claude 3.7 Sonnet 仍是首选,尤其体现在整体风格一致性和用户界面表现上。0YU28资讯网——每日最新资讯28at.com

不过,只要提示词范围清晰且具体,4.1 在执行指令能力上已大幅拉近差距。0YU28资讯网——每日最新资讯28at.com

• o4‑mini vs GPT‑3.5

就目前观察,o4‑mini 正逐渐成为开发者在有限预算下追求速度、可靠性与视觉处理能力时的「平价首选」。而 2022 年 11 月发布的 GPT‑3.5,如今已经显得有些「过气」了。0YU28资讯网——每日最新资讯28at.com

参考资料:0YU28资讯网——每日最新资讯28at.com

https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini0YU28资讯网——每日最新资讯28at.com

https://www.datacamp.com/blog/o4-mini0YU28资讯网——每日最新资讯28at.com

https://www.datacamp.com/blog/o3-openai0YU28资讯网——每日最新资讯28at.com

https://www.datacamp.com/blog/gpt-4-10YU28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元(ID:AI_era)0YU28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12531-0.html选 AI 比选对象还难!“起名黑洞”OpenAI 的新模型,到底怎么选?

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:昆仑万维开源 SkyReels-V2 模型,开启生成“无限时长”视频时代

下一篇:深圳大学人工智能学院正式揭牌成立,打造本硕博一体化 AI 人才培养体系

最新热点