开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集
2024-09-11 16:25:24 AI 88观看
摘要 开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中,一开始它犯了和大多数

开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。4Oi28资讯网——每日最新资讯28at.com

新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 <反思> 标签中纠正了自己。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准 GSM8K 上直接刷爆,得分 99.2%。4Oi28资讯网——每日最新资讯28at.com

这个结果也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 激情开麦:4Oi28资讯网——每日最新资讯28at.com

GSM8K 得分 99%!是不是可以正式淘汰这个基准了?4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

模型刚刚上线网友就把试玩挤爆了,对此 Meta 还主动支援了更多算力。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

在网友测试中,Reflection 70B 能回答对 GSM8K 数据集中本身答案错误的问题:4Oi28资讯网——每日最新资讯28at.com

我向模型提供了 GSM8K 中存在的 5 个“ground_truth”本身就不正确的问题。4Oi28资讯网——每日最新资讯28at.com

模型没有重复数据集中的错误答案,而是全部回答对了,这很令人印象深刻,表明那 99.2% 的准确率并非来自于记忆测试集!4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

数各种 r 都不在话下,连生造词“drirrrngrrrrrnnn”中有几个 r 也能被正确数对。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶,现在最强开源模型可以在本地运行了。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

关键 70B 还只是个开始,官方表示下周还会发布更大的 Reflection 405B。4Oi28资讯网——每日最新资讯28at.com

预计 405B 性能将大幅优于 Sonnet 和 GPT-4o。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

Reflection 70B 权重已公开,API 访问将于今天晚些时候由 Hyperbolic Labs 提供。4Oi28资讯网——每日最新资讯28at.com

模型能自我反思纠正错误

目前关于 Reflection 70B 的更多细节如下。4Oi28资讯网——每日最新资讯28at.com

Reflection 70B 能力提升的关键,是采用了一种名为 Reflection-Tuning 的训练方法,它能够让模型反思自己生成的文本,在最终确定回应前检测并纠正自身推理中的错误。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

训练中的数据来自使用 GlaiveAI 平台生成的合成数据。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

Reflection 70B 基于 Llama 3.1 70B Instruct,可以使用与其它 Llama 模型相同的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。4Oi28资讯网——每日最新资讯28at.com

它甚至使用了标准的 Llama 3.1 聊天格式。4Oi28资讯网——每日最新资讯28at.com

不过,Reflection 70B 引入了一些特殊 tokens,结构化输出过程。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

如下面这个例子所展示的,规划过程分为一个独立的步骤,这样做可以提高 CoT 效果,并保持输出精炼:4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

模型将从在 <thinking> 和 </thinking> 标签内输出推理开始,一旦对其推理感到满意,就会在 <output> 和 </output > 标签内输出最终答案。4Oi28资讯网——每日最新资讯28at.com

所以它能够将其内部思考和推理与最终答案分离。4Oi28资讯网——每日最新资讯28at.com

在 <thinking> 部分,模型可能会输出一个或多个,这表明模型发现了其推理中的错误,并将在提供最终答案之前尝试纠正该错误。4Oi28资讯网——每日最新资讯28at.com

系统提示如下:4Oi28资讯网——每日最新资讯28at.com

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query insidetags, and then provide your final response insidetags. If you detect that you made a mistake in your reasoning at any point, correct yourself insidetags.4Oi28资讯网——每日最新资讯28at.com

(你是一个世界级人工智能系统,能够进行复杂的推理和反思。在标签内对查询进行推理,然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错,请在标签内纠正自己。)4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

此外值得一提的是,基准测试中,所有基准都已通过 LMSys 的 LLM Decontaminator 检查污染,隔离了 <output> 部分,并单独对这一部分进行测试。4Oi28资讯网——每日最新资讯28at.com

使用 Reflection 70B 的时候,官方还分享了小 tips:4Oi28资讯网——每日最新资讯28at.com

初步建议参数 temperature 为.7 ,top_p 为.954Oi28资讯网——每日最新资讯28at.com

为提高准确性,最好附加“Think carefully.”在 Prompt 末尾4Oi28资讯网——每日最新资讯28at.com

官方还表示,下周会发布一份报告,详细介绍模型训练过程和发现。4Oi28资讯网——每日最新资讯28at.com

Agent 创业团队打造

Reflection 70B 的背后是一支小团队,由 HyperWriteAI 的 CEO Mutt Shumer 带领。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

领英显示,Mutt Shumer 是一位连续创业者,毕业于美国锡拉丘兹大学,现任 OthersideAI 的联合创始人兼 CEO。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

OthersideAI 是一家 AI 应用公司,致力于通过大规模 AI 系统开发全球最先进的自动补全工具,也是 HyperWrite 的幕后公司。4Oi28资讯网——每日最新资讯28at.com

HyperWrite 是一个浏览器操作 agent,可以像人一样操作谷歌浏览器来完成一系列任务,比如订披萨:4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

和 gpt-llm-trainer 一样,你只需要用文字描述目标,它就会一边列步骤,一边执行。4Oi28资讯网——每日最新资讯28at.com

刚推出时号称“比 AutoGPT 强”。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

HyperWrite 还可以在谷歌扩展程序中安装。4Oi28资讯网——每日最新资讯28at.com

另外,Mutt Shumer 高中时期就创立了 Visos,致力于开发用于医疗用途的下一代虚拟现实软件。4Oi28资讯网——每日最新资讯28at.com

还创立了 FURI,这是一家旨在通过创造高性能产品并以公平的价格销售它们来颠覆体育用品行业的公司。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

虽然有 Meta 支持,但目前打开试玩,还是:暂时无法访问。4Oi28资讯网——每日最新资讯28at.com

4Oi28资讯网——每日最新资讯28at.com

感兴趣的童鞋可以先码住了~4Oi28资讯网——每日最新资讯28at.com

https://reflection-playground-production.up.railway.app/4Oi28资讯网——每日最新资讯28at.com

参考链接:4Oi28资讯网——每日最新资讯28at.com

[1]https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B4Oi28资讯网——每日最新资讯28at.com

[2]https://x.com/mattshumer_/status/18317670143415381664Oi28资讯网——每日最新资讯28at.com

[3]https://x.com/polynoamial/status/18317989855286358064Oi28资讯网——每日最新资讯28at.com

[4]https://x.com/degeneratoor/status/18318096104514481964Oi28资讯网——每日最新资讯28at.com

[5]https://x.com/kimmonismus/status/18317726612963453334Oi28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原标题:《开源大模型新王干翻 GPT-4o,新技术可纠正自己幻觉,数学 99.2 分刷爆测试集》4Oi28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6971-0.html开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:业内首个 AI 大模型供应链安全国际标准发布,蚂蚁集团、微软、谷歌、百度等数十家单位共同编制

下一篇:重磅揭晓!中国企业500强全名单出炉,谁将登顶榜单引领风骚?

最新热点