大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench
2025-04-13 08:41:48 AI 8观看
摘要 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Pyth

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。95g28资讯网——每日最新资讯28at.com

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。95g28资讯网——每日最新资讯28at.com

95g28资讯网——每日最新资讯28at.com

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。95g28资讯网——每日最新资讯28at.com

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。95g28资讯网——每日最新资讯28at.com

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:95g28资讯网——每日最新资讯28at.com

首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;95g28资讯网——每日最新资讯28at.com

引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;95g28资讯网——每日最新资讯28at.com

1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。95g28资讯网——每日最新资讯28at.com

95g28资讯网——每日最新资讯28at.com

附开源链接:95g28资讯网——每日最新资讯28at.com

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:95g28资讯网——每日最新资讯28at.com

论文链接:https://arxiv.org/ abs / 2504.0260595g28资讯网——每日最新资讯28at.com

榜单链接:https://multi-swe-bench.github.io95g28资讯网——每日最新资讯28at.com

代码链接:https://github.com/ multi-swe-bench / multi-swe-bench95g28资讯网——每日最新资讯28at.com

数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench95g28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-12213-0.html大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:优音通信双奖加冕,智能通信创新引领行业未来!

下一篇:谷歌 Veo 2 升级可生成更具电影感视频,文本、音频 AI 同步升级

最新热点