随着人工智能技术在科研领域的渗透,如何科学评估AI研究助手的能力成为学界关注的核心问题。上海人工智能实验室联合清华大学、香港科技大学(广州)及牛津大学等机构,通过创新性的学术讲座场景评测方法,构建了名为DeepResearch Arena的评测体系,为AI研究能力评估提供了全新范式。
传统评测方式存在明显缺陷:基于文献的问题可能被AI提前"记忆",人工设计题目则面临覆盖面不足的困境。研究团队发现,学术讲座中自然产生的开放性问题更能反映真实科研过程。这类场景中,研究者会实时提出未解决的疑问、探讨跨学科可能性,这种动态的思维碰撞过程未被纳入现有AI训练数据,有效避免了数据泄露风险。
核心突破在于MAHTG(多智能体分层任务生成)系统的开发。该系统通过四重筛选标准——新颖性、可探索性、挑战性和可验证性,从讲座转录文本中精准提取研究灵感。例如,当教授讨论算法处理大规模数据的瓶颈时,系统会将其归类为"局限性"类型,并生成改进算法的具体任务。这种分类机制确保生成的任务覆盖文献综述、方法设计、实验评估等完整研究链条。
研究团队收集了12个学科领域的200余场讲座录音,通过MAHTG系统生成超万个研究任务,构建了迄今最大规模的跨学科评测数据集。在任务生成环节,系统采用Elo评分机制进行质量排序:初始设定1200分基础值,通过原创性、清晰度等指标的多轮比对,最终筛选出最高质量的评测任务。
评估体系创新性地采用双维度框架:关键点对齐评估(KAE)通过比对AI引用资料与回答内容,计算支持率、冲突率和遗漏率;自适应清单评估(ACE)则针对开放性任务,动态生成包含方法论严谨性、技术准确性等维度的评价清单。这种设计既保证了客观性,又兼顾了研究任务的创造性特征。
实验结果显示,主流AI模型在真实研究场景中表现差异显著。O4-mini深度研究版在主观评估中获4.03分,展现较强综合能力;GPT-4.1虽事实精确性突出,但连贯性不足;Gemini-2.5-flash版本信息覆盖全面,却存在效率权衡问题。特别值得注意的是,所有模型在假设生成、跨学科方法设计等高阶任务中均暴露明显短板。
为确保评测公正性,研究团队设计了严格的数据泄露检测:将任务切割为提示和待续写部分,通过字符串相似度、TF-IDF余弦相似度及词汇重叠率的三重验证,确认所有模型未出现记忆化复现。人工评估对比实验进一步证明,自动评估系统与专家判断的Spearman相关系数达0.84,展现出高度一致性。
该研究揭示,当前AI在事实检索层面已具相当能力,但在创造性思维、跨领域整合等核心科研能力上仍有提升空间。例如Grok-4模型在英语任务中支持率达83.3%,中文任务却骤降至62.1%,凸显多语言泛化能力的局限。这种差异化的表现分析,为AI研究助手的优化方向提供了精准指引。
论文提出的评测方法已通过arXiv平台公开(编号2509.01396v1),其创新价值不仅在于技术实现,更在于构建了接近真实科研环境的评估框架。这种从"静态试题"到"动态研讨"的转变,或将推动AI从辅助工具向真正研究伙伴的演进。对于科研工作者而言,这意味着未来可能获得更智能的协作伙伴;对于AI开发者,则明确了算法改进的重点方向。
更多>同类资讯宇树科技王兴兴:人形机器人或年底至明年上半年可实时生成多样动作09-24阿里云AI战略重磅发布:3800亿投入迎ASI时代,十大核心要点解析09-24秘塔AI推出「Agentic Search」模式:边搜边做,20余种工具让想法秒变现实09-24雷军明日将迎健身百次打卡与年度演讲,小米17系列屏幕亮点抢先看09-24阿里吴泳铭云栖大会发声:3800亿资本开支再加码,剑指超级人工智能时代09-24阿里吴泳铭云栖发声:AGI仅是开篇,通往ASI三阶段路线及战略定位揭晓09-24Qwen3-Max数学满分领衔,Qwen3-VL等七大模型齐发,技术革新再升级09-24阿里云与英伟达强强联手,全面集成软件栈赋能物理AI全流程开发09-24周鸿祎:AGI短期难实现且藏风险,多智能体协同才是AI未来方向09-24周鸿祎罗永浩对谈:AI时代员工管理新思路,360战略聚焦智能体09-24阿里云栖大会重磅发布:7大模型升级,吴泳铭描绘AI未来蓝图09-24慧科讯业亮相华为HC大会,携手华为云共绘企业AI增效发展蓝图09-24阿里云与英伟达2025云栖大会“牵手”,共拓Physical AI领域新机遇09-24阿里All in AI后首份答卷亮相:大模型与基础设施双突破,资本市场点赞09-24阿里云栖大会重磅发布:3800亿AI基建计划,市值一日飙升近3000亿09-24点击查看更多 +全站最新
限量50台!梅赛德斯-迈巴赫V12 Edition官图亮相,24K金徽标配手工定制尽显奢华
宾利纯电动SUV谍照来袭,2026年发布,定位添越之下引期待
2026款沃尔沃EX90官图亮相:800V架构加持,双Orin芯片助力智能驾驶升级
东风日产新款天籁四季度上市,16-18万起售,鸿蒙座舱+2.0T引擎成亮点
Jeep大指挥官Trail Edition官图亮相 七座布局+2.0T柴油动力 限量150台仅售日本市场
兰博基尼汽车携手意大利海洋集团 全新Tecnomar 101FT游艇诠释海洋奢华新境热门内容
第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采
AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?
2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来
中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注
华为全联接大会2025启幕,发布全球最强算力超节点与集群
有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来
本文链接:http://www.28at.com/showinfo-45-28119-0.html上海AI实验室创新:借学术讲座打造AI研究助手评测新基准
声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。