上海AI实验室创新:借学术讲座打造AI研究助手评测新基准
2025-09-25 15:04:41 AI 316观看
摘要随着人工智能技术在科研领域的渗透,如何科学评估AI研究助手的能力成为学界关注的核心问题。上海人工智能实验室联合清华大学、香港科技大学(广州)及牛津大学等机构,通过创新性的学术讲座场景评测方法,构建了名为DeepResear

随着人工智能技术在科研领域的渗透,如何科学评估AI研究助手的能力成为学界关注的核心问题。上海人工智能实验室联合清华大学、香港科技大学(广州)及牛津大学等机构,通过创新性的学术讲座场景评测方法,构建了名为DeepResearch Arena的评测体系,为AI研究能力评估提供了全新范式。OkP28资讯网——每日最新资讯28at.com

传统评测方式存在明显缺陷:基于文献的问题可能被AI提前"记忆",人工设计题目则面临覆盖面不足的困境。研究团队发现,学术讲座中自然产生的开放性问题更能反映真实科研过程。这类场景中,研究者会实时提出未解决的疑问、探讨跨学科可能性,这种动态的思维碰撞过程未被纳入现有AI训练数据,有效避免了数据泄露风险。OkP28资讯网——每日最新资讯28at.com

核心突破在于MAHTG(多智能体分层任务生成)系统的开发。该系统通过四重筛选标准——新颖性、可探索性、挑战性和可验证性,从讲座转录文本中精准提取研究灵感。例如,当教授讨论算法处理大规模数据的瓶颈时,系统会将其归类为"局限性"类型,并生成改进算法的具体任务。这种分类机制确保生成的任务覆盖文献综述、方法设计、实验评估等完整研究链条。OkP28资讯网——每日最新资讯28at.com

研究团队收集了12个学科领域的200余场讲座录音,通过MAHTG系统生成超万个研究任务,构建了迄今最大规模的跨学科评测数据集。在任务生成环节,系统采用Elo评分机制进行质量排序:初始设定1200分基础值,通过原创性、清晰度等指标的多轮比对,最终筛选出最高质量的评测任务。OkP28资讯网——每日最新资讯28at.com

评估体系创新性地采用双维度框架:关键点对齐评估(KAE)通过比对AI引用资料与回答内容,计算支持率、冲突率和遗漏率;自适应清单评估(ACE)则针对开放性任务,动态生成包含方法论严谨性、技术准确性等维度的评价清单。这种设计既保证了客观性,又兼顾了研究任务的创造性特征。OkP28资讯网——每日最新资讯28at.com

实验结果显示,主流AI模型在真实研究场景中表现差异显著。O4-mini深度研究版在主观评估中获4.03分,展现较强综合能力;GPT-4.1虽事实精确性突出,但连贯性不足;Gemini-2.5-flash版本信息覆盖全面,却存在效率权衡问题。特别值得注意的是,所有模型在假设生成、跨学科方法设计等高阶任务中均暴露明显短板。OkP28资讯网——每日最新资讯28at.com

为确保评测公正性,研究团队设计了严格的数据泄露检测:将任务切割为提示和待续写部分,通过字符串相似度、TF-IDF余弦相似度及词汇重叠率的三重验证,确认所有模型未出现记忆化复现。人工评估对比实验进一步证明,自动评估系统与专家判断的Spearman相关系数达0.84,展现出高度一致性。OkP28资讯网——每日最新资讯28at.com

该研究揭示,当前AI在事实检索层面已具相当能力,但在创造性思维、跨领域整合等核心科研能力上仍有提升空间。例如Grok-4模型在英语任务中支持率达83.3%,中文任务却骤降至62.1%,凸显多语言泛化能力的局限。这种差异化的表现分析,为AI研究助手的优化方向提供了精准指引。OkP28资讯网——每日最新资讯28at.com

论文提出的评测方法已通过arXiv平台公开(编号2509.01396v1),其创新价值不仅在于技术实现,更在于构建了接近真实科研环境的评估框架。这种从"静态试题"到"动态研讨"的转变,或将推动AI从辅助工具向真正研究伙伴的演进。对于科研工作者而言,这意味着未来可能获得更智能的协作伙伴;对于AI开发者,则明确了算法改进的重点方向。OkP28资讯网——每日最新资讯28at.com

   更多>同类资讯宇树科技王兴兴:人形机器人或年底至明年上半年可实时生成多样动作09-24阿里云AI战略重磅发布:3800亿投入迎ASI时代,十大核心要点解析09-24秘塔AI推出「Agentic Search」模式:边搜边做,20余种工具让想法秒变现实09-24雷军明日将迎健身百次打卡与年度演讲,小米17系列屏幕亮点抢先看09-24​阿里吴泳铭云栖大会发声:3800亿资本开支再加码,剑指超级人工智能时代​09-24阿里吴泳铭云栖发声:AGI仅是开篇,通往ASI三阶段路线及战略定位揭晓09-24Qwen3-Max数学满分领衔,Qwen3-VL等七大模型齐发,技术革新再升级09-24阿里云与英伟达强强联手,全面集成软件栈赋能物理AI全流程开发09-24周鸿祎:AGI短期难实现且藏风险,多智能体协同才是AI未来方向09-24周鸿祎罗永浩对谈:AI时代员工管理新思路,360战略聚焦智能体09-24阿里云栖大会重磅发布:7大模型升级,吴泳铭描绘AI未来蓝图09-24慧科讯业亮相华为HC大会,携手华为云共绘企业AI增效发展蓝图09-24阿里云与英伟达2025云栖大会“牵手”,共拓Physical AI领域新机遇09-24阿里All in AI后首份答卷亮相:大模型与基础设施双突破,资本市场点赞09-24阿里云栖大会重磅发布:3800亿AI基建计划,市值一日飙升近3000亿09-24点击查看更多 +全站最新限量50台!梅赛德斯-迈巴赫V12 Edition官图亮相,24K金徽标配手工定制尽显奢华限量50台!梅赛德斯-迈巴赫V12 Edition官图亮相,24K金徽标配手工定制尽显奢华宾利纯电动SUV谍照来袭,2026年发布,定位添越之下引期待宾利纯电动SUV谍照来袭,2026年发布,定位添越之下引期待2026款沃尔沃EX90官图亮相:800V架构加持,双Orin芯片助力智能驾驶升级2026款沃尔沃EX90官图亮相:800V架构加持,双Orin芯片助力智能驾驶升级东风日产新款天籁四季度上市,16-18万起售,鸿蒙座舱+2.0T引擎成亮点东风日产新款天籁四季度上市,16-18万起售,鸿蒙座舱+2.0T引擎成亮点​Jeep大指挥官Trail Edition官图亮相 七座布局+2.0T柴油动力 限量150台仅售日本市场​​Jeep大指挥官Trail Edition官图亮相 七座布局+2.0T柴油动力 限量150台仅售日本市场​兰博基尼汽车携手意大利海洋集团 全新Tecnomar 101FT游艇诠释海洋奢华新境兰博基尼汽车携手意大利海洋集团 全新Tecnomar 101FT游艇诠释海洋奢华新境热门内容
  • 寒武纪回应订单不实传闻:产品多行业部署,存货增长因云端备货
  • 热度攀升!千亿科技龙头频获机构调研,业务增长透露哪些行业新动向?
  • 苹果加速AI布局,或收购两家法国AI初创企业
  • 苹果秋季发布会亮相iPhone 17系列:"史上最薄"Air登场,Pro Max 2TB版定价17999元
  • 苹果加速布局中国市场!Apple Intelligence和新版Siri或年底至明年上线
  • ​小米16系列或提前登场,首发骁龙8 Elite Gen5,9月机圈大战一触即发​
  • 均胜电子新品亮相:AI头部总成、全域控制器等完善机器人产品矩阵
  • 国金证券:A股第三轮重估脚步临近,三类资产投资方向值得关注
  • 苹果AI布局加速,或将斥巨资收购欧洲两大AI初创企业
  • 18岁涂津豪:从DeepSeek实习生到Nature封面作者,以少年之力叩响AI新章
  • WAVE SUMMIT大会新动态:文心大模型X1.1上线,多项能力显著跃升
  • 华为智能手表登顶全球,苹果需直面挑战求变革
  • ‍字节跳动千人芯片团队架构调整,转至新加坡子公司Picoheart引关注‍
  • 华为Mate系列2025年选购指南:三款高性价比机型技术解析与场景适配
  • ${亚马逊发布"2025产品创新出海品牌五十强":出口跨境电商规模达2.15万亿
本栏最新第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采第22届东博会AI元素亮眼:数字智能体引路 机器人炫技展风采AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?AI云竞争下半场:华为以超节点、企业Agent等破局,谁能领跑产业?2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来2025网安周:每日互动刘宇谈AI时代,知识安全成关键,共筑数字新未来中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注中国大模型DeepSeek首登Nature封面,R1训练成本仅约208万引关注华为全联接大会2025启幕,发布全球最强算力超节点与集群华为全联接大会2025启幕,发布全球最强算力超节点与集群有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来有鹿机器人+连合直租:以智能租赁模式,开启高端场景清洁新未来

本文链接:http://www.28at.com/showinfo-45-28119-0.html上海AI实验室创新:借学术讲座打造AI研究助手评测新基准

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:沙特研究新突破:AI推理能力可"提取转移",智能升级迎新路径

下一篇:LeCun 团队开源首款代码世界模型,能像程序员一样思考的 LLM 来了

最新热点