防止聊天机器人“造谣”,谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具
2024-04-02 17:06:18 AI 132观看
摘要 3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。图

3 月 31 日消息,无论当下 AI 聊天机器人有多么强大,都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式,向用户提供与事实不符的回答。简单来说,AI 有时会在回答中“满口跑火车”,甚至“造谣”。5XE28资讯网——每日最新资讯28at.com

5XE28资讯网——每日最新资讯28at.com

图源 Pixabay

防止 AI 大模型出现这种行为并非易事,且是一项技术性的挑战。不过据外媒 Marktechpost 报道,谷歌 DeepMind 和斯坦福大学似乎找到了某种变通办法。5XE28资讯网——每日最新资讯28at.com

研究人员推出了一种基于大语言模型的工具 —— 搜索增强事实评估器(注:原名为 Search-Augmented Factuality Evaluator,简称 SAFE),可对聊天机器人生成的长回复进行事实核查。其研究结果与实验代码、数据集现已公布,点此查看5XE28资讯网——每日最新资讯28at.com

该系统可通过四个步骤对聊天机器人生成的回复进行分析、处理和评估,以验证准确性和真实性:将答案分割成单个待核查内容、对上述内容进行修正、再与谷歌搜索结果进行比较。随后,该系统还会检查各个事实与原始问题的相关性。5XE28资讯网——每日最新资讯28at.com

为评估其性能,研究人员创建了包含约 16000 个事实的数据集 LongFact,并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大语言模型上测试了该系统。结果显示,在对 100 个有争议的事实进行的重点分析中,SAFE 的判定在进一步审查下正确率达到 76% 。与此同时,该框架还具备经济性优势:成本比人工注释便宜 20 多倍。5XE28资讯网——每日最新资讯28at.com

5XE28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-3785-0.html防止聊天机器人“造谣”,谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:保时捷逐步淘汰燃油跑车,纯电动718呼之欲出

下一篇:Databricks 推出 1320 亿参数大语言模型 DBRX,号称“现阶段最强开源 AI”

最新热点