AI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?
2025-01-30 18:47:03 AI 43观看
摘要在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯

在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯源计划(DPI)的国际性研究团队应运而生。JYi28资讯网——每日最新资讯28at.com

Longpre强调,对于基座模型的能力而言,互联网的规模和数据的异构性至关重要。对规模的需求也促进了合成数据的大量使用。除了语言模型外,近年来多模态生成式AI(GenAI)也迅速崛起,如图像和视频生成模型。这些模型同样需要尽可能多的数据,而视频模型的语音和图像数据集中,超过70%的数据都来自YouTube。这一现象对拥有YouTube平台的谷歌及其母公司Alphabet极为有利,因为文本数据分布在整个互联网上,由许多不同的网站和平台控制,但视频数据的权力却如此集中地掌握在一家公司手中。JYi28资讯网——每日最新资讯28at.com

AI Now Institute联合执行董事Sarah Myers West对此表示担忧,她认为谷歌在开发自己的人工智能模型(如Gemini)方面具有巨大优势,这引发了人们对其如何向竞争对手提供数据的疑问。更深层次的问题是,如果我们所交互的大多数AI数据集都反映了以利润为导向的科技巨头的意图和设计,那么这些大公司可能会以符合自己利益的方式重塑我们世界的基础设施。JYi28资讯网——每日最新资讯28at.com

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难做出正确的数据选择,也无法保证模型训练过程中没有使用过受版权保护的数据。最近,OpenAI、Google等公司与出版商、Reddit等主要论坛以及网络社交媒体平台达成了独家数据共享协议,这进一步加剧了数据垄断的趋势。这一趋势有利于AI领域的最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界研究人员、非营利组织和小公司的利益。JYi28资讯网——每日最新资讯28at.com

更令人担忧的是,用于训练AI模型的数据严重偏向西方世界。DPI团队分析的数据集中,超过90%来自欧洲和北美,而非洲的数据占比不到4%。Hugging Face首席伦理学家Giada Pistilli指出,英语在训练数据中占据主导地位的原因之一是互联网中90%以上的内容仍然是英语;另一个原因是便利性:将其他语言的数据集放在一起并考虑其他文化需要进行更多的数据工作以及开发人员的有意识意图。这导致多模态模型的输出往往以西方文化为焦点,例如当提示AI模型生成婚礼的景象和声音时,可能只能得到西式婚礼相关的内容。JYi28资讯网——每日最新资讯28at.com

数据集代表了人类社会中的偏见,而经过这些数据训练的模型又加剧了这些偏见。这可能导致AI模型推动一种以美国为中心的世界观,同时不经意间抹去其他语言和文化。为了解决这个问题,DPI团队呼吁加强数据收集方面的规范化进程,提高数据透明度和多样性,以确保AI技术的公平性和可持续性发展。JYi28资讯网——每日最新资讯28at.com

举报 0收藏 0打赏 0评论 0
 
 
更多>同类资讯
点击查看更多 +
全站最新
2025年春节档电影市场火爆,总票房已超30亿!
2025年春节档电影市场火爆,总票房已超30亿!
春节假期自驾,这些食物可能让你“被酒驾”?
春节假期自驾,这些食物可能让你“被酒驾”?
特斯拉2024财报揭晓:全年交付破178万辆,营收增势放缓股价波动大
特斯拉2024财报揭晓:全年交付破178万辆,营收增势放缓股价波动大
雷克萨斯LS系列将变革?七座混动SUV或成新领航者
雷克萨斯LS系列将变革?七座混动SUV或成新领航者
通用汽车2024财报:营收攀升9%,净利润却大幅下滑40%?
通用汽车2024财报:营收攀升9%,净利润却大幅下滑40%?
通用汽车2024财报亮点:营收增9%净利跌40%,中国市场盈利转正
通用汽车2024财报亮点:营收增9%净利跌40%,中国市场盈利转正
热门内容
  • DeepSeek两日连崩,官方回应:技术服务稳定性受多重因素挑战
  • 三星Galaxy S25系列真机曝光,明日发布会将有何惊喜?
  • DeepSeek故障再现,用户对话受阻,官方尚未回应
  • 梁文峰:从对冲基金经理到DeepSeek创始人,如何改写AI版图?
  • DeepSeek走红全球,高薪招聘实习生,日薪最高可达千元!
  • DeepSeek凌晨发布Janus-Pro,多模态大模型性能超越OpenAI DALL-E 3
  • DeepSeek深夜发布Janus-Pro,性能超越OpenAI DALL-E 3引关注
  • 支付宝集五福新升级,2025年1月20日活动盛大启幕!
  • 三星Galaxy S25系列评测:AI大升级,Ultra版全面领跑
  • 扫地机器人进化新形态,追觅机械手引领家庭服务智能革命
  • 2025杰出雇主榜单发布:企业如何应对市场挑战,人才战略是关键
  • CES 2025:Aria机器人亮相,高度拟人可换脸,专为陪伴而生
  • 三星S25系列发布会前瞻:手机迭代温和,OneUI 7与AI硬件成亮点?
  • DeepSeek团队揭秘:清北应届生领衔,年轻力量如何撑起AI大模型新篇章?
  • 英伟达CES发布Project Digits:3000美元迷你AI超算实拍亮相
本栏最新
扎克伯格:Meta押注开源,AI助手今年望破10亿用户大关
扎克伯格:Meta押注开源,AI助手今年望破10亿用户大关
微软AI投资大增云营收却放缓,股价盘后大幅波动引关注
微软AI投资大增云营收却放缓,股价盘后大幅波动引关注
DeepSeek背后商业网络揭秘:梁文锋关联15家企业,商标申请竞争激烈
DeepSeek背后商业网络揭秘:梁文锋关联15家企业,商标申请竞争激烈
消息称软银拟 250 亿美元入股 OpenAI,成 ChatGPT制造商最大金主
消息称软银拟 250 亿美元入股 OpenAI,成 ChatGPT制造商最大金主
DeepSeek服务频现异常,遭海外大规模攻击引发关注!
DeepSeek服务频现异常,遭海外大规模攻击引发关注!
微软Q2财报亮眼,智能云及Azure增长未达预期股价下挫
微软Q2财报亮眼,智能云及Azure增长未达预期股价下挫

本文链接:http://www.28at.com/showinfo-45-10319-0.htmlAI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?

声明:本网页内容旨在传播知识,不代表本站观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

显示全文

上一篇:DeepSeek能否引领国产AI新篇章,还是仅为市场一瞬光芒?

下一篇:Meta财报电话会:AI助手成未来亮点,广告收入持续增长

最新热点