《自然》封面:以AI生成数据训练AI,模型变傻?

中国科学报
387次浏览

 pja知多少教育网-记录每日最新科研教育资讯

大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——pja知多少教育网-记录每日最新科研教育资讯

近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”,彰显出使用可靠数据训练AI模型的重要性。pja知多少教育网-记录每日最新科研教育资讯

该论文被放在《自然》封面介绍,配图为“Garbage Out”(垃圾出)。图源:Nature

  ?pja知多少教育网-记录每日最新科研教育资讯


pja知多少教育网-记录每日最新科研教育资讯

研究团队给出一个例子。他们测试了Meta的OPT-125m模型,询问了关于中世纪建筑的相关信息,并且每一次微调都是由上一次生成的数据来训练。结果,前面几轮的回答还算过关,但随着生成内容的迭代,模型逐渐语无伦次;到第九次,模型居然开始“胡说八道”,回答从讨论建筑跳跃到一串“野兔”的名字……pja知多少教育网-记录每日最新科研教育资讯

该论文主要作者表示,他们曾考虑过合成数据可能对大模型造成误差,但未曾预料到模型的恶化速度会如此迅速。pja知多少教育网-记录每日最新科研教育资讯

对此,研究团队专门定义了“模型崩溃”:模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。同时,研究团队还分析了导致大模型同原始模型发生偏离的三个误差原因。pja知多少教育网-记录每日最新科研教育资讯

经过理论分析,研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃似乎是一个不可避免的结局。作者团队认为,用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。pja知多少教育网-记录每日最新科研教育资讯

这一研究给AI训练敲响了警钟。当下,大语言模型等生成式AI工具越来越受欢迎,这些模型工具主要使用人类生成的数据进行训练。然而,随着这些AI模型工具被大量使用,它们生成的内容会逐渐充斥于互联网,未来计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。pja知多少教育网-记录每日最新科研教育资讯

不过,也有业内人士认为,这项研究的逻辑有些问题,毕竟“训练一个失败的模型要比训练成功一个模型要容易得多”。该观点指出,训练AI模型过程中除了对数据的选择之外,还有强化学习、模型精调等必要方法;即便是使用AI合成数据,基本上也都有各种生成方式的设计和严格的筛选。pja知多少教育网-记录每日最新科研教育资讯

“要训练好AI不容易,但要让它崩溃,那我有一万种办法。”该观点指出。pja知多少教育网-记录每日最新科研教育资讯

无独有偶,美国斯坦福大学也有人工智能研究人员发表论文中研究了模型崩溃的问题。在这项工作的研究者看来,将合成数据添加到现实世界数据中而不是替换它,并不会引起任何重大问题。但该作者补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”pja知多少教育网-记录每日最新科研教育资讯

相关论文信息:pja知多少教育网-记录每日最新科研教育资讯

https://www.nature.com/articles/s41586-024-07566-ypja知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-633.html《自然》封面:以AI生成数据训练AI,模型变傻?

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

春季高考的分数线是多少
2022年广东3+专业技能证书录取春季高考最低分数线: 广东科学技术职业学院:最低录取分数为310分。 专业号 专业名称 最高分 最低分 3+证书 401 计算机类 363 300 402 电子商务 354 282 403 物流
镇江专科学校有哪些
今天小编为大家带来了镇江专科学校有哪些,希望能帮助到大家,一起来看看吧! 镇江市高等专科学校等。通过镇江教育官网得知,镇江共有4所专科院校,名单分别为镇江市高等专科学校、江苏农林职业技术学院、
山东联考(2024山东艺考准考证打印时间)
最近经常有小伙伴私信询问山东联考(2024山东艺考准考证打印时间)相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 山东联考:2024届山东美术联考12月17日开考! 一、联考
吉林省有哪些专升本的学校
吉林省有哪些专升本的学校相关内容,小编在这里做了整理,希望能对大家有所帮助,关于吉林省有哪些专升本的学校信息,一起来了解一下吧! 1,长春财经学院 长春财经学院(Changchun University Of Financ
辽宁省民办大专学校有哪些
小编给大家带来了辽宁省民办大专学校有哪些相关文章,一起来看一下吧。 一、2020年大连比较好的大专院校有哪些 序号 学校名称 主管部门 所在地 办学层次 备注 1 大连职业技术学院 辽宁省 大连市
阿拉善职业技术学院在哪里 附准确地址
今天小编整理了阿拉善职业技术学院在哪里 附准确地址相关信息,希望在这方面能够更好帮助到大家。 一、阿拉善职业技术学院在哪里 阿拉善职业技术学院地址在内蒙古阿拉善盟阿拉善左旗巴彦浩特

热点精选

最新推荐

您可能感兴趣