《自然》封面:以AI生成数据训练AI,模型变傻?

中国科学报
293次浏览

 yXt知多少教育网-记录每日最新科研教育资讯

大模型有许多“崩”的时候,但有一种崩溃叫做“自毁前程”——yXt知多少教育网-记录每日最新科研教育资讯

近日,《自然》发表在封面的一篇论文指出,用AI生成的数据集训练未来几代机器学习模型,可能会“污染”它们的输出。这项由英国牛津大学、剑桥大学、帝国理工学院、加拿大多伦多大学等多所高校联合开展的研究显示,原始内容会在数代内变成不相关的“胡言乱语”,彰显出使用可靠数据训练AI模型的重要性。yXt知多少教育网-记录每日最新科研教育资讯

该论文被放在《自然》封面介绍,配图为“Garbage Out”(垃圾出)。图源:Nature

  ?yXt知多少教育网-记录每日最新科研教育资讯


yXt知多少教育网-记录每日最新科研教育资讯

研究团队给出一个例子。他们测试了Meta的OPT-125m模型,询问了关于中世纪建筑的相关信息,并且每一次微调都是由上一次生成的数据来训练。结果,前面几轮的回答还算过关,但随着生成内容的迭代,模型逐渐语无伦次;到第九次,模型居然开始“胡说八道”,回答从讨论建筑跳跃到一串“野兔”的名字……yXt知多少教育网-记录每日最新科研教育资讯

该论文主要作者表示,他们曾考虑过合成数据可能对大模型造成误差,但未曾预料到模型的恶化速度会如此迅速。yXt知多少教育网-记录每日最新科研教育资讯

对此,研究团队专门定义了“模型崩溃”:模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。同时,研究团队还分析了导致大模型同原始模型发生偏离的三个误差原因。yXt知多少教育网-记录每日最新科研教育资讯

经过理论分析,研究人员指出,对于使用前几代生成的训练数据集的AI模型来说,模型崩溃似乎是一个不可避免的结局。作者团队认为,用AI生成数据训练一个模型并非不可能,但必须对数据进行严格过滤。与此同时,依赖人类生成内容的科技公司或许能比竞争对手训练出更高效的AI模型。yXt知多少教育网-记录每日最新科研教育资讯

这一研究给AI训练敲响了警钟。当下,大语言模型等生成式AI工具越来越受欢迎,这些模型工具主要使用人类生成的数据进行训练。然而,随着这些AI模型工具被大量使用,它们生成的内容会逐渐充斥于互联网,未来计算机生成内容可能会以递归循环的形式被用于训练其他AI模型或其自身。yXt知多少教育网-记录每日最新科研教育资讯

不过,也有业内人士认为,这项研究的逻辑有些问题,毕竟“训练一个失败的模型要比训练成功一个模型要容易得多”。该观点指出,训练AI模型过程中除了对数据的选择之外,还有强化学习、模型精调等必要方法;即便是使用AI合成数据,基本上也都有各种生成方式的设计和严格的筛选。yXt知多少教育网-记录每日最新科研教育资讯

“要训练好AI不容易,但要让它崩溃,那我有一万种办法。”该观点指出。yXt知多少教育网-记录每日最新科研教育资讯

无独有偶,美国斯坦福大学也有人工智能研究人员发表论文中研究了模型崩溃的问题。在这项工作的研究者看来,将合成数据添加到现实世界数据中而不是替换它,并不会引起任何重大问题。但该作者补充道:“所有关于模型崩溃的研究都得出一个结论,那就是高质量且多样化的训练数据至关重要。”yXt知多少教育网-记录每日最新科研教育资讯

相关论文信息:yXt知多少教育网-记录每日最新科研教育资讯

https://www.nature.com/articles/s41586-024-07566-yyXt知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-633.html《自然》封面:以AI生成数据训练AI,模型变傻?

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

关于创新的作文1000字高中 文化传承与创新的800字高考作文
小编今天整理了一些关于创新的作文1000字高中 文化传承与创新的800字高考作文相关内容,希望能够帮到大家。 选择·创造·未来高考满分作文(10篇) 每年高考,希望每个考生都发挥正常,都考出理想的
江西明年是新高考一卷吗
最近经常有小伙伴私信询问江西明年是新高考一卷吗相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 江西明年不是新高考一卷。明年是2024年,根据查询江西教育局官网显示,江西2024是新高
中戏复试成绩出炉,时代少年团三人参加,他们的成绩和排名情况如何?
今天小编为大家带来了中戏复试成绩出炉,时代少年团三人参加,他们的成绩和排名情况如何?,希望能帮助到大家,一起来看看吧! 马嘉祺表演专业排名第3。 宋亚轩表演专业排名第11。 贺峻霖选择的并非
2023年书法艺考分数线 2024年江西美术联考人数
今天小编整理了2023年书法艺考分数线 2024年江西美术联考人数相关内容,希望能帮助到大家,一起来看下吧。 2024年高考书法艺考政策相关内容如下: 1、一般来说,高考书法艺考政策是由各省或院
2024美术高考一模 2024年高考一模时间
2024美术高考一模 2024年高考一模时间很多朋友对这方面很关心,整理了相关文章,供大家参考,一起来看一下吧! 2024年美院校考时间初试时间定于:1月29日-31日,也就是除夕前10天,复试时间预计定在:2月14
营口职业技术学院有什么专业,营口职业技术学院招生专业设置情况
今天小编为大家带来了营口职业技术学院有什么专业,营口职业技术学院招生专业设置情况,希望能帮助到大家,一起来看看吧! 营口职业技术学院有供用电技术、建筑工程技术、工程造价、房地产经营与管理、

热点精选

最新推荐

您可能感兴趣