大模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺难题提供新思路

复旦大学
68次浏览

“真题有限的情况下,学生可以通过做模拟题提高成绩,类似的逻辑在基础模型训练上也成立。”针对部分垂直领域基础模型训练中的高质量数据稀缺难题,复旦大学计算机科学技术学院颜波教授团队创新性地提出了一种实现数据高利用率的基础模型训练框架,利用可控生成式人工智能(AIGC)生成合成数据,并采用“真实数据+合成数据”的混合数据模式训练基础模型。依托该框架训练的医疗基础模型性能表现优秀。UHs知多少教育网-记录每日最新科研教育资讯

日前,相关成果在《自然·生物医学工程》(Nature Biomedical Engineering)上,以题为《数据高效的高性能医学基础模型训练策略》(A data-efficient strategy for building high-performing medical foundation models)的论文发表。该策略利用生成式AI生成大规模合成数据集,从而扩展有限的真实预训练数据集,为解决数据稀缺难题提供了新思路。UHs知多少教育网-记录每日最新科研教育资讯

UHs知多少教育网-记录每日最新科研教育资讯

基础模型是一种基于深度神经网络和自监督学习(SSL)技术,在大规模、广泛来源数据集上训练的AI模型。相较于只能完成特定任务的专用AI模型,基础模型的独特之处在于其强大的泛化能力。通过大规模数据预训练提取通用特征,垂直领域的基础模型可以完成各种不同下游任务。UHs知多少教育网-记录每日最新科研教育资讯

然而,大规模高质量数据的获取面临挑战。以医疗为例,收集大规模真实数据集不仅成本高昂、耗时漫长,还具有隐私泄露风险。在恶性肿瘤诊断、工业焊缝瑕疵检测等数据稀缺场景,传统基础模型训练方法效果受限,难以推广。UHs知多少教育网-记录每日最新科研教育资讯

在数据有限的情况下,如何开发基础模型?在AIGC领域深耕10余年,颜波团队将目光瞄准了AI合成数据,采用大量合成数据让模型学习,弥补现有真实数据的不足,实现让模型“训得好”。团队在少量公开的真实医学数据上微调可控生成式AI,整合特定疾病知识,并以疾病概念作为条件生成大规模合成医学数据集。医学基础模型先后在合成数据和有限真实数据上使用SSL技术预训练,以初始化模型参数并学习精确医学表征。最后,团队通过带明确标签的监督微调基础模型,使其适配特定任务。UHs知多少教育网-记录每日最新科研教育资讯

UHs知多少教育网-记录每日最新科研教育资讯

数据高效的医学基础模型训练框架UHs知多少教育网-记录每日最新科研教育资讯

如何确保合成数据在模型训练中的有效性?一方面,合成数据均基于真实数据标签生成,与真实数据特征非常接近;另一方面,团队在训练过程中引入条件混合增强,使数据特征更加多样。颜波用“做模拟题”比喻这一过程:UHs知多少教育网-记录每日最新科研教育资讯

“真题是有限的,但我们可以根据真题编写更加灵活、多变的模拟题。让学生先做模拟题了解题型、再做真题,学生考试就能考得更好。脱胎于真实数据、具有丰富特征的合成数据可以增加数据集的多样性,基础模型也能‘见多识广’,从而提升性能。”UHs知多少教育网-记录每日最新科研教育资讯

团队遵循该方法构建了首个基于合成数据的视网膜基础模型RETFound-DE,使用16.7%的真实数据即在多项疾病诊断任务中和《自然》杂志报道的RETFound模型[1]性能相当。使用20%真实数据构建的胸片X光基础模型CXRFM-DE同样展现了较好的性能和泛化能力,进一步验证了该训练框架的有效性。UHs知多少教育网-记录每日最新科研教育资讯

除了智慧医疗之外,该创新基础模型训练方法为所有因数据限制而难以构建基础模型的领域提供了新的解决方案,目前已经在工业界瑕疵检测、监控异常分析、新材料设计、和船舶发动机智能制造等产业实际痛难点中得到初步应用。高质量数据缺乏问题是所有AI领域均面临的重要问题。颜波介绍,“在算法层面尝试解决小样本问题效果有限,在数据层面进行突破为这一问题提供了新思路。未来,这一理念将为智能制造、智慧医疗等各行各业提供支持。”UHs知多少教育网-记录每日最新科研教育资讯

该研究还对推动合成数据的应用提供了启发。团队验证了合成数据在泛化能力、标注效率和训练效率上的价值,并详细探索了合成数据在均衡样本分布、合成数据量控制、克服数据偏差等方面的使用方式。尽管合成数据在AI基础模型训练中展现出巨大潜力,但需注意过度依赖合成数据可能影响泛化能力,并引入数据偏差,确保合成数据在AI模型训练中的正确使用,需要有效的验证和监管。UHs知多少教育网-记录每日最新科研教育资讯

该工作由复旦大学计算机科学技术学院数字媒体实验室完成(https://dml.fudan.edu.cn/)。实验室博士生孙玉齐和青年研究员谭伟敏博士为该工作的共同第一作者,颜波教授为通讯作者,作者还包括实验室博士生何瑞安,硕士生谷卓遥、陈思源、庞淼。该研究工作得到国家自然科学基金委和上海市科委项目资助。UHs知多少教育网-记录每日最新科研教育资讯

原文链接:https://www.nature.com/articles/s41551-025-01365-0UHs知多少教育网-记录每日最新科研教育资讯

Code:https://github.com/Jonlysun/DERETFoundUHs知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-2073.html大模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺难题提供新思路

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

2024年新高考选科要求 山东2024年高考选科要求
最近经常有小伙伴私信询问2024年新高考选科要求 山东2024年高考选科要求相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 2024年新高考选科要求如下: 教育部要求同一高校相
2024广东高考选科要求 广东高考填志愿时间和截止时间2023
今天小编为大家带来了2024广东高考选科要求 广东高考填志愿时间和截止时间2023,希望能帮助到大家,一起来看看吧! 2024年广东高考招生选科要求如下: 一、物理类考生专业可选择范围更大
贵州省高考体检时间2023年 2023贵州高考体检时间
小编给大家带来了贵州省高考体检时间2023年 2023贵州高考体检时间相关文章,一起来看一下吧。 2023年贵州省高考体检时间2023年2月28日至3月15日等。 2023贵州高考体检时间不同地区有所
广东春季高考280算低分吗
广东春季高考280算低分吗很多朋友对这方面很关心,整理了相关文章,供大家参考,一起来看一下吧! 春季高考广东省普通类文化科总分为170分,体育类文化科总分为170分、术科为175分,音乐类文化科总分为
山东2024年艺考时间表(山东24届舞蹈艺考时间)
今天小编整理了山东2024年艺考时间表(山东24届舞蹈艺考时间)相关信息,希望在这方面能够更好帮助到大家。 山东艺考:美术与设计类、书法类、音乐类、表(导)演类的笔试科目考试时间为2023年12月16日
大连春季高考专升本分数线 辽宁专升本各校录取分数线
今天小编整理了大连春季高考专升本分数线 辽宁专升本各校录取分数线相关信息,希望在这方面能够更好帮助到大家。 大连海洋大学专升本录取分数线388分。 大连海洋大学是我国北方地区唯一

热点精选

最新推荐

您可能感兴趣