大模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺难题提供新思路

“真题有限的情况下,学生可以通过做模拟题提高成绩,类似的逻辑在基础模型训练上也成立。”针对部分垂直领域基础模型训练中的高质量数据稀缺难题,复旦大学计算机科学技术学院颜波教授团队创新性地提出了一种实现数据高利用率的基础模型训练框架,利用可控生成式人工智能(AIGC)生成合成数据,并采用“真实数据+合成数据”的混合数据模式训练基础模型。依托该框架训练的医疗基础模型性能表现优秀。
日前,相关成果在《自然·生物医学工程》(Nature Biomedical Engineering)上,以题为《数据高效的高性能医学基础模型训练策略》(A data-efficient strategy for building high-performing medical foundation models)的论文发表。该策略利用生成式AI生成大规模合成数据集,从而扩展有限的真实预训练数据集,为解决数据稀缺难题提供了新思路。
基础模型是一种基于深度神经网络和自监督学习(SSL)技术,在大规模、广泛来源数据集上训练的AI模型。相较于只能完成特定任务的专用AI模型,基础模型的独特之处在于其强大的泛化能力。通过大规模数据预训练提取通用特征,垂直领域的基础模型可以完成各种不同下游任务。
然而,大规模高质量数据的获取面临挑战。以医疗为例,收集大规模真实数据集不仅成本高昂、耗时漫长,还具有隐私泄露风险。在恶性肿瘤诊断、工业焊缝瑕疵检测等数据稀缺场景,传统基础模型训练方法效果受限,难以推广。
在数据有限的情况下,如何开发基础模型?在AIGC领域深耕10余年,颜波团队将目光瞄准了AI合成数据,采用大量合成数据让模型学习,弥补现有真实数据的不足,实现让模型“训得好”。团队在少量公开的真实医学数据上微调可控生成式AI,整合特定疾病知识,并以疾病概念作为条件生成大规模合成医学数据集。医学基础模型先后在合成数据和有限真实数据上使用SSL技术预训练,以初始化模型参数并学习精确医学表征。最后,团队通过带明确标签的监督微调基础模型,使其适配特定任务。
数据高效的医学基础模型训练框架
如何确保合成数据在模型训练中的有效性?一方面,合成数据均基于真实数据标签生成,与真实数据特征非常接近;另一方面,团队在训练过程中引入条件混合增强,使数据特征更加多样。颜波用“做模拟题”比喻这一过程:
“真题是有限的,但我们可以根据真题编写更加灵活、多变的模拟题。让学生先做模拟题了解题型、再做真题,学生考试就能考得更好。脱胎于真实数据、具有丰富特征的合成数据可以增加数据集的多样性,基础模型也能‘见多识广’,从而提升性能。”
团队遵循该方法构建了首个基于合成数据的视网膜基础模型RETFound-DE,使用16.7%的真实数据即在多项疾病诊断任务中和《自然》杂志报道的RETFound模型[1]性能相当。使用20%真实数据构建的胸片X光基础模型CXRFM-DE同样展现了较好的性能和泛化能力,进一步验证了该训练框架的有效性。
除了智慧医疗之外,该创新基础模型训练方法为所有因数据限制而难以构建基础模型的领域提供了新的解决方案,目前已经在工业界瑕疵检测、监控异常分析、新材料设计、和船舶发动机智能制造等产业实际痛难点中得到初步应用。高质量数据缺乏问题是所有AI领域均面临的重要问题。颜波介绍,“在算法层面尝试解决小样本问题效果有限,在数据层面进行突破为这一问题提供了新思路。未来,这一理念将为智能制造、智慧医疗等各行各业提供支持。”
该研究还对推动合成数据的应用提供了启发。团队验证了合成数据在泛化能力、标注效率和训练效率上的价值,并详细探索了合成数据在均衡样本分布、合成数据量控制、克服数据偏差等方面的使用方式。尽管合成数据在AI基础模型训练中展现出巨大潜力,但需注意过度依赖合成数据可能影响泛化能力,并引入数据偏差,确保合成数据在AI模型训练中的正确使用,需要有效的验证和监管。
该工作由复旦大学计算机科学技术学院数字媒体实验室完成(https://dml.fudan.edu.cn/)。实验室博士生孙玉齐和青年研究员谭伟敏博士为该工作的共同第一作者,颜波教授为通讯作者,作者还包括实验室博士生何瑞安,硕士生谷卓遥、陈思源、庞淼。该研究工作得到国家自然科学基金委和上海市科委项目资助。
原文链接:https://www.nature.com/articles/s41551-025-01365-0
Code:https://github.com/Jonlysun/DERETFound
本文链接:http://knowith.com/news-3-2073.html大模型也“刷模拟题”?复旦AI4S团队为解决模型数据稀缺难题提供新思路
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
腊八节古诗
领款委托书
甄传的经典台词
年会主持人台词
营销公司工作计划
个人课题研究工作计划
公共卫生服务项目工作计划
初二语文教师下学期工作计划
法院授权委托书
特别授权代理委托书
一分钟到账 DY月付额度怎么提现 三个图文教程方法一看就会!
2025特效药印度伊马替尼多少钱一盒?印度伊马替尼价格公布:约680元一盒一瓶一个月,印度伊马替尼代购渠道一览国内yb价格详细介绍
有目共睹:商家教你哪个店铺可以套万事达卡(眼见为实)
奋发图强:羊小咩额度怎么套(10个方法教你套出来)
水滴石穿:靠谱的苹果id贷款,苹果id贷不给我密码怎么办
印度替莫唑胺(5粒)一盒价格一览表:售价440元!印度替莫唑胺代购渠道公开
烟台套京东白条当面变现具体步骤小白必学!
奋发有为:花呗额度怎么提现出现金来(分享三个操作步骤)
如登春台:青岛崂山区代还信用卡垫还,真实商户积分,需要的请联系
最新方法:(秒到)有什么app可以刷白条(百度精选教程)-知者