中国科大大模型并行训练系统研究成果荣获IEEEICCD2025唯一最佳论文奖

中国科学技术大学
3次浏览

近日,在美国达拉斯举行的第43届IEEE国际计算机设计会议(IEEE International Conference on Computer Design, ICCD 2025)上,我校计算机科学与技术学院与新加坡国立大学、阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)、山西大学以及合肥综合性国家科学中心人工智能研究院合作发表的论文《DHeLlam: General-Purpose, Automatic Micro-batch Co-execution for Distributed LLM Training》荣获大会“唯一最佳论文奖”(Best Paper Award)。AmQ知多少教育网-记录每日最新科研教育资讯

AmQ知多少教育网-记录每日最新科研教育资讯

随着大语言模型参数量不断增加,分布式训练效率面临前所未有的挑战。尽管现有训练框架已在计算层面高度优化,但在实际部署中,通信瓶颈仍严重制约了GPU浮点运算资源的利用率。针对这一关键问题,研究团队受DNA双螺旋结构启发,创新性地提出双流并行叠加系统——DHeLlam。DHeLlam的核心在于其“链式交织”机制:将单个GPU上连续处理的训练微批次视为两条交织的数据链,并通过算子级重叠分析与动态规划搜索,自动地协同调度前向传播与反向传播过程。该方法首次在无需复制模型参数的前提下,实现了两个微批次的高效并行执行,有效掩盖了高昂的通信开销。尤为突出的是,DHeLlam具备卓越的通用兼容性,可无缝集成至各类主流并行策略中,包括数据并行、张量模型并行、上下文并行,乃至复杂的流水线并行,显著提升分布式LLM训练的整体效率。为业界大规模的LLM训练提供了一种更加通用、高效的通信优化方法。AmQ知多少教育网-记录每日最新科研教育资讯

ICCD是由国际电气与电子工程师协会(IEEE)主办的权威国际学术会议,也是中国计算机学会(CCF)推荐的B类国际会议,拥有悠久的创办历史与深厚的学术积淀。多年来,该会议始终聚焦于计算机体系结构、硬件加速技术以及系统软件等关键交叉领域,是全球相关研究方向的重要交流平台与风向标。AmQ知多少教育网-记录每日最新科研教育资讯

本论文第一作者为中国科学技术大学博士研究生王海权与新加坡国立大学博士后阮超逸(共同一作),通讯作者为中国科学技术大学李诚副教授。其他作者包括MBZUAI马晓松教授、中国科大博士生贺嘉、硕士生阮家齐,以及山西大学硕士生唐承捷。该研究得到了科技部重点研发计划子课题、安徽省高校协同创新项目等经费支持。合肥综合性国家科学中心人工智能研究院信息计算平台为系统研发与原型测试提供了智能算力支持。AmQ知多少教育网-记录每日最新科研教育资讯

获奖论文及相关信息已发布于ICCD 2025官方网站:AmQ知多少教育网-记录每日最新科研教育资讯

https://www.iccd-conf.com/home.html AmQ知多少教育网-记录每日最新科研教育资讯

(计算机科学与技术学院、科研部)AmQ知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-1-13349.html中国科大大模型并行训练系统研究成果荣获IEEEICCD2025唯一最佳论文奖

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

热点精选

最新推荐

您可能感兴趣