车辆学院团队在强化学习领域取得重要进展

清华大学
158次浏览

清华新闻网5月19日电 近日,清华大学车辆与运载学院李克强院士、李升波教授团队在强化学习算法设计领域取得重要进展。团队针对工业对象的智能决策与控制需求,推出了DSAC(Distributional Soft Actor Critic)系列强化学习算法,解决了已有方法值函数学习不准、策略性能低下的难题,并于典型基准测试任务中取得了国际领先的SOTA性能。第一代DSAC算法发表于《IEEE神经网络与学习系统汇刊》(IEEE Transactions on Neural Networks and Learning Systems(2022),第二代发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence(2025)。KBu知多少教育网-记录每日最新科研教育资讯

强化学习在具身智能控制(如自动驾驶、机器人等)任务中展现出巨大潜力,但主流方法长期面临“值函数过估计”难题。简而言之,贝尔曼方程的迭代求解过程中,因为最大化算子的存在,易造成值函数(即性能衡量指标)误差向单一方向持续累积,导致策略学习严重偏离最优解。该问题最早在1993年由斯坦福大学的学者从算法实验中发现,进入深度强化学习阶段之后,因神经网络拟合速度慢以及固有训练误差的存在,导致过估计问题更加严峻。自2010年开始,Deepmind、麦吉尔大学的科学家先后提出了Double Q-learning、Clipped Double-Q等一系列措施,尝试使用双函数互相矫正的思想解决单一函数的计算误差。这些措施虽然在一定程度上抑制了值函数的过估计问题,但是对于高维非线性任务,仍面临值函数学习不准、策略性能低下的瓶颈难题。KBu知多少教育网-记录每日最新科研教育资讯

KBu知多少教育网-记录每日最新科研教育资讯

图1.DSAC算法核心架构和关键技术KBu知多少教育网-记录每日最新科研教育资讯

自2019年开始,车辆学院研究团队聚焦“如何提高强化学习算法性能”这一问题开展攻关。首次发现了值分布函数(distributional value function)的估计偏差调节机制,证明了过估计偏差与值分布方差呈反比的结论。团队将这一机制与最大熵框架结合,把策略优化目标的刻画从单一维度扩展为无穷维度,以此为基础提出了第一代DSAC算法,极大提升了复杂工业控制任务的学习性能。为进一步改进该算法的迭代稳定性,并降低参数敏感度,团队提出了三项全新的值分布梯度修正技术,即Expected Value Substituting(EVS)、Twin Value Distribution Learning(TVDL)和Variance-Based Critic Gradient Adjustment(VCGA),并将其嵌入到第二代DSAC算法中(又称为DSAC-T)。EVS的原理是在训练值分布网络时以期望目标值替代单次随机样本,显著降低梯度方差,提高学习稳定性。TVDL的原理是并行训练两个独立值分布网络,借鉴Double Q-learning的思路,在更新时选取更保守的一方,进一步抑制过估计误差。VCGA的原理是根据值分布方差自适应缩放值分布函数更新梯度,使算法在不同任务和参数设定下都能保持稳定且一致的性能。标准测试环境的实验表明,DSAC算法的综合表现全面超越SAC(UC Berkeley)、TD3(McGill)、DDPG(DeepMind)、TRPO(UC Berkeley)、PPO(OpenAI)等主流强化学习算法。KBu知多少教育网-记录每日最新科研教育资讯

KBu知多少教育网-记录每日最新科研教育资讯

图2.典型任务的性能对比KBu知多少教育网-记录每日最新科研教育资讯

目前,研究团队已将DSAC两代算法进行了开源,并集成于自主研发的GOPS工具链,以方便学术界与工业界验证与使用。该算法已应用于端到端自动驾驶、具身智能机器人、工程机械无人作业等领域的模型训练,与滴滴、广汽、东风、一汽、宝武等龙头企业开展产业应用服务。该项目得到国家“十四五”重点研发计划、国家自然科学基金、北京市自然科学基金及清华大学自主科研计划的资助。KBu知多少教育网-记录每日最新科研教育资讯

KBu知多少教育网-记录每日最新科研教育资讯

该研究由李克强院士、李升波教授团队独立完成,相关算法可参考两篇论文并附上代码开源链接:KBu知多少教育网-记录每日最新科研教育资讯

1. “融合三项改进的分布式Soft Actor-Critic算法(Distributional Soft Actor-Critic with Three Refinements),2025年5月发表于《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence)。车辆学院李升波教授为通讯作者,车辆学院李克强院士、李升波教授团队青年教师段京良为第一作者,团队2018级博士生王文轩、博士后郜嘉鑫,北京科技大学2023级硕士生肖礼明,北京大学工学院助理教授刘畅,清华大学智能产业研究院院长张亚勤院士,车辆学院研究员成波、李克强院士等也为研究作出了贡献。KBu知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-2586.html车辆学院团队在强化学习领域取得重要进展

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

山西自考社会考生该怎么报名?
小编今天整理了一些山西自考社会考生该怎么报名?相关内容,希望能够帮到大家。 山西自考社会考生该怎么报名?省教育考试院的自考栏目中一般都有自考报名入口,所以自考社会考生如果要自己报名的话,找到
高考历史题 历史高考选择题的解题方法及技巧
今天小编为大家带来了高考历史题 历史高考选择题的解题方法及技巧,希望能帮助到大家,一起来看看吧! 高中历史合集百度网盘下载 链接: ?pwd=1234 提取码:1234 简介:高中历史优质资料下载,包括
高考快递古诗文2024 2023高考语文古诗文默写范围
小编给大家带来了高考快递古诗文2024 2023高考语文古诗文默写范围相关文章,一起来看一下吧。 2023语文高考古诗文范围如下: 1、2023年高考语文必背篇目为60篇,包括文言文20篇(必修教材10篇
合格考不过能否高考?合格考补考简单吗?(参考)
今天小编为大家带来了合格考不过能否高考?合格考补考简单吗?(参考),希望能帮助到大家,一起来看看吧! 2020年即将的尾声将至,各地录取公开了高中合格考时间,不少并不熟悉合格考的同学,也诞生了合格考不过
高中数学买哪个资料好
今天小编整理了高中数学买哪个资料好相关信息,希望在这方面能够更好帮助到大家。 高中数学合集百度网盘下载 链接: ?pwd=1234 提取码:1234 简介:高中数学优质资料下载,包括:试题试卷、课件
辽宁理工学院地址在哪里,哪个城市哪个区
小编今天整理了一些辽宁理工学院地址在哪里,哪个城市哪个区相关内容,希望能够帮到大家。 锦州所有大学名单有:锦州有辽宁工业大学、锦州医科大学、渤海大学、辽宁理工职业大学、锦州医科大学医疗

热点精选

最新推荐

您可能感兴趣