全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国清华大学推出强化学习SOTA新算法，可实现AI可靠决策

2025-07-10 中国来源：其他领域：信息

关键词：

据MIT Technology Review网7月9日消息，中国清华大学研究团队提出了一种改进的强化学习算法DSAC-T（Distributional Soft Actor-Critic with Three Refinements），在性能上超越当前主流无模型强化学习算法，达到SOTA水平。该研究基于团队此前提出的第一代算法DSAC的框架，通过引入期望值替代、双值分布学习和基于方差的梯度调整三项关键技术，显著提升了算法的稳定性和性能表现。这套技术方案可支持多个领域的智能系统模型训练，包括端到端自动驾驶、具身智能机器人以及工程机械无人作业等场景。