2025-07-10 中国 来源:其他 领域:信息
关键词:
据MIT Technology Review网7月9日消息,中国清华大学研究团队提出了一种改进的强化学习算法DSAC-T(Distributional Soft Actor-Critic with Three Refinements),在性能上超越当前主流无模型强化学习算法,达到SOTA水平。该研究基于团队此前提出的第一代算法DSAC的框架,通过引入期望值替代、双值分布学习和基于方差的梯度调整三项关键技术,显著提升了算法的稳定性和性能表现。这套技术方案可支持多个领域的智能系统模型训练,包括端到端自动驾驶、具身智能机器人以及工程机械无人作业等场景。