全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国谷歌公司DeepMind发布新框架InfAlign，可提升语言模型推理对齐能力

2025-01-04 美国来源：其他作者：刘纪铖领域：信息

关键词：

据品玩网1月2日消息，美国谷歌公司DeepMind研究团队发布新框架InfAlign，可提升语言模型推理对齐能力。InfAlign框架的核心是一种校准的强化学习算法，该算法遵循三个步骤：校准奖励分数、根据推理策略变换这些分数、解决一个KL正则化的优化问题，从而将训练目标与推理需求对齐，确保模型在控制环境和现实场景中都能表现良好。此外，InfAlign还增强了模型的鲁棒性，使其能够有效应对各种解码策略并产生一致的高质量输出。

消息来源：https://www.pingwest.com/w/301448