美国OpenAI推出强化微调技术,为定制基础模型以适应特定任务提供突破性工具

2025-05-12  美国 来源:https://www.ithome.com/0/851/740.htm 领域:信息

关键词:

据IT之家5月9日消息,美国OpenAI在o4-mini推理模型上推出强化微调技术(Reinforcement Fine-Tuning,RFT)。与传统的监督式微调不同,RFT基于强化学习算法,通过奖励驱动的训练循环优化模型表现。这一方法无需开发者提供固定的目标输出,而是利用评分器(Grader)评估模型回答质量,引导AI学习复杂任务的推理模式。测评结果显示,经RFT优化后的o4-mini在SWE-Bench Verified基准测试中性能提升约20%,为开发团队提供了前所未有的高性价比定制选择。该项技术有望彻底改变AI专业化成本结构和技术门槛,使企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。