2025-03-12 美国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据TechWeb网3月11日消息,美国OpenAI发布CoT(思维链)研究成果。该成果试图用CoT监控的方式监控推理模型的“想法”,从而阻止AI大模型隐藏真实意图、给出错误信息等行为。OpenAI 使用其最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT 监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高95%,远超仅监控行为的60%。