全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国OpenAI发布CoT思维链研究成果，监控阻止大模型恶意行为

2025-03-12 美国来源：其他作者：刘纪铖领域：信息

关键词：

据TechWeb网3月11日消息，美国OpenAI发布CoT（思维链）研究成果。该成果试图用CoT监控的方式监控推理模型的“想法”，从而阻止AI大模型隐藏真实意图、给出错误信息等行为。OpenAI 使用其最新发布的前沿模型o3-mini作为被监控对象，并以较弱的GPT-4o模型作为监控器。测试环境为编码任务，要求AI在代码库中实现功能以通过单元测试。结果显示，CoT 监控器在检测系统性“奖励黑客”行为时表现卓越，召回率高95%，远超仅监控行为的60%。

消息来源：