全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国研究人员开发出保护大语言模型免受提示词攻击的技术

2024-01-20 中国来源：其他作者：唐乾琛领域：信息

关键词：

据TechXplore网1月18日消息，中国科学技术大学、香港科技大学、清华大学和微软亚洲研究院的研究人员开展了一项研究，旨在调查大型语言模型（LLM）在面对特定类型提示词攻击时的潜在影响，并提出保护模型的技术。研究人员创建了一个提示词攻击数据集，其中包含各种类型的越狱提示和恶意指令。随后，研究人员从“自我提醒”的心理学概念中汲取灵感，开发了一种帮助模型进行自我提醒的方法。这种自我提醒技术可以显著降低提示词攻击的成功率。将针对ChatGPT的提示词攻击成功率，从67.21%降低到 19.34%。尽管无法完全阻止攻击，但这项研究为减少模型受到攻击的脆弱性提供了积极的结果，并可能促进其他类似防御策略的开发。

消息来源：https://techxplore.com/news/2024-01-simple-technique-defend-chatgpt-jailbreak.html