中国研究人员开发出保护大语言模型免受提示词攻击的技术

2024-01-20  中国 来源:其他 作者:唐乾琛 领域:信息

关键词:

据TechXplore网1月18日消息,中国科学技术大学、香港科技大学、清华大学和微软亚洲研究院的研究人员开展了一项研究,旨在调查大型语言模型(LLM)在面对特定类型提示词攻击时的潜在影响,并提出保护模型的技术。研究人员创建了一个提示词攻击数据集,其中包含各种类型的越狱提示和恶意指令。随后,研究人员从“自我提醒”的心理学概念中汲取灵感,开发了一种帮助模型进行自我提醒的方法。这种自我提醒技术可以显著降低提示词攻击的成功率。将针对ChatGPT的提示词攻击成功率,从67.21%降低到 19.34%。尽管无法完全阻止攻击,但这项研究为减少模型受到攻击的脆弱性提供了积极的结果,并可能促进其他类似防御策略的开发。

消息来源:https://techxplore.com/news/2024-01-simple-technique-defend-chatgpt-jailbreak.html