2025-02-20 美国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据TechXplore网2月17日消息,美国圣路易斯大学研究人员开发并演示了一种新型后门攻击方式DarkMind。该攻击方式可通过简单的指令轻松完成设计,进而操纵大语言模型(LLM)的文本生成。特别是,DrakMind的运行深度嵌入在LLM的推理过程中,无需操纵用户查询,因而极具隐蔽性。研究人员还发现,DarkMind在对抗具有更强推理能力的更高级LLM时成功率更高,即LLM的推理能力越强,就越容易受到 DarkMind的攻击。该研究挑战了当前认为更强大的模型本质上更强大的基本假设,有利于填补生成式AI安全漏洞。相关研究成果发表于arXiv预印本网站。
消息来源:https://techxplore.com/news/2025-02-darkmind-backdoor-leverages-capabilities-llms.html