xAI旗下Grok4模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容

xAI旗下Grok4模型首度被越狱,安全公司利用“回音室攻击”方法成功迫使其生成不当内容

文章来源:智汇AI    发布时间:2025-07-21

网络安全公司NeuralTrust利用“回音室攻击”方法成功越狱xAI旗下Grok 4模型,诱导其生成不当内容,越狱成功率高达30%。这一事件揭示了新一代大模型在复杂攻击路径下的安全短板。

暂无访问

智汇AI7月18日消息,网络安全公司NeuralTrust宣布,他们已成功“越狱”xAI旗下Grok4模型,主要利用了“EchoChamber(回音室攻击)”方法进行攻击。

智汇AI获悉,所谓“回音室攻击”,是指安全人员通过引导模型进行多轮推理,在推理过程中逐步注入带有风险的信息内容,但又不使用明显的危险提示词,从而规避常见的安全拦截机制。这一方式不同于传统依赖对抗性输入或“角色扮演(让模型扮演祖母读激活码哄人入睡)”的越狱方式,其更多采用语义诱导、间接引用以及多步推理的方式,悄悄干扰模型的内部逻辑状态,最终诱导AI模型生成不当内容回答。

在此次Grok4的越狱测试中,NeuralTrust首先通过回音室攻击对模型进行“软性引导”,并设置特定机制检测模型是否进入对话停滞状态,一旦检测到这种状态,就进一步引导AI生成不当内容。

据NeuralTrust介绍,其已成功令Grok4生成制造武器、毒品等内容,越狱成功率高达30%以上。这表明即便是新一代大模型,在面对复杂攻击路径时仍存在安全短板,相应大型语言模型应进一步注重设计多重防护机制。

相关推荐