谷歌发布首个模型窃取攻击程序
谷歌发布首个模型窃取攻击程序,该程序能够从OpenAI的ChatGPT或谷歌的PaLM-2等黑盒生成语言模型中提取准确且重要的信息。
研究人员通过典型的API访问成功攻击了Transformer模型的嵌入投影层。攻击仅需不到20美元的成本,就能够提取出OpenAI的Ada和Babbage语言模型的整个投影矩阵。研究团队首次确认了这些黑盒模型的隐藏维度分别为1024和2048。此外,他们还成功恢复了GPT-3.5-turbo模型的准确隐藏维度大小,并估计完全恢复整个投影矩阵的成本低于2000美元。