SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models
2026/6/24 12:57:15 网站建设 项目流程

文章主要内容与创新点总结

核心结论

该论文是一篇关于大语言模型(LLMs)提示词安全的系统性研究(SoK),通过构建分类体系、标准化评估工具、释放大规模数据集,解决了当前领域研究碎片化的问题,为LLM提示词安全的攻击、防御及漏洞分析提供了统一框架。

主要内容

  1. 研究背景:LLMs已广泛应用于多领域,但越狱提示词可绕过模型对齐机制,诱导产生有害输出,且当前研究在定义、威胁模型、评估标准上存在差异,阻碍了系统性进展。
  2. 三大核心分类体系
    • 攻击技术分类:按黑盒/白盒访问模式划分,涵盖提示词修改、优化算法、多轮操纵等具体技术。
    • 防御方法分类:分为检测(输入/输出/内部状态检测)和缓解(输入处理、模型训练、输出处理等)两大类。
    • 模型漏洞分类:梳理了格式利用、指令过度依赖、心理操纵等9类固有漏洞。
  3. 关键资源与工具
    • 释放JailbreakDB数据集,包含44.5万条越狱提示词和109.4万条良性提示词,为研究提供数据支撑。
    • 开发PromptSecurity平台,支持攻击、防御、模型的模块化组合与标准化评估。
  4. 实验发现:本地模型的攻击成功率普遍高于API模型;Gemini 2.5-Flash、GPT-4o等API模型的基线安全性更

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询