SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models-港品优选

文章主要内容与创新点总结

该论文是一篇关于大语言模型（LLMs）提示词安全的系统性研究（SoK），通过构建分类体系、标准化评估工具、释放大规模数据集，解决了当前领域研究碎片化的问题，为LLM提示词安全的攻击、防御及漏洞分析提供了统一框架。

研究背景：LLMs已广泛应用于多领域，但越狱提示词可绕过模型对齐机制，诱导产生有害输出，且当前研究在定义、威胁模型、评估标准上存在差异，阻碍了系统性进展。
三大核心分类体系：
- 攻击技术分类：按黑盒/白盒访问模式划分，涵盖提示词修改、优化算法、多轮操纵等具体技术。
- 防御方法分类：分为检测（输入/输出/内部状态检测）和缓解（输入处理、模型训练、输出处理等）两大类。
- 模型漏洞分类：梳理了格式利用、指令过度依赖、心理操纵等9类固有漏洞。
关键资源与工具：
- 释放JailbreakDB数据集，包含44.5万条越狱提示词和109.4万条良性提示词，为研究提供数据支撑。
- 开发PromptSecurity平台，支持攻击、防御、模型的模块化组合与标准化评估。
实验发现：本地模型的攻击成功率普遍高于API模型；Gemini 2.5-Flash、GPT-4o等API模型的基线安全性更