2025_NIPS_Guiding Large Language Models via Directional Stimulus Prompting
2026/5/28 19:06:57
网站建设
项目流程
一、文章核心总结
主要内容
这篇ICLR 2025会议论文聚焦大语言模型(LLM)的高效推理与上下文扩展,针对现有长上下文LLM在推理速度慢、显存占用高、长文本建模能力受限的问题,提出一套轻量化、即插即用的优化框架,兼顾长上下文理解与低资源推理。
- 研究对象:Transformer架构LLM的注意力机制与推理 pipeline
- 核心问题:长文本(≥8k tokens)下注意力计算复杂度O(n²)、KV缓存爆炸、推理延迟飙升
- 解决思路:重构注意力计算逻辑,结合稀疏注意力+动态KV缓存压缩+层级上下文聚合,在不微调预训练模型的前提下提升长上下文效率
- 验证场景:长文本问答、文档摘要、代码理解、多轮对话等任务
创新点
- 动态稀疏注意力(Dynamic Sparse Attention, DSA)
无需预设稀疏模式,根据输入文本语义自动筛选关键token,将注意力复杂度从O(n²)降至O(n√n),长文本下速度提升3~5倍。 - 层级KV缓存压缩(Hierarchical KV Compression, HKC)
对历史上下文做分层聚合,保留核心语义同时压缩KV缓存大小60%~80%,显著降低显存占用。<