2025_NIPS_Guiding Large Language Models via Directional Stimulus Prompting-港品优选

这篇ICLR 2025会议论文聚焦大语言模型（LLM）的高效推理与上下文扩展，针对现有长上下文LLM在推理速度慢、显存占用高、长文本建模能力受限的问题，提出一套轻量化、即插即用的优化框架，兼顾长上下文理解与低资源推理。

动态稀疏注意力（Dynamic Sparse Attention, DSA）
无需预设稀疏模式，根据输入文本语义自动筛选关键token，将注意力复杂度从O(n²)降至O(n√n)，长文本下速度提升3~5倍。
层级KV缓存压缩（Hierarchical KV Compression, HKC）
对历史上下文做分层聚合，保留核心语义同时压缩KV缓存大小60%~80%，显著降低显存占用。<

企业官网建设流程全解析