【收藏级教程】大语言模型推理中Self-Attention模块的算子计算逻辑深度解析！-港品优选

简介

本文以Qwen2.5-32B大语言模型为例，详细解析大模型推理中Self-Attention模块的算子计算逻辑。内容包括Attention推理流程、QKV-Linear算子计算、RoPE位置编码、GQA分组查询注意力机制以及Output-Linear算子的具体实现。通过简洁方式解释各算子核心计算逻辑，帮助读者理解大模型中Self-Attention机制的工作原理，适合AI工程师学习参考。

此篇，我将以 Qwen2.5-32B 大语言模型为例，讲述大语言模型推理中 Self-Attention 模块的算子计算逻辑。

PS：文章以尽量简洁的形式讲述算子核心逻辑，一些细节会被忽略，比如 Linear 的加 Bias。

一、Attention 的推理流程

如上图，模型流程按从左到右看，Attention 算子按从下往上看，Activation 数据流转到 Attention 模块之后，主要几经过以下几个流程：

将同一个数据分别做 Q-Linear，K-Linear，V-Linear 分别得到 Q，K，V 三个矩阵。
再将 Q 与 K 转置之后分别做 RoPE 位置编码。
再将 Q，K 位置编码后的矩阵送到 GQA 模块，与 V 转置后的矩阵一起做 GQA 的计算。
最后 GQA 的输出 Reshape 之后，再做一次 O-Linear 矩阵乘，得到整个 Attention 的输出。

B（Batch）表示输入的请求个数。S（Sequence Length）表示输入请求的文本长度。例如 [B, S, 5120]，表示的当前算子输出 Activation 的 Shape。

二、QKV-Linear 算子

经过 Embedding/RMSNorm 之后得到 Activation 的输入数据是一个三维矩阵，Shape 为 [B, S, 5120]。

其中 Q 的权重宽为 5120（40*128），40 表示 Head Num，128 表示 Head Dim。

每个 Batch 每个 Token 的 5120 个 Hidden States 值（每行）与权重中的 5120 个值（每列）乘累加，得到 Q 的对应位置的一个值。

三、RoPE 算子

以 Q 作为 RoPE 输入为例，Transpose 之后的 Shape 为 [B*40, S, 128]，RoPE 分别对每 Head 数据操作。

如下图所示，我们取某个 Batch 的，某个 Head 的，某个 Token 的 128 个数据 {x_0，x_1，…，x_127}。

将前 64 个数据与后 64 个数据一一对应，分别使用如下公式计算，得到 RoPE 位置编码之后的输出 Q-RoPE。

（PS：此处简洁的形式介绍算子计算逻辑，θ 的计算，RoPE 算法原理，我将长文本外扩章节介绍）

四、GQA 算子

A. 如下图中的 A 图，我们先将 Q 与 K 的对应 Batch，对应 Head，对应 Token 的，128 个值做乘累加，得到 QK 矩阵（注意力分数矩阵）。

这里是 GQA，不是 MHA，严格来说是 Q 的每 5 个 Head，对应 K 的 1 个 Head。

B. 如下图中的 B 图，防止点积结果过大导致 Softmax 梯度消失，我们对 QK 矩阵的每个值除以一个缩放因子 √dk，得到 QK/D 矩阵。

C. 如下图的 C 图，先对 QK/D 矩阵做一个倒三角 Mask，可以简单理解为只保留下三角的矩阵做 Softmax，Softmax 如图中公式所示。

例如对其中的某个 Batch，某个 Head，某个 Token 的数据 {x_0，x_1，…，x_s-n} 做 SoftMax 得到 QK/DS 矩阵中的 {y_0，y_1，…，y_s-n}

D. 如下图的 D 图，我们将 QK/DS 矩阵与 V 的对应 Batch，对应 Head，对应 Token 的，128 个值做乘累加，得到 QK/DSV 矩阵。

这里是 GQA，不是 MHA，严格来说是 QK/DS 的每 5 个 Head，对应 V 的 1 个 Head。

五、Output-Linear 算子

如下图，我们将 QK/DSV Reshape 后的矩阵，与 Output 权重做矩阵乘，得到最终的 Attention 输出 O-Output 矩阵，因此而得到整个 Attention 模块的前向输出结果。

最后

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200%，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

企业官网建设流程全解析

一、Attention 的推理流程

二、QKV-Linear 算子

三、RoPE 算子

四、GQA 算子

五、Output-Linear 算子

最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、Attention 的推理流程

二、QKV-Linear 算子

三、RoPE 算子

四、GQA 算子

五、Output-Linear 算子

​最后

为什么说现在普通人就业/升职加薪的首选是AI大模型？

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

② AI大模型学习路线图（还有视频解说）

③学习电子书籍和技术文档

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

👉获取方式：

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？

最后