Transformer彻底剖析(11):多层感知机MLP
2026/6/13 15:44:19 网站建设 项目流程

目录

1 3blue1brown的MLP视频:图解Transformer之MLP机制解读

2 李沐的MLP视频

2.1 感知机

2.1.1 感知机存在的问题

2.2 多层感知机

2.3 问题

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

3.2 Transformer 中 MLP(FFN)的作用

3.3 个人理解

4 注意力机制参数和MLP参数含量

参考文献:


abstract:

一般提到感知机默认是指单层的最简单的感知机,一般提到多层感知机默认是指包含了激活函数的多层感知机。

单层感知机只能解决线性可分问题,而异或属于线性不可分问题。

多层感知机就是使用隐藏层和激活函数得到非线性模型

transformer中为什么要加入MLP:注意力机制是线性关系,MLP是非线性理解

网络中,注意力机制参数大约占1/3, MLP参数大约占用2/3

1 3blue1brown的MLP视频:图解Transformer之MLP机制解读

从这张图看,MLP就是线性层和激活函数。

2 李沐的MLP视频

2.1 感知机

这里最开始的感知机输出神经元只有一个,感知机其实就是个二分类问题,

跟线性回归的区别:线性回归输出的是实数,感知机的输出是离散的类

跟softmax回归的区别:softmax如果有n个类,就会输出n个元素,是个多酚类的问题。

2.1.1 感知机存在的问题

其实就是理解单层感知机就是只能拟合二分类问题,那么也就是线性拟合,没法拟合异或问题。

2.2 多层感知机

为什么需要非线性的激活函数:因为如果激活函数是线性的,那么输出跟输入的关系就还是线性的,那么最终结果就相当于是 一个单层的感知机,还是解决不了异或问题。

2.3 问题

一般来说一层是包含了激活函数的

通常来说一层是包含了权重以及激活函数的,就是这些计算是怎么做的,上图就可以说是两层,在这里输入层不算一层,

对于输入来说,有两种选择,

一种就是一个隐藏层,然后这个隐藏层包含了很多神经元,

还有一种是多个隐藏层,但是每个隐藏层的神经元稍微少一点,

他们两个的模型复杂度是差不多的,但是第二种更好训练,第一种特别容易过拟合,第一种相当于一口吃个胖子,第二种相当于循序渐进的去学习,比如把一个猫的图片和狗的图片,进行训练和学习,第二种相当于第一层学个耳朵,第二层学个尾巴,最后学会整个图像。

其实都差不多,区别不大。

3 为什么transformer中要引入MLP

3.1 Transformer 的结构回顾

一个标准的 Transformer Encoder Layer 主要包含两部分:

  1. 多头自注意力(Multi-Head Self-Attention, MHSA)

  2. 前馈全连接网络(Feed-Forward Network, FFN)

其中 FFN本质上就是多层感知机(MLP),通常形式是:

FFN(x)=GeLU(xW1+b1)W2+b2\text{FFN}(x) = \text{GeLU}(x W_1 + b_1) W_2 + b_2FFN(x)=GeLU(xW1​+b1​)W2​+b2​

  • 两层线性 + 非线性激活(GeLU / ReLU)

  • 对每个位置的 token 独立应用


3.2 Transformer 中 MLP(FFN)的作用

增加非线性表达能力

  • 注意力层本身是线性的(注意力是加权和)

  • 如果没有 MLP,Transformer只能做线性组合

  • MLP 让每个 token 的表示可以经过非线性变换 → 更强的表示能力


提供特征混合和高维映射

  • FFN 通常内部维度远大于输入维度(比如 512 → 2048 → 512)

  • 升维 → 非线性 → 降维

  • 作用类似于 “局部特征组合 / 投影到高维空间再压缩”,增强模型拟合复杂模式的能力


保持位置独立性(Token-wise)

  • 每个 token 独立经过 MLP,不同于注意力会跨 token 交互

  • 这样做可以在每个 token 内部增加复杂的非线性变换,同时注意力负责 token 间依赖


总结一句话(本质)

Transformer 的 MLP(FFN)就是多层感知机,负责每个 token 的非线性变换和高维特征组合,使模型具备更强的表达能力,弥补注意力层的线性限制。

3.3 个人理解

transformer中为什么要加入MLP:注意力机制是线性关系,MLP是非线性理解

注意力机制只是处理了句子之间不同token的关联关系,他只是线性的,只有MLP引入非线性才能更好的理解复杂句子的含义。

4 注意力机制参数和MLP参数含量

不管是GPT,还是deepseek,还是通义,是不是mlp的参数反而是占大多数的对吗,是不是注意力参数大约1/3,MLP大约2/3

模型系列注意力机制参数占比MLP参数占比典型配置
GPT-3~33%~67%175B模型中,116B参数在MLP层
LLaMA-232-34%66-68%70B版本中MLP占46.2B参数
通义千问(Qwen)~33%~67%Qwen-Max每层FFN维度=4×隐藏维度
DeepSeek~33%~67%遵循标准Transformer设计原则

参考文献:

图解Transformer之MLP机制解读

什么是“感知机”,它的缺陷为什么让“神经网络”陷入低潮

10 多层感知机 + 代码实现 - 动手学深度学习v2

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询