深度学习序列建模(三)—— LSTM 与 GRU 门控机制(四十五)
2026/5/26 23:39:07 网站建设 项目流程

1. 定位导航

第 44 篇我们看到 RNN 的根本困境:保留长期信息 vs 学习长期依赖是矛盾的。

LSTM (1997, Hochreiter & Schmidhuber)是这个问题的革命性答案——它统治了 NLP 从 1997 到 2017 年整整 20 年,直到 Transformer 出现。

Goodfellow 评价

本文撰写之时(2016),实际应用中最有效的序列模型称为门控 RNN。包括基于长短期记忆(LSTM)和基于门控循环单元(GRU)的网络。

本篇深入剖析 LSTM 的内部机制,以及 GRU 的简化设计。

2. 核心洞察:从渗漏单元到门控

2.1 渗漏单元的局限

第 44 篇讲过渗漏单元:

h(t)=(1−α)h(t−1)+α⋅f(h(t−1),x(t))\mathbf{h}^{(t)} = (1 - \alpha) \mathbf{h}^{(t-1)} + \alpha \cdot f(\mathbf{h}^{(t-1)}, \mathbf{x

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询