1. 定位导航
第 44 篇我们看到 RNN 的根本困境:保留长期信息 vs 学习长期依赖是矛盾的。
LSTM (1997, Hochreiter & Schmidhuber)是这个问题的革命性答案——它统治了 NLP 从 1997 到 2017 年整整 20 年,直到 Transformer 出现。
Goodfellow 评价:
本文撰写之时(2016),实际应用中最有效的序列模型称为门控 RNN。包括基于长短期记忆(LSTM)和基于门控循环单元(GRU)的网络。
本篇深入剖析 LSTM 的内部机制,以及 GRU 的简化设计。
2. 核心洞察:从渗漏单元到门控
2.1 渗漏单元的局限
第 44 篇讲过渗漏单元:
h(t)=(1−α)h(t−1)+α⋅f(h(t−1),x(t))\mathbf{h}^{(t)} = (1 - \alpha) \mathbf{h}^{(t-1)} + \alpha \cdot f(\mathbf{h}^{(t-1)}, \mathbf{x