【信息科学与工程学】计算机科学与自动化/控制——第九十二篇自动化控制01-港品优选

自动化控制（续）

类别	模型名称	核心方程	变量/参数说明	特征/性质
策略梯度	REINFORCE算法	目标：最大化期望回报`J(θ) = E[∑_{t=0}^∞ γ^t r_t]` 梯度：`∇θ J(θ) = E[∑{t=0}^∞ (∑{k=t}^∞ γ^k r_k) ∇θ log π_θ(a_t	s_t)]`<br>用蒙特卡洛采样估计梯度，更新`θ ← θ + α ∇_θ J(θ)`	基于整条轨迹的回报，方差大可加基线减少方差：`(∑_{k=t}^∞ γ^k r_k - b(s_t))` b(s_t)是基线，如值函数估计
优势执行器-评论家(A2C)	用优势函数A(s,a)=Q(s,a)-V(s)代替TD误差更新