【信息科学与工程学】计算机科学与自动化/控制——第九十二篇 自动化控制01
2026/6/10 20:16:24 网站建设 项目流程

自动化控制(续)

一、强化学习控制

类别

模型名称

核心方程

变量/参数说明

特征/性质

策略梯度

REINFORCE算法

目标:最大化期望回报J(θ) = E[∑_{t=0}^∞ γ^t r_t]
梯度:`∇θ J(θ) = E[∑{t=0}^∞ (∑{k=t}^∞ γ^k r_k) ∇θ log π_θ(a_t

s_t)]<br>用蒙特卡洛采样估计梯度,更新θ ← θ + α ∇_θ J(θ)`

基于整条轨迹的回报,方差大
可加基线减少方差:(∑_{k=t}^∞ γ^k r_k - b(s_t))
b(s_t)是基线,如值函数估计

优势执行器-评论家(A2C)

用优势函数A(s,a)=Q(s,a)-V(s)代替TD误差
更新

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询