Policy gradients with parameter-based exploration的意思|示意
美 / /
英 / /
带有基于参数的探索的策略梯度
Policy gradients with parameter-based exploration的网络常见释义
基于参数探索的策略梯度 ...行探索来减小梯度估计方差, Sehnke 等 [14] 提出 了基于参数探索的策略梯度(Policy gradients with parameter-based exploration, PGPE) 方法, 并证 明了该方法的性能优于基于动作随机探索的强化学 习方法.