Policy gradients with parameter-based exploration的意思|示意

美 / / 英 / /

带有基于参数的探索的策略梯度


Policy gradients with parameter-based exploration的网络常见释义

基于参数探索的策略梯度 ...行探索来减小梯度估计方差, Sehnke 等 [14] 提出 了基于参数探索的策略梯度(Policy gradients with parameter-based exploration, PGPE) 方法, 并证 明了该方法的性能优于基于动作随机探索的强化学 习方法.