强化学习

分类

value-based and policy-based:
value-based:基于状态价值和动作价值来更新策略(不是直接学习策略)，原理类似于先求出每个状态-动作对的价值,据此来选择最佳策略，有点类似动态规划（DP）。又分为value iterationn和policy iteration。

对于value iteration,先进行policy update,将状态价值迭代至收敛即最优并更新策略，再进行value update，根据更新后的策略来更新状态价值。

对于policy iteration,先进行policy evalution，一般利用蒙特卡罗方法MC和时序差分方法TD（SARSA,Q-Learning）来求出策略的状态价值，再进行policy improvement对当前策略进行更新，一般都会使用ε-贪婪探索

policy-based：直接基于策略更新，将策略看成函数，最优策略就是一个使用使得损失函数最小的参数的函数，一般使用策略梯度更新。常见算法:REINFORCE,Actor-Critic,TRPO,PPO,TD3等
off-online and on-line:
off-online:学习的策略和采样的行为策略不一样，高效（经验池回放，重复性采样）但分布不一致（需要重要性采样），有Q-Learning,DQN
on-online:学习的策略和采样的行为策略一样，稳定但信息利用率低，有SARSA，REINFORCE，PPO

基于现成框架，可以更好进行二次开发

目前大都基于PPO，TRPO的Actor-Critic框架

对于强化学习的理论知识要求不高，只需要知道大体的算法原理及其基本特点，尤其是PPO之类的AC算法
需要学习对应的强化学习框架，目前比较流行的框架是legged_gym和rsl_rl（基于Isaac_gym），可以去尝试跑通开源项目，理清框架，方便进行二次开发

四足机器人 > 强化学习

强化学习

http://example.com/2025/09/08/25_09_08强化学习/

作者

ZF ZHAO

发布于

2025年9月8日

许可协议