强化学习(二)
参考:
RLChina 强化学习暑期课 汪军 中文 机器之心 (xiaoe-tech.com)
ppt https://pan.baidu.com/s/1SRkXwM6m7okeydlVeTnZFQ 提取码: wm95
百度网盘 (baidu.com)
强化学习基础
强化学习
强化学习:动态环境中采取行动(强化学习)。决策性任务,不同于预测。序列决策问题
智能体agent、观察、活动、奖励。agent不同,交互出的数据也不同
随机过程 MDP马尔可夫过程。MDP形式化地描述了一种强化学习的环境•环境完全可观测•即,当前状态可以完全表征过程(马尔可夫性质)
在大部分情况下,奖励只和状态相关
占用度量 Occupancy Measure: 累积概率分布。只要policy有改变,占用度量就会变(数据分布)。
真实环境得不到MDP 就用模型去求解最优策略-动态规划
动态规划
- 价值函数:累计奖励的期望
- 最优价值函数。对状态s来说的最优价值函数是所有策略可获得的最大可能折扣奖励的和
- 可以对最优价值函数和最优策略执行迭代更新。
价值迭代。没有明确的策略,重复直到收敛
策略迭代。更新价值函数会很耗时。
值函数估计
模型无关的强化学习直接从经验中学习值(value)和策略(policy),而无需构建马尔可夫决策过程模型(MDP)
关键步骤:(1)估计值函数;(2)优化策略
我们无法直接获得P_sa和R。但是,我们拥有一系列可以用来估计值函数的经验
蒙特卡洛方法。重复随机采样来获得数值结果。例如,在方框里计算圆的面积。
- sample出来的差值会很多,因为是多步 随机。
- 值函数是期望累计奖励。蒙特卡罗策略评估使用经验均值累计奖励而不是期望累计奖励。使用策略Π从状态s采样N个片段,计算平均累计奖励
- 增量蒙特卡洛更新。值=平均累计奖励。注意:只能将蒙特卡罗方法应用于有限长度的马尔可夫决策过程中。即,所有的片段都有终止状态。
时序差分学习。模型无关,直接从经验中学习。更新当前预测值使之接近估计累计奖励(非真实值)更新当前预测值,使之接近估计累计奖励(非真实值)
优缺点。
- 时序差分:能够在知道最后结果之前进行学习
- 时序差分能够在每一步之后进行在线学习
- 蒙特卡罗必须等待片段结束,直到累计奖励已知
- 时序差分:能够无需最后结果地进行学习
- 时序差分能够从不完整的序列中学习。
- 蒙特卡罗只能从完整序列中学习
- 时序差分在连续(无终止的)环境下工作
- 蒙特卡罗只能在片段化的(有终止的)环境下工作
- 时序差分:能够在知道最后结果之前进行学习
无模型控制方法
- 动作值函数Q
- on policy SARSA——智能体刚刚和环境采样的数据,马上来更新策略或价值函数,而策略改变后,这些数据都扔掉了,非常奢侈
- Q learning——很早之前采样的,也可以来更新。
参数化的值函数
参数化的策略
深度强化学习
强化学习——规划和马尔可夫决策过程
- how to identify the best arm
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 chiblog!
评论