参考:

RLChina 强化学习暑期课 汪军 中文 机器之心 (xiaoe-tech.com)
ppt https://pan.baidu.com/s/1SRkXwM6m7okeydlVeTnZFQ  提取码: wm95
百度网盘 (baidu.com)

强化学习基础

动手学强化学习

ElitesAI·强化学习-伯禹学习平台

图片

强化学习

  • 强化学习:动态环境中采取行动(强化学习)。决策性任务,不同于预测。序列决策问题

  • 智能体agent、观察、活动、奖励。agent不同,交互出的数据也不同
    随机过程 MDP

  • 马尔可夫过程。MDP形式化地描述了一种强化学习的环境•环境完全可观测•即,当前状态可以完全表征过程(马尔可夫性质)

  • 在大部分情况下,奖励只和状态相关

  • 占用度量 Occupancy Measure: 累积概率分布。只要policy有改变,占用度量就会变(数据分布)。图片

真实环境得不到MDP 就用模型去求解最优策略-动态规划

动态规划

  • 价值函数:累计奖励的期望
  • 最优价值函数。对状态s来说的最优价值函数是所有策略可获得的最大可能折扣奖励的和
  • 可以对最优价值函数和最优策略执行迭代更新。
    • 价值迭代。没有明确的策略,重复直到收敛

    • 策略迭代。更新价值函数会很耗时。图片

    • 图片

值函数估计

  • 模型无关的强化学习直接从经验中学习值(value)和策略(policy),而无需构建马尔可夫决策过程模型(MDP)

  • 关键步骤:(1)估计值函数;(2)优化策略

  • 我们无法直接获得P_sa和R。但是,我们拥有一系列可以用来估计值函数的经验

  • 蒙特卡洛方法。重复随机采样来获得数值结果。例如,在方框里计算圆的面积。

    • sample出来的差值会很多,因为是多步 随机。
    • 值函数是期望累计奖励。蒙特卡罗策略评估使用经验均值累计奖励而不是期望累计奖励。使用策略Π从状态s采样N个片段,计算平均累计奖励
    • 增量蒙特卡洛更新。值=平均累计奖励。注意:只能将蒙特卡罗方法应用于有限长度的马尔可夫决策过程中。即,所有的片段都有终止状态。
  • 时序差分学习。模型无关,直接从经验中学习。更新当前预测值使之接近估计累计奖励(非真实值)更新当前预测值,使之接近估计累计奖励(非真实值)

  • 图片

  • 优缺点。

    • 时序差分:能够在知道最后结果之前进行学习
      • 时序差分能够在每一步之后进行在线学习
      • 蒙特卡罗必须等待片段结束,直到累计奖励已知
    • 时序差分:能够无需最后结果地进行学习
      • 时序差分能够从不完整的序列中学习。
      • 蒙特卡罗只能从完整序列中学习
      • 时序差分在连续(无终止的)环境下工作
      • 蒙特卡罗只能在片段化的(有终止的)环境下工作
    • 图片

无模型控制方法

  • 动作值函数Q
  • on policy SARSA——智能体刚刚和环境采样的数据,马上来更新策略或价值函数,而策略改变后,这些数据都扔掉了,非常奢侈
  • Q learning——很早之前采样的,也可以来更新。
    参数化的值函数

参数化的策略

深度强化学习

强化学习——规划和马尔可夫决策过程

  • how to identify the best arm