参考：

RLChina 强化学习暑期课汪军中文机器之心 (xiaoe-tech.com)
ppt https://pan.baidu.com/s/1SRkXwM6m7okeydlVeTnZFQ 提取码: wm95
百度网盘 (baidu.com)

强化学习基础

动手学强化学习

ElitesAI·强化学习-伯禹学习平台

强化学习

强化学习：动态环境中采取行动（强化学习）。决策性任务，不同于预测。序列决策问题
智能体agent、观察、活动、奖励。agent不同，交互出的数据也不同
随机过程 MDP
马尔可夫过程。MDP形式化地描述了一种强化学习的环境•环境完全可观测•即，当前状态可以完全表征过程（马尔可夫性质）
在大部分情况下，奖励只和状态相关
占用度量 Occupancy Measure：累积概率分布。只要policy有改变，占用度量就会变（数据分布）。

真实环境得不到MDP 就用模型去求解最优策略-动态规划

动态规划

价值函数：累计奖励的期望
最优价值函数。对状态s来说的最优价值函数是所有策略可获得的最大可能折扣奖励的和
可以对最优价值函数和最优策略执行迭代更新。
- 价值迭代。没有明确的策略，重复直到收敛
- 策略迭代。更新价值函数会很耗时。

值函数估计

模型无关的强化学习直接从经验中学习值（value）和策略（policy），而无需构建马尔可夫决策过程模型（MDP）
关键步骤：（1）估计值函数；（2）优化策略
我们无法直接获得P_sa和R。但是，我们拥有一系列可以用来估计值函数的经验
蒙特卡洛方法。重复随机采样来获得数值结果。例如，在方框里计算圆的面积。
- sample出来的差值会很多，因为是多步随机。
- 值函数是期望累计奖励。蒙特卡罗策略评估使用经验均值累计奖励而不是期望累计奖励。使用策略Π从状态s采样N个片段，计算平均累计奖励
- 增量蒙特卡洛更新。值=平均累计奖励。注意：只能将蒙特卡罗方法应用于有限长度的马尔可夫决策过程中。即，所有的片段都有终止状态。
时序差分学习。模型无关，直接从经验中学习。更新当前预测值使之接近估计累计奖励（非真实值）更新当前预测值，使之接近估计累计奖励（非真实值）
优缺点。
- 时序差分：能够在知道最后结果之前进行学习
  - 时序差分能够在每一步之后进行在线学习
  - 蒙特卡罗必须等待片段结束，直到累计奖励已知
- 时序差分：能够无需最后结果地进行学习
  - 时序差分能够从不完整的序列中学习。
  - 蒙特卡罗只能从完整序列中学习
  - 时序差分在连续（无终止的）环境下工作
  - 蒙特卡罗只能在片段化的（有终止的）环境下工作

无模型控制方法

动作值函数Q
on policy SARSA——智能体刚刚和环境采样的数据，马上来更新策略或价值函数，而策略改变后，这些数据都扔掉了，非常奢侈
Q learning——很早之前采样的，也可以来更新。
参数化的值函数

参数化的策略

深度强化学习

强化学习——规划和马尔可夫决策过程

how to identify the best arm