参考:

RLChina 强化学习暑期课 汪军 中文 机器之心 (xiaoe-tech.com)
ppt https://pan.baidu.com/s/1SRkXwM6m7okeydlVeTnZFQ  提取码: wm95
百度网盘 (baidu.com)

图片

机器学习和深度学习基础

regression

  • 图片
    图片

  • nearset neighbor classification图片
    . KNN (投票 可根据邻居距离加权重)

  • logistic regression图片
    图片

MLP and backpropagation

图片
图片
图片
图片
图片
图片
图片
图片

  • 这里需要再整理

RNN

  • 一对多:image captioning. 多对一:sequential recommendation. 多对多:machine translation

  • 图片

  • 图片
    图片

  • LSTM: 核心,决定哪些信息遗忘,哪些信息加入图片
    图片

  • GRU 简化 LSTM。 更新门+reset gate+ current memory content + final memory at current time step

  • 图片

机器学习中的优化理论和方法

  • Generalization 泛化问题
  • Expressivity 表达性
  • Optimization 优化 如何挑到更好的/怎么更快的挑选他
  • 图片

Continuous Optimization problem

  • 0th order –queries function value only

    • gridding 所有的排列组合都试一遍
    • sampling  (Metropolis Hastings, evolutionary algorithm,etc)图片
  • 1storder method –uses gradient information. faster. backprop.

    • 图片
  • higer order

    • 图片

Convergence analysis: Gradient Methods

  • Oracle Complexity图片

  • 图片
    图片

  • key components

    • Oracle definition
    • Oracle properties
    • Function class
    • Optimality measure
    • Worst case performance
  • Variance reduction algorithms图片

  • 理论框架假设和实际有偏差,导致理论可行但实际效果不佳。一个研究方向

  • complexity 注意有哪些假设

Graphical Model & Bayesian Inference

Graphical model 两种表达形式。inference 问题用哪两种解决。

  • Graphical model describes structures (sparsity,independence, partition) in joint distributions图片

  • DAG Directed acyclic graph

  • Undirected graph: Independence 两个变量没有连通项

  • Directed acyclic graph vs Undirected graph

    • They do not describe the same set of independent relations
  • document M, 通过 observed word 推断哪些 topic图片
    prior 和 posterior 会比较好 sample 但直接 joint 可能不一定

    • Infer latent variables: MCMC Algorithm

      • MCMC algorithm: Gibbs sampling. converged rate 会比较差,走到概率分布比较小的区域图片
    • Infer latent variables: Variational Inference

      • argmax,找到最可能生成 topic 的 distribution图片

Bayesian Optimization

[http://www.it.uu.se/edu/course/homepage/apml/lectures/lecture 7_handout.pdf](http://www.it.uu.se/edu/course/homepage/apml/lectures/lecture 7_handout.pdf)

  • 图片

  • Gaussian process allows information propagation

    • 与其 gridding 采取所有的点,可以采取 posterior 里最有希望的点。图片
  • Intuition图片

  • Bayesian Optimization: Activation functions图片

  • subprocedure 还是一个优化问题. need to solve an optimization per step. This is usually done with gradient descent and repeatedinitialization. 不能全局最优,只能 approximately

  • Theoretical aspect

    • Given the existence of a subprocedure, the complexity of Bayesian optimization is two fold:
      • Sample complexity (number of queries)
      • Computation complexity (number of queries x subprocedure cost)
    • The sample complexity suffers curse of dimension in theworst case.
    • Bayesian optimization is a popular method, but itstheoretical advantage still remains to be explained

博弈论——博弈、均衡、均衡

图片

Motivation and Normal-form Game

  • elements of game图片

  • rationality of players: self-interested, utility, objective

  • pure strategy and mixed strategy. 混合策略:以一定的概率选择另一个

  • classic games.

    • zero-sum 零和博弈 完全处于竞争关系
    • cooperative game 合作关系
    • coordination game.多个纳什均衡 多个协同选择时候 如何避免相撞
    • social dilemma

Extensive-form Game and Imperfect Information

  • game tree. strategy space.
  • imperfect information. 一些历史动作不被其他玩家看到。
  • Markov Game or Stochastic Game. 和 extensive-form game 区别:状态可重复到达,reward function 每一个状态下都可以得到 不一定要终点。behaviour strategy 考虑当前状态下怎么做。具有随机性,可循环 cycle
  • Summary of Strategy Representation图片

Bayesian Game and Incomplete Information

  • auction. uncertainty of private value. Players don’t know the exact payoff matrix of the game

  • incomplete information. eg: auction, Mahjong, Werewolves of Miller’s Hollow 狼人杀

  • Bayesian Game: 建立概率分布,知道对面有几种可能性(player type space)

  • Dynamic Baysian Game: 动态多回合

  • summary图片

  • 引入上帝的角色,发牌。(非完美,不知道上帝做了什么动作,StarCraft 不知道出生点)

NashEquilibriumand Variants

  • Best Response 最佳应对策略

  • Dominant Strategy 不管对手做什么 我这个策略都是最好的

  • Nash Equilibrium 稳定点 best response。只考虑一个玩家发生变化,不考虑多个同时变化的情况。

  • Pareto Optimality 找不到任何一个其他点使所有人变更差。相对较好的点。

  • Mixed Strategy Nash Equilibrium.

  • incredible threat. 图片

  • Perfect Bayesian Equilibrium (PBE)

  • summary 图片

Repeated Game and Learning Methods

  • repeated game重复博弈,观察对方行为,我也改变。
  • memory 学习问题。
  • Tif-for-tat,以牙还牙,对方作什么我就作什么
  • Win-stay, lose-shift 不管合作还是对抗,结果是好的我就继续这个策略,结果不好我就换。
  • folk theorem
  • fictitious play 记录对手动作,认为她下一回合出的动作就是历史出过动作的分布。convergence
  • no-regret learning 算会后悔的值

Alternate Solution Concepts and Evolutionary GameTheory

  • Stackelberg Equilibrium 博弈有先后,分了先后可能对两个都好
  • Correlated Equilibrium 协同问题。概率分配在所有可能的上。引入公共信号,sample出结果,部分告诉玩家。
  • Evolutional Game Theory 均衡是稳定点,但不一定出稳定点,或者说有多个稳定点的时候。演化问题,改变的过程。

博弈论——机制设计和博弈复杂度

https://lozycs.github.io/

Mechanism Design

  • goal – good performance guarantees

Complexity of Equilibrium Computation