文章目录
  1. 1. 机器学习17—增强学习——拟合的值迭代法(fitted value iterator)
    1. 1.1. Learn a Model
      1. 1.1.1. 拟合的值迭代法(fitted value iterator)
        1. 1.1.1.1. 随机的Simulator
        2. 1.1.1.2. 确定的Simulator
        3. 1.1.1.3. 不确定的Simulator
  2. 2. NG老师的详细过程

机器学习17—增强学习——拟合的值迭代法(fitted value iterator)

本章不是很理解,只是把笔记摘录了一些。
首先讲到了离散化。

Learn a Model

  1. 对于如下序列

    我们定义Model或者Simulator为:
    $$S_{t+1}=AS_t+Ba_t$$
  2. 然后,我们通过最小化下面的误差就可以得到参数:

拟合的值迭代法(fitted value iterator)

随机的Simulator

通过随机采样,求取平均值,来模拟当前状态s的值函数;然后,最小化误差函数,来估计参数。

  1. 取样
    取样{$s^{1},…,s^{m}$} 包含于$S$ randomly
  2. 初始化
    初始化θ:=0
  3. 重复迭代

    大致思路:公有m个状态。通过随机采样k个状态s,求平均值获得$q(a)$;通过不同的行为获得$y^{(i)}$,求得值函数的最大值;对每一个状态,通过最小化误差函数求取参数θ。

确定的Simulator

模型确定,即我们知道了$S{t+1}=AS_t+Ba_t$,或者$S{t+1}=f(s ~ a)$;从而可以确定下一个状态。我们只需要对每一个状态,通过最小化误差函数求取参数θ。对于上面的步骤,设$k=1$。

不确定的Simulator

采用如下方式:

其中,${\epsilon}_{t} $为误差,服从高斯分布。

NG老师的详细过程






文章目录
  1. 1. 机器学习17—增强学习——拟合的值迭代法(fitted value iterator)
    1. 1.1. Learn a Model
      1. 1.1.1. 拟合的值迭代法(fitted value iterator)
        1. 1.1.1.1. 随机的Simulator
        2. 1.1.1.2. 确定的Simulator
        3. 1.1.1.3. 不确定的Simulator
  2. 2. NG老师的详细过程