机器学习17--增强学习——拟合的值迭代法(fitted value iterator)
文章目录
机器学习17—增强学习——拟合的值迭代法(fitted value iterator)
本章不是很理解,只是把笔记摘录了一些。
首先讲到了离散化。
Learn a Model
- 对于如下序列
我们定义Model或者Simulator为:
$$S_{t+1}=AS_t+Ba_t$$ - 然后,我们通过最小化下面的误差就可以得到参数:
拟合的值迭代法(fitted value iterator)
随机的Simulator
通过随机采样,求取平均值,来模拟当前状态s的值函数;然后,最小化误差函数,来估计参数。
- 取样
取样{$s^{1},…,s^{m}$} 包含于$S$ randomly - 初始化
初始化θ:=0 - 重复迭代
大致思路:公有m个状态。通过随机采样k个状态s,求平均值获得$q(a)$;通过不同的行为获得$y^{(i)}$,求得值函数的最大值;对每一个状态,通过最小化误差函数求取参数θ。
确定的Simulator
模型确定,即我们知道了$S{t+1}=AS_t+Ba_t$,或者$S{t+1}=f(s ~ a)$;从而可以确定下一个状态。我们只需要对每一个状态,通过最小化误差函数求取参数θ。对于上面的步骤,设$k=1$。
不确定的Simulator
采用如下方式:
其中,${\epsilon}_{t} $为误差,服从高斯分布。