机器学习17--增强学习——拟合的值迭代法(fitted value iterator)
文章目录
机器学习17—增强学习——拟合的值迭代法(fitted value iterator)
本章不是很理解,只是把笔记摘录了一些。
首先讲到了离散化。
Learn a Model
拟合的值迭代法(fitted value iterator)
随机的Simulator
通过随机采样,求取平均值,来模拟当前状态s的值函数;然后,最小化误差函数,来估计参数。
- 取样
取样{s1,…,sm} 包含于S randomly - 初始化
初始化θ:=0 - 重复迭代
大致思路:公有m个状态。通过随机采样k个状态s,求平均值获得q(a);通过不同的行为获得y(i),求得值函数的最大值;对每一个状态,通过最小化误差函数求取参数θ。
确定的Simulator
模型确定,即我们知道了$S{t+1}=AS_t+Ba_t,或者S{t+1}=f(s ~ a);从而可以确定下一个状态。我们只需要对每一个状态,通过最小化误差函数求取参数θ。对于上面的步骤,设k=1$。
不确定的Simulator
其中,{\epsilon}_{t} 为误差,服从高斯分布。