目录
- P220
P220
\(J(\theta)\)并不是利用重要性采样得出的。我们现在没有估计在\(\pi\)下的平均状态值了,而是估计的行为策略为\(\beta\),目标策略为\(\pi\)的平均状态值,我们关心的是在行为策略β经常访问的状态下,目标策略π的性能如何;这里直接用重要性采样的话,可能方差会很大,因为现在\(s\)是根据\(\beta\)采样出来的,假设在区间\([a,b]\)中\(\beta(s)\)很大而且相近,于是很多样本都来自\([a,b]\),又假设在\([a,b]\)中,\(\pi(s)\)的波动很大(也就是一些概率很大另一些概率很小),那么在\([a,b]\)中\(\frac{\pi(s)}{\beta(s)}\)的波动就很大