在k臂老虎机问题中,每一次选择动作都有动作对应的期望(expected)或者平均(meaning)的奖励称为动作值(the value of that action),时刻t选择的动作记为 A t A_{t}q??(a)?E[Rt?∣At?=a]若已知所有的动作值函数,k臂老虎机就很好解决了——我们只需要选择值最高的动作但我们假設的情况是,动作值不可知但可估计。称时刻t动作a对应的估计值为
a称为贪婪动作当我们采取贪婪动作的时候,称我们在钻研/开发(exploiting)動作值;当不采取贪婪动作时称我们在调查/探索(exploring)。探索可以提升非贪婪动作的值在单步中,开发可以最大化期望奖励;在多步中探索有利于得到更高的总奖励。
在本章中我们提出几个简单平衡探索-开发问题的方法,并且证明它们比纯开发的效果更好
动作值方法:?、估计动作值;?、根据估计值选择动作。
抽样平均方法(sample-average) 用于估计动作值: q ? ( a ) q_{*}(a)q??(a)是我们的目标即选择的动作的平均值。我們构造:
Qt?(a)=0根据大数法则,当分母趋于无穷时即无限多次选择之后,
a ) q_{*}(a) q??(a)当然,抽样平均方法并不是估计动作值最好的方法但我們在这里不做展开。
?的概率会随机选择一个动作好处是当步数增多时,每一个动作都将被采样无限多次所鉯保证了所有的 Q t ( a ) Q_{t}(a)
由公式可知,此时贪心动作被选择的概率是0.75
工作机制:每一次运行, 都依高斯分布(均值为0方差为1的正态分布)随机選出10个值作为 q ? ( a ) q_{*}(a)q??(a)(每个动作a对应的真实值)。在时间步t选择的动作 A t A_{t}q??(a)方差为1的正态分布。并且运行多次例如2000次,注意每次都重噺随机生成 q ? ( a )
? \epsilon?-贪心算法的优势取决于任务的设定,若方差高则效果好;反之,则效果不佳另外,如果我们弱化假设那么 ? \epsilon?-贪心算法将变得很重要。例如我们假设k臂老虎机不稳定。不稳定性是强化学习最常见的问题即使我们假设环境是稳定且确定的,我们的小实验中的 R t R_{t}Rt?仍然每一次都不一样因此探索/调查的模式必不可少。实际强化学习中我们需要平衡探索和开发
上一节介绍了使用样本平均的方法估计奖励这一节将介绍如何更有效率地估计奖励的平均值,该方法有固定的记忆空间和固定的每步计算量首先给一些定义:
称 R i R_{i}Ri?为執行第i个动作得到的奖励。 {R1?,R2?,...,Rn?1?}会随之变大而且计算量也会随之增大。事实上这不是必要的,我们可以做等价替换使其表达为遞增的形式,称为递增实现