策略评估(Policy Evaluation)


想象你是一名船夫,你的任务是驾驶一艘船在海上航行。你的目标是最大化你的收益(奖励)。在每个时刻,你需要决定采取什么动作(比如,向左或向右航行)。策略评估就是用来计算,如果你按照某种特定的策略(比如,总是向左航行)行事,你最终能够获得多少价值(收益)。 例子 让我们看一个简单的例子。假设你在一个有7个

备份(backup)的概念和备份图(backup diagram)


备份(Backup) 想象你站在一个山坡上,你想知道从你当前位置滑到山脚下的总距离。一种方法是,你一步一步地滑下去,每滑一步,就把这一步的距离加到总距离上。但是,如果你已经知道从某个中间点到山脚下的距离,你就可以利用这个信息来更快地计算出从你当前位置到山脚下的总距离。 备份的概念就是这样:它利用未来

价值函数(State Value Function)和Q函数(Action Value Function)


状态价值函数(V(s)) 想象你在一个迷宫中,你的目标是找到出口。状态价值函数V(s)就是用来评估你当前所处位置(状态s)的好坏的。它告诉你,如果你从当前这个位置开始,按照某种策略行动,你最终能够获得的奖励(或者说是收益)的期望值是多少。 简单来说,V(s)回答了这样一个问题:“我现在在这个状态,我

JakeProvence第一篇博客----记录我的爱情

生活