Jake Provence Blog

预测（prediction）和控制（control）

机器学习

预测（Prediction）想象你是一名司机，你有一辆车和一张地图，你需要开车从一个地方到另一个地方。预测就是在你已经知道如何开车（有一个策略）的情况下，预测你最终会到达哪里，花多长时间，可能会遇到什么情况。在马尔可夫决策过程（MDP）中，预测是指给定一个策略（比如，总是向左走或随机走），计算出

机器学习

想象你是一名船夫，你的任务是驾驶一艘船在海上航行。你的目标是最大化你的收益（奖励）。在每个时刻，你需要决定采取什么动作（比如，向左或向右航行）。策略评估就是用来计算，如果你按照某种特定的策略（比如，总是向左航行）行事，你最终能够获得多少价值（收益）。例子让我们看一个简单的例子。假设你在一个有7个

机器学习

备份（Backup）想象你站在一个山坡上，你想知道从你当前位置滑到山脚下的总距离。一种方法是，你一步一步地滑下去，每滑一步，就把这一步的距离加到总距离上。但是，如果你已经知道从某个中间点到山脚下的距离，你就可以利用这个信息来更快地计算出从你当前位置到山脚下的总距离。备份的概念就是这样：它利用未来

机器学习

状态价值函数（V(s)）想象你在一个迷宫中，你的目标是找到出口。状态价值函数V(s)就是用来评估你当前所处位置（状态s）的好坏的。它告诉你，如果你从当前这个位置开始，按照某种策略行动，你最终能够获得的奖励（或者说是收益）的期望值是多少。简单来说，V(s)回答了这样一个问题：“我现在在这个状态，我

生活