预测（prediction）和控制（control）

机器学习

预测（Prediction）

想象你是一名司机，你有一辆车和一张地图，你需要开车从一个地方到另一个地方。预测就是在你已经知道如何开车（有一个策略）的情况下，预测你最终会到达哪里，花多长时间，可能会遇到什么情况。

在马尔可夫决策过程（MDP）中，预测是指给定一个策略（比如，总是向左走或随机走），计算出每个状态的价值函数。价值函数告诉你，如果你从某个状态开始，按照你的策略行动，你最终能够获得多少奖励。

控制（Control）

控制是指在没有给定策略的情况下，找到最佳的策略来最大化你的奖励。就像你不知道如何开车，但是你想找到最好的路线来到达目的地。

在MDP中，控制是指找到最佳的策略（π*）和最佳的价值函数（V*）。最佳策略是指能够最大化你的累计奖励的策略。

区别

预测和控制的区别在于：

例子

让我们看一个网格世界的例子。

通过解决预测问题，我们可以了解一个给定策略的价值。通过解决控制问题，我们可以找到最佳的策略和最佳的价值函数，从而最大化我们的奖励。

总结

预测和控制是MDP中的两个核心问题。预测是指给定一个策略，计算出它的价值函数。控制是指找到最佳的策略和最佳的价值函数。两者是递进的关系，通过解决预测问题，我们可以进而解决控制问题。

如果觉得文章对你有用，请随意赞赏

强化学习

预测（prediction）和控制（control）

Jake Provence

2025-04-07

2025-04-07

CC BY 4.0