Jake Provence Blog
首页
文章
标签
分类
关于
1
复现管理系统教程
2
价值函数(State Value Function)和Q函数(Action Value Function)
3
IntelliJ IDEA 等软件激活码失效,代理方法
4
JakeProvence第一篇博客----记录我的爱情
5
预测(prediction)和控制(control)
登录
Jake Provence
累计撰写
10
篇文章
累计创建
4
个分类
累计创建
7
个标签
导航
首页
文章
标签
分类
关于
目录
分类
机器学习
强化学习:策略迭代与价值迭代的区别
2025-04-14 15:31
8
1
0
27.8℃
机器学习
在生活中,我们经常会遇到需要做出决策的情况,比如选择职业、投资理财或者规划旅行路线。强化学习是一种可以帮助我们做出更好决策的方法。在强化学习中,有两种常用的方法:策略迭代和价值迭代。今天,我们将通过生活中的例子和机器人的例子来讲解这两种方法的区别。 策略迭代 假设你是一名学生,正在考虑选择什么样的职
强化学习教程:策略迭代和贝尔曼最优方程
2025-04-14 15:01
6
0
0
24.6℃
机器学习
引言 强化学习是一种机器学习方法,它通过智能体与环境的交互来学习最优策略。在本教程中,我们将介绍强化学习中的两个重要概念:策略迭代和贝尔曼最优方程。我们将通过例子和通俗易懂的方式来讲解这些概念。 策略迭代 策略迭代是一种优化策略的方法,它由两个步骤组成:策略评估和策略改进。 例子:机器人导航 假设我
动态规划
2025-04-08 17:25
7
0
2
28.7℃
机器学习
动态规划是一种解决问题的方法,它适合解决那些可以分解成小问题,并且这些小问题的答案可以组合起来得到原问题答案的问题。简单来说,就是把一个大问题拆成很多小问题,解决了小问题,大问题也就解决了。 动态规划有两个关键点: 最优子结构:这意味着问题可以被分解成小问题,通过解决这些小问题,可以得到原问题的最优
预测(prediction)和控制(control)
2025-04-07 17:48
10
0
2
29.0℃
机器学习
预测(Prediction) 想象你是一名司机,你有一辆车和一张地图,你需要开车从一个地方到另一个地方。预测就是在你已经知道如何开车(有一个策略)的情况下,预测你最终会到达哪里,花多长时间,可能会遇到什么情况。 在马尔可夫决策过程(MDP)中,预测是指给定一个策略(比如,总是向左走或随机走),计算出
策略评估(Policy Evaluation)
2025-04-07 17:40
6
0
2
28.6℃
机器学习
想象你是一名船夫,你的任务是驾驶一艘船在海上航行。你的目标是最大化你的收益(奖励)。在每个时刻,你需要决定采取什么动作(比如,向左或向右航行)。策略评估就是用来计算,如果你按照某种特定的策略(比如,总是向左航行)行事,你最终能够获得多少价值(收益)。 例子 让我们看一个简单的例子。假设你在一个有7个
备份(backup)的概念和备份图(backup diagram)
2025-04-07 17:27
9
0
0
24.9℃
机器学习
备份(Backup) 想象你站在一个山坡上,你想知道从你当前位置滑到山脚下的总距离。一种方法是,你一步一步地滑下去,每滑一步,就把这一步的距离加到总距离上。但是,如果你已经知道从某个中间点到山脚下的距离,你就可以利用这个信息来更快地计算出从你当前位置到山脚下的总距离。 备份的概念就是这样:它利用未来
价值函数(State Value Function)和Q函数(Action Value Function)
2025-04-07 17:10
39
0
2
31.9℃
机器学习
状态价值函数(V(s)) 想象你在一个迷宫中,你的目标是找到出口。状态价值函数V(s)就是用来评估你当前所处位置(状态s)的好坏的。它告诉你,如果你从当前这个位置开始,按照某种策略行动,你最终能够获得的奖励(或者说是收益)的期望值是多少。 简单来说,V(s)回答了这样一个问题:“我现在在这个状态,我
弹