首页手记 AI学习笔记——Q Learning

AI学习笔记——Q Learning

标签：

人工智能

，强化学习就是让机器人(Agent)在与环境的互动过程学习解决问题的最佳路径的过程。

强化学习通常包括这么几个重要概念：

状态(State (S))
动作(Action(A))
奖励(Reward(R))

下面以一个例子来解释这几个概念，并介绍一下Q Learning是什么：

上图红色方框就是我们的机器人，任务是要在4x4的迷宫中找到黄色圆圈的宝藏，并学习到达宝藏的最佳路径。如果以左上角的初始状态为S₀，那么整个迷宫一共有16个状态(State)（从左到右从上到下分别是S₀到S₁₅）。机器人的行动（Action）有四个: 分别是向左(A₁)向右(A₂)向上(A₃)和向下(A₄)移动。如果找到黄色圆圈(宝藏)奖励(Reward)为1，掉入黑色陷阱奖励(Reward)为-1，其他地方为0。

1. Q表(Q table)

Q Learning 就是创造一个Q表，来指导机器人的行动，Q表对应Action的数值越大，机器人就越大概率地采取这个Action.

Q table (States\Actions)	left (A₁)	right (A₂)	up (A₃)	down (A₄)
S₀	-1	3	-1	2
S₁	1	2	-1	1
...	...	...	...	..

比如Q表在S₀最大概率会向右移动，在S₁最大概率还是向右移动，因为A₂在两个状态的Q表数值都是最大的。

这个Q表是经过学习之后的结果，学习并不断更新这个表的过程就是Q Learning。

2. 探索-利用困境(Explore-Exploit dilemma)

Q Learning 是如何学习并更新Q表呢？正如多臂xxx(Multi-armed bandit)问题一样，如果机器人仅仅按照表中最大概率指导行动的话，是学不到任何东西的，它还需要不停地在未知地图上进行探索，这就是是探索-利用困境(Explore-Exploit dilemma)。同样的，我们也可以用ε贪婪方法(ε -Greedy method)的方法来解决这个困境。

也就是设定一个ε(比如0.9)，90%的几率按照Q表数值最大Action行动，10%随机行动。每行动一次就要更新一下Q表。

3. 如何更新Q表

Q learning的算法就是如何更新Q表的方法。还是以表下为例：

Q table (States\Actions)	left (A₁)	right (A₂)	up (A₃)	down (A₄)
S₀	-1	3	-1	2
S₁	1	2	-1	1

当机器人处于S₀的状态时，如果刚好选择了A₂，那么下一个状态就是S₁（注意有10%的概率会选择其他的Action, 而到达其他的状态)。行动之后，我们就需要更新Q(S₀,A₂)的数值, 先给结果吧：

Q(S₀,A₂) = Q(S₀,A₂) + α[R(S₁) + γ*max_aQ(S₁,a)-Q(S₀,A₂)]

解释一下

R(S₁)是机器人在S₁能活的的奖励(Reward)(该游戏除了陷阱的地方为-1，宝藏的地方为1，其他地方均为0)。
γ为衰减值。
max_aQ(S₁,a)是S₁状态下Q表数值最大的一个(这里是2)。
α是学习速率(Learning Rate)。
R(S₁) + γ*max_aQ(S₁,a)是Q(S₀,A₂) 的目标数值。

那我们再把公式重写一遍就清楚了吧：

Q(S₀,A₂)新=Q(S₀,A₂) 旧 + α* [Q(S₀,A₂)目标 - Q(S₀,A₂)旧]

上面的公式像极了在线性回归中的梯度下降法(Gradient Descent)。只不过在线性回归我们更新权重W的方法，在这里我们更新Q表而已。

完整的公式如下：

4. 衰减值

这里再解释一下为什么要用衰减值 γ，从上面的公式可以看出，S_t 和 S_t+1是一个递归的关系。当机器人走到第n步的时候，会受到0到n-1每一步状态的影响。如果衰减值γ=1，那么每一步的影响都是一样的。γ在0到1之间，就可以让越靠近n的状态对第n步影响越大，之前的状态随着行动的增加，影响力会越来越小。

文章首发steemit.com

作者：Hongtao洪滔
链接：https://www.jianshu.com/p/1db893f2c8e4

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

慕哥9229398

手记
篇

粉丝

201

获赞与收藏

918

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32886 371

网络编程入门教程

20个小节 13641 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

AI学习笔记——Q Learning

1. Q表(Q table)

2. 探索-利用困境(Explore-Exploit dilemma)

3. 如何更新Q表

4. 衰减值

阅读免费教程