AI学习笔记——Q Learning

  • 时间:
  • 浏览:2

比如Q表在S0最大概率会向右移动,在S1最大概率还是向右移动,将会A2在另另六个多情形的Q表数值都在最大的。

)和向下(A

也就说 设定另另六个多ε(比如0.9),90%的几率按照Q表数值最大Action行动,10%随机行动。每行动一次就要更新一下Q表。

当机器人处于S0的情形时,将会刚好选者了A2,如此 下另另六个多情形就说 S1(注意有10%的概率会选者或者 的Action, 而到达或者 的情形)。行动事先,亲戚亲们就并能更新Q(S0,A2)的数值, 先给结果吧:

)向上(A

继续接着上一篇,这篇文章介绍强化学习中的另另六个多经典算法——Q Learning.

强化学习通常包括如此 几只重要概念:

上图红色方框就说 亲戚亲们的机器人,任务是要在4x4的迷宫中找到黄色圆圈的宝藏,并学习到达宝藏的最佳路径。将会以左上角的初始情形为S

这里再解释一下为那此要用衰减值 γ,从中间的公式并能看出,St 和 St+1是另另六个多递归的关系。当机器人走到第n步的事先,会受到0到n-1每一步情形的影响。将会衰减值γ=1,如此 每一步的影响都在一样的。γ在0到1之间,就并能让越靠近n的情形对第n步影响越大,事先的情形随着行动的增加,影响力会如此 小。

,掉入黑色陷阱奖励(Reward)为-1,或者 地方为0。

Q(S0,A2) = Q(S0,A2) + α[R(S1) + γ*maxa Q(S1,a)-Q(S0,A2)]

)移动。将会找到黄色圆圈(宝藏)

)。机器人的

,如此 整个迷宫一共有16个

Q learning的算法就说 如何更新Q表的辦法 。还是以表下为例:

你这名 Q表是经过学习事先的结果,学习暂且断更新你这名 表的过程就说 Q Learning。

中间的公式像极了在线性回归中的梯度下降法(Gradient Descent)。只不过在线性回归亲戚亲们更新权重W的辦法 ,在这里亲戚亲们更新Q表而已。

在事先的文章中将会介绍过了,强化学习就说 让机器人(Agent)在与环境的互动过程学习处理间题的最佳路径的过程。

到S

解释一下

Q(S0,A2)新=Q(S0,A2) 旧 + α* [Q(S0,A2)目标 - Q(S0,A2)旧]

另另另六个多 们再把公式重写一遍就清楚了吧:

Q Learning 就说 创造另另六个多Q表,来指导机器人的行动,Q表对应Action的数值越大,机器人就越大概率地采取你这名 Action.

完全的公式如下:

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言将会访问我的Steemit主页

有六个: 分别是向左(A

下面以另另六个多例子来解释这几只概念,并介绍一下Q Learning是那此:

Q Learning 是如何学习并更新Q表呢?正如多臂老虎机(Multi-armed bandit)间题一样,将会机器人仅仅按照表中最大概率指导行动说说,是学不并能任何东西的,它并能不停地在未知地图上进行探索,这就说 是探索-利用困境(Explore-Exploit dilemma)。同样的,亲戚亲们也并能用ε贪婪辦法 (ε -Greedy method)的辦法 来处理你这名 困境。

(从左到右从上到下分别是S

)向右(A