为了账号安全,请及时绑定邮箱和手机立即绑定

为什么我们需要与均匀分布进行比较来选择一个动作,而在 Deep RL 中策略函数会这样做

为什么我们需要与均匀分布进行比较来选择一个动作,而在 Deep RL 中策略函数会这样做

慕莱坞森 2023-03-16 09:57:15
在Karpathy写的下面的代码中,为什么我们有这一行(为什么我们需要比较均匀分布来选择一个动作,而策略函数是这样做的)  # forward the policy network and sample an action from the returned probability  aprob, h = policy_forward(x)  action = 2 if np.random.uniform() < aprob else 3 # roll the dice!而不仅仅是 # forward the policy network and sample an action from the returned probability  aprob, h = policy_forward(x)  action = 2 if 0.5 < aprob else 3 # roll the dice!....Karpathy 的完整代码来自:https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5
查看完整描述

1 回答

?
米脂

TA贡献1836条经验 获得超3个赞

如果没有统一比较,政策将是确定性的。对于任何给定的状态,该policy_forward函数将返回相同的输出,因此每次都会采取相同的操作。因此,不会对您使用您提出的方法进行任何探索。制服在动作选择中引入了一些随机性,这鼓励了探索。没有探索,基本上不可能发现最优策略。



查看完整回答
反对 回复 2023-03-16
  • 1 回答
  • 0 关注
  • 82 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号