已解决430363个问题，去搜搜看，总会有你想问的

为什么我们需要与均匀分布进行比较来选择一个动作，而在 Deep RL 中策略函数会这样做

首页猿问为什么我们需要与均匀分布进行比较来...

为什么我们需要与均匀分布进行比较来选择一个动作，而在 Deep RL 中策略函数会这样做

Python

慕莱坞森 2023-03-16 09:57:15

在Karpathy写的下面的代码中，为什么我们有这一行（为什么我们需要比较均匀分布来选择一个动作，而策略函数是这样做的） # forward the policy network and sample an action from the returned probability aprob, h = policy_forward(x) action = 2 if np.random.uniform() < aprob else 3 # roll the dice!而不仅仅是 # forward the policy network and sample an action from the returned probability aprob, h = policy_forward(x) action = 2 if 0.5 < aprob else 3 # roll the dice!....Karpathy 的完整代码来自：https://gist.github.com/karpathy/a4166c7fe253700972fcbc77e4ea32c5

查看完整描述