Merge pull request dennybritz#39 from yenchenlin/fix-value-prediction

dennybritz · web-flow · commit c4da78ec1f96 · 2016-12-04T11:46:15.000-08:00
Fix value prediction in A3C
diff --git a/PolicyGradient/a3c/worker.py b/PolicyGradient/a3c/worker.py
@@ -164,7 +164,7 @@ def update(self, transitions, sess):
     # If we episode was not done we bootstrap the value from the last state
     reward = 0.0
     if not transitions[-1].done:
-      reward = self._value_net_predict(transitions[-1].state, sess)
+      reward = self._value_net_predict(transitions[-1].next_state, sess)
 
     # Accumulate minibatch exmaples
     states = []