Policy Gradient refactor

dennybritz · dennybritz · commit 9c24bd1fa8a9 · 2016-10-01T19:05:51.000-07:00
diff --git a/PolicyGradient/README.md b/PolicyGradient/README.md
@@ -48,9 +48,15 @@
 
 ### Exercises
 
-- Implement REINFORCE with Baseline (Exercise, [Solution](CliffWalk REINFORCE with Baseline Solution.ipynb))
-- Implement Actor Critic with Baseline (Exercise, [Solution](CliffWalk Actor Critic Solution.ipynb))
-- Implement Actor Critic with Baseline for Continuous Action Space (Exercise, [Solution](Continuous MountainCar Actor Critic Solution.ipynb))
-- Implement Deterministic Policy Gradients for Continuous Action Spaces (WIP)
-- Implement Deep Deterministic Policy Gradients (WIP)
-- Implement Asynchronous Advantage Actor Critic (A3C) (WIP)
+- REINFORCE with Baseline
+  - Exercise
+  - [Solution](CliffWalk REINFORCE with Baseline Solution.ipynb)
+- Actor Critic with Baseline
+  - Exercise
+  - [Solution](CliffWalk Actor Critic Solution.ipynb)
+- Actor Critic with Baseline for Continuous Action Spaces
+  - Exercise
+  - [Solution](Continuous MountainCar Actor Critic Solution.ipynb)
+- Deterministic Policy Gradients for Continuous Action Spaces (WIP)
+- Deep Deterministic Policy Gradients (WIP)
+- Asynchronous Advantage Actor Critic (A3C) (WIP)