Mod. estimator_value comment in actor-critic

Alex · Alex · commit 783c2c39a3a9 · 2017-12-28T10:16:48.000+09:00
diff --git a/PolicyGradient/CliffWalk Actor Critic Solution.ipynb b/PolicyGradient/CliffWalk Actor Critic Solution.ipynb
@@ -3,9 +3,7 @@
   {
    "cell_type": "code",
    "execution_count": 16,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "%matplotlib inline\n",
@@ -29,9 +27,7 @@
   {
    "cell_type": "code",
    "execution_count": 17,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "env = CliffWalkingEnv()"
@@ -88,9 +84,7 @@
   {
    "cell_type": "code",
    "execution_count": 19,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "class ValueEstimator():\n",
@@ -145,7 +139,7 @@
     "    Args:\n",
     "        env: OpenAI environment.\n",
     "        estimator_policy: Policy Function to be optimized \n",
-    "        estimator_value: Value function approximator, used as a baseline\n",
+    "        estimator_value: Value function approximator, used as a critic\n",
     "        num_episodes: Number of episodes to run for\n",
     "        discount_factor: Time-discount factor\n",
     "    \n",
@@ -209,9 +203,7 @@
   {
    "cell_type": "code",
    "execution_count": 26,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "name": "stdout",
@@ -238,9 +230,7 @@
   {
    "cell_type": "code",
    "execution_count": 28,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -306,9 +296,9 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.5.0"
+   "version": "3.5.2"
   }
  },
  "nbformat": 4,
- "nbformat_minor": 0
+ "nbformat_minor": 1
 }
diff --git a/PolicyGradient/Continuous MountainCar Actor Critic Solution.ipynb b/PolicyGradient/Continuous MountainCar Actor Critic Solution.ipynb
@@ -233,7 +233,7 @@
     "    Args:\n",
     "        env: OpenAI environment.\n",
     "        estimator_policy: Policy Function to be optimized \n",
-    "        estimator_value: Value function approximator, used as a baseline\n",
+    "        estimator_value: Value function approximator, used as a critic\n",
     "        num_episodes: Number of episodes to run for\n",
     "        discount_factor: Time-discount factor\n",
     "    \n",
@@ -343,7 +343,9 @@
   {
    "cell_type": "code",
    "execution_count": null,
-   "metadata": {},
+   "metadata": {
+    "collapsed": true
+   },
    "outputs": [],
    "source": [
     "plotting.plot_episode_stats(stats, smoothing_window=10)"
@@ -384,7 +386,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.6.1"
+   "version": "3.5.2"
   }
  },
  "nbformat": 4,