Fix step and reset NotImplementedError

Sanyam Kapoor · Sanyam Kapoor · commit edcba6b8790d · 2018-02-19T14:20:31.000-05:00
diff --git a/MC/Blackjack Playground.ipynb b/MC/Blackjack Playground.ipynb
@@ -2,10 +2,8 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 419,
-   "metadata": {
-    "collapsed": true
-   },
+   "execution_count": 1,
+   "metadata": {},
    "outputs": [],
    "source": [
     "import numpy as np\n",
@@ -17,7 +15,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 420,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -26,151 +24,29 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 422,
+   "execution_count": 3,
    "metadata": {},
    "outputs": [
     {
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "Player Score: 17 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 18 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 28 (Usable Ace: False), Dealer Score: 10\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 6 (Usable Ace: False), Dealer Score: 9\n",
-      "Taking action: Hit\n",
-      "Player Score: 16 (Usable Ace: False), Dealer Score: 9\n",
-      "Taking action: Hit\n",
-      "Player Score: 26 (Usable Ace: False), Dealer Score: 9\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 12 (Usable Ace: False), Dealer Score: 6\n",
-      "Taking action: Hit\n",
-      "Player Score: 21 (Usable Ace: False), Dealer Score: 6\n",
-      "Taking action: Stick\n",
-      "Player Score: 21 (Usable Ace: False), Dealer Score: 6\n",
-      "Game end. Reward: 1.0\n",
-      "\n",
-      "Player Score: 17 (Usable Ace: True), Dealer Score: 8\n",
-      "Taking action: Hit\n",
-      "Player Score: 17 (Usable Ace: False), Dealer Score: 8\n",
-      "Taking action: Hit\n",
-      "Player Score: 22 (Usable Ace: False), Dealer Score: 8\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
       "Player Score: 17 (Usable Ace: False), Dealer Score: 8\n",
-      "Taking action: Hit\n",
-      "Player Score: 27 (Usable Ace: False), Dealer Score: 8\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 16 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 19 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 28 (Usable Ace: False), Dealer Score: 10\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 13 (Usable Ace: False), Dealer Score: 7\n",
-      "Taking action: Hit\n",
-      "Player Score: 14 (Usable Ace: False), Dealer Score: 7\n",
-      "Taking action: Hit\n",
-      "Player Score: 24 (Usable Ace: False), Dealer Score: 7\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 17 (Usable Ace: False), Dealer Score: 5\n",
-      "Taking action: Hit\n",
-      "Player Score: 25 (Usable Ace: False), Dealer Score: 5\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 20 (Usable Ace: False), Dealer Score: 5\n",
-      "Taking action: Stick\n",
-      "Player Score: 20 (Usable Ace: False), Dealer Score: 5\n",
-      "Game end. Reward: 1.0\n",
-      "\n",
-      "Player Score: 12 (Usable Ace: True), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 20 (Usable Ace: True), Dealer Score: 10\n",
-      "Taking action: Stick\n",
-      "Player Score: 20 (Usable Ace: True), Dealer Score: 10\n",
-      "Game end. Reward: 0.0\n",
-      "\n",
-      "Player Score: 12 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 19 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 24 (Usable Ace: False), Dealer Score: 10\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 19 (Usable Ace: False), Dealer Score: 4\n",
-      "Taking action: Hit\n",
-      "Player Score: 22 (Usable Ace: False), Dealer Score: 4\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 16 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 20 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Stick\n",
-      "Player Score: 20 (Usable Ace: False), Dealer Score: 10\n",
-      "Game end. Reward: 0.0\n",
-      "\n",
-      "Player Score: 4 (Usable Ace: False), Dealer Score: 3\n",
-      "Taking action: Hit\n",
-      "Player Score: 14 (Usable Ace: False), Dealer Score: 3\n",
-      "Taking action: Hit\n",
-      "Player Score: 24 (Usable Ace: False), Dealer Score: 3\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 21 (Usable Ace: True), Dealer Score: 10\n",
-      "Taking action: Stick\n",
-      "Player Score: 21 (Usable Ace: True), Dealer Score: 10\n",
-      "Game end. Reward: 1.0\n",
-      "\n",
-      "Player Score: 16 (Usable Ace: True), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 12 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 20 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Stick\n",
-      "Player Score: 20 (Usable Ace: False), Dealer Score: 10\n",
-      "Game end. Reward: 1.0\n",
-      "\n",
-      "Player Score: 9 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 19 (Usable Ace: False), Dealer Score: 10\n",
-      "Taking action: Hit\n",
-      "Player Score: 26 (Usable Ace: False), Dealer Score: 10\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 12 (Usable Ace: False), Dealer Score: 5\n",
-      "Taking action: Hit\n",
-      "Player Score: 15 (Usable Ace: False), Dealer Score: 5\n",
-      "Taking action: Hit\n",
-      "Player Score: 21 (Usable Ace: False), Dealer Score: 5\n",
-      "Taking action: Stick\n",
-      "Player Score: 21 (Usable Ace: False), Dealer Score: 5\n",
-      "Game end. Reward: 1.0\n",
-      "\n",
-      "Player Score: 11 (Usable Ace: False), Dealer Score: 9\n",
-      "Taking action: Hit\n",
-      "Player Score: 13 (Usable Ace: False), Dealer Score: 9\n",
-      "Taking action: Hit\n",
-      "Player Score: 17 (Usable Ace: False), Dealer Score: 9\n",
-      "Taking action: Hit\n",
-      "Player Score: 19 (Usable Ace: False), Dealer Score: 9\n",
-      "Taking action: Hit\n",
-      "Player Score: 29 (Usable Ace: False), Dealer Score: 9\n",
-      "Game end. Reward: -1.0\n",
-      "\n",
-      "Player Score: 14 (Usable Ace: False), Dealer Score: 7\n",
-      "Taking action: Hit\n",
-      "Player Score: 19 (Usable Ace: False), Dealer Score: 7\n",
-      "Taking action: Hit\n",
-      "Player Score: 29 (Usable Ace: False), Dealer Score: 7\n",
-      "Game end. Reward: -1.0\n",
-      "\n"
+      "Taking action: Hit\n"
+     ]
+    },
+    {
+     "ename": "RecursionError",
+     "evalue": "maximum recursion depth exceeded",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mRecursionError\u001b[0m                            Traceback (most recent call last)",
+      "\u001b[0;32m<ipython-input-3-e78e3f41e925>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m()\u001b[0m\n\u001b[1;32m     15\u001b[0m         \u001b[0maction\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mstrategy\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobservation\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     16\u001b[0m         \u001b[0mprint\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m\"Taking action: {}\"\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mformat\u001b[0m\u001b[0;34m(\u001b[0m \u001b[0;34m[\u001b[0m\u001b[0;34m\"Stick\"\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"Hit\"\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0maction\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 17\u001b[0;31m         \u001b[0mobservation\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mreward\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdone\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0m_\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0menv\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mstep\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0maction\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     18\u001b[0m         \u001b[0;32mif\u001b[0m \u001b[0mdone\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     19\u001b[0m             \u001b[0mprint_observation\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobservation\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+      "\u001b[0;32m~/Workspace/src/github.com/dennybritz/reinforcement-learning/lib/envs/blackjack.py\u001b[0m in \u001b[0;36mstep\u001b[0;34m(self, action)\u001b[0m\n\u001b[1;32m     84\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     85\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mstep\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maction\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 86\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mstep\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0maction\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     87\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     88\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0m_seed\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mseed\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mNone\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+      "... last 1 frames repeated, from the frame below ...\n",
+      "\u001b[0;32m~/Workspace/src/github.com/dennybritz/reinforcement-learning/lib/envs/blackjack.py\u001b[0m in \u001b[0;36mstep\u001b[0;34m(self, action)\u001b[0m\n\u001b[1;32m     84\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     85\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0mstep\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0maction\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 86\u001b[0;31m         \u001b[0;32mreturn\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mstep\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0maction\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     87\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m     88\u001b[0m     \u001b[0;32mdef\u001b[0m \u001b[0m_seed\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mseed\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mNone\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
+      "\u001b[0;31mRecursionError\u001b[0m: maximum recursion depth exceeded"
      ]
     }
    ],
@@ -197,6 +73,13 @@
     "            print(\"Game end. Reward: {}\\n\".format(float(reward)))\n",
     "            break"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {
@@ -215,7 +98,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.5.2"
+   "version": "3.6.4"
   }
  },
  "nbformat": 4,
diff --git a/lib/envs/blackjack.py b/lib/envs/blackjack.py
@@ -79,6 +79,12 @@ def __init__(self, natural=False):
         self._reset()        # Number of 
         self.nA = 2
 
+    def reset(self):
+        return self._reset()
+
+    def step(self, action):
+        return self._step(action)
+
     def _seed(self, seed=None):
         self.np_random, seed = seeding.np_random(seed)
         return [seed]
@@ -113,4 +119,4 @@ def _reset(self):
         while sum_hand(self.player) < 12:
             self.player.append(draw_card(self.np_random))
 
-        return self._get_obs()
+        return self._get_obs()