aws
diff --git a/‎inference/generativeai/llm-workshop/lab11-llama2/meta-llama-2-13b-lmi.ipynb‎
Lines changed: 7 additions & 9 deletions b/‎inference/generativeai/llm-workshop/lab11-llama2/meta-llama-2-13b-lmi.ipynb‎
Lines changed: 7 additions & 9 deletions
@@ -250,15 +250,13 @@
    "source": [
     "%%writefile code_llama2_13b_fp16/serving.properties\n",
     "engine = MPI\n",
-    "option.tensor_parallel_degree = 4\n",
+    "option.tensor_parallel_degree = max\n",
     "option.rolling_batch = auto\n",
-    "option.max_rolling_batch_size = 8\n",
+    "option.max_rolling_batch_size = 32\n",
     "option.model_loading_timeout = 3600\n",
     "option.model_id = {{model_id}}\n",
-    "option.paged_attention = true\n",
     "option.trust_remote_code = true\n",
-    "option.dtype = fp16\n",
-    "option.enable_streaming=True"
+    "option.dtype = fp16"
    ]
   },
   {
@@ -296,7 +294,7 @@
    "outputs": [],
    "source": [
     "inference_image_uri = image_uris.retrieve(\n",
-    "    framework=\"djl-deepspeed\", region=region, version=\"0.23.0\"\n",
+    "    framework=\"djl-deepspeed\", region=region, version=\"0.26.0\"\n",
     ")\n",
     "print(f\"Image going to be used is ---- > {inference_image_uri}\")"
    ]
@@ -1134,9 +1132,9 @@
   ],
   "instance_type": "ml.t3.medium",
   "kernelspec": {
-   "display_name": "Python 3 (PyTorch 2.0.0 Python 3.10 CPU Optimized)",
+   "display_name": "conda_pytorch_p310",
    "language": "python",
-   "name": "python3__SAGEMAKER_INTERNAL__arn:aws:sagemaker:us-west-2:236514542706:image/pytorch-2.0.0-cpu-py310"
+   "name": "conda_pytorch_p310"
   },
   "language_info": {
    "codemirror_mode": {
@@ -1148,7 +1146,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.10.8"
+   "version": "3.10.13"
   }
  },
  "nbformat": 4,