intel · hshen14 · Sep 15, 2023 · Sep 15, 2023 · Sep 15, 2023 · Sep 15, 2023
diff --git a/intel_extension_for_transformers/llm/inference/inference.py b/intel_extension_for_transformers/llm/inference/inference.py
@@ -696,6 +696,10 @@ def generate_output():
                         input_tokens = prepare_inputs(
                             input_tokens, model.device if hasattr(model, 'device') else torch.device(device)
                         )
+                    else:
+                        input_tokens = tokenizer.batch_encode_plus(
+                            [prompt], return_tensors="pt", padding=True
+                        )
                     with context:
                         generation_kwargs = dict(
                             streamer=streamer,

diff --git a/intel_extension_for_transformers/neural_chat/chatbot.py b/intel_extension_for_transformers/neural_chat/chatbot.py
@@ -21,7 +21,7 @@
 from .config import PipelineConfig
 from .config import BaseFinetuningConfig
 from .config import DeviceOptions
-from .plugins import plugins, global_plugins
+from .plugins import plugins
 
 def build_chatbot(config: PipelineConfig=None):
     """Build the chatbot with a given configuration.
@@ -101,9 +101,6 @@ def build_chatbot(config: PipelineConfig=None):
                 plugins[plugin_name]["instance"] = plugins[plugin_name]['class'](**plugin_value['args'])
                 adapter.register_plugin_instance(plugin_name, plugins[plugin_name]["instance"])
 
-    global_plugins.reset_plugins()
-    plugins = global_plugins.plugins
-
     parameters = {}
     parameters["model_name"] = config.model_name_or_path
     if config.tokenizer_name_or_path:

diff --git a/intel_extension_for_transformers/neural_chat/docker/Dockerfile b/intel_extension_for_transformers/neural_chat/docker/Dockerfile
@@ -70,7 +70,7 @@ RUN source activate && conda activate chatbot-finetuning && pip install oneccl_b
     git clone https://github.com/huggingface/peft.git && cd peft && python setup.py install && \
     cd /intel-extension-for-transformers && pip install -v . && \
     cd ./intel_extension_for_transformers/neural_chat/examples/instruction_tuning && pip install -r requirements.txt && \
-    cd /intel-extension-for-transformers/intel-extension-for-transformers/intel_extension_for_transformers/neural_chat && pip install -r requirements.txt
+    cd /intel-extension-for-transformers/intel-extension-for-transformers/intel_extension_for_transformers/neural_chat && pip install -r requirements_cpu.txt
 
 # Enable passwordless ssh for mpirun^M
 RUN mkdir /var/run/sshd
@@ -120,7 +120,7 @@ RUN git clone --single-branch --branch=${ITREX_VER} ${REPO} intel-extension-for-
     cd /intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/examples/instruction_tuning/ && \
     pip install -r requirements.txt && \
     cd /intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/ && \
-    pip install -r requirements.txt
+    pip install -r requirements_hpu.txt
 
 # Build ITREX
 RUN cd /intel-extension-for-transformers && pip install -v . && \

diff --git a/intel_extension_for_transformers/neural_chat/docker/inference/Dockerfile b/intel_extension_for_transformers/neural_chat/docker/inference/Dockerfile
@@ -72,7 +72,7 @@ RUN source activate && conda activate chatbot-demo && \
     pip install schema && \
     pip install datasets torch transformers sentencepiece peft evaluate nltk rouge_score && \
     cd /root/chatbot && git clone https://github.com/intel/intel-extension-for-transformers.git \
-    && cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/ && pip install -r requirements.txt
+    && cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/ && pip install -r requirements_cpu.txt
 
 ENV KMP_BLOCKTIME=1
 ENV KMP_SETTINGS=1
@@ -111,7 +111,7 @@ RUN git clone https://github.com/huggingface/optimum-habana.git && \
 
 RUN git clone https://github.com/intel/intel-extension-for-transformers.git \
     && cd ./intel-extension-for-transformers/intel_extension_for_transformers/neural_chat/ \
-    && pip install -r requirements.txt \
+    && pip install -r requirements_hpu.txt \
     && pip install transformers==4.32.0 \
     && pip install accelerate==0.22.0  \
     && pip uninstall -y intel_extension_for_pytorch

diff --git a/intel_extension_for_transformers/neural_chat/models/base_model.py b/intel_extension_for_transformers/neural_chat/models/base_model.py
@@ -19,9 +19,9 @@
 from typing import List
 import os
 from fastchat.conversation import get_conv_template, Conversation
-from intel_extension_for_transformers.llm.inference import load_model, predict, predict_stream, MODELS
+from intel_extension_for_transformers.llm.inference import load_model, predict, predict_stream
 from ..config import GenerationConfig
-from ..plugins import is_plugin_enabled, get_plugin_instance, get_registered_plugins, get_plugin_arguments
+from ..plugins import is_plugin_enabled, get_plugin_instance, get_registered_plugins, plugins
 from ..utils.common import is_audio_file
 
 
@@ -204,6 +204,15 @@ def predict(self, query, config=None):
                     if hasattr(plugin_instance, 'post_llm_inference_actions'):
                         response = plugin_instance.post_llm_inference_actions(response)
 
+        # clear plugins config
+        for key in plugins:
+            plugins[key] = {
+                "enable": False,
+                "class": None,
+                "args": {},
+                "instance": None
+            }
+
         return response
 
     def chat_stream(self, query, config=None):

diff --git a/intel_extension_for_transformers/neural_chat/requirements.txt b/intel_extension_for_transformers/neural_chat/requirements.txt
@@ -35,3 +35,4 @@ rouge_score
 openpyxl
 numpy==1.23.5
 tiktoken==0.4.0
+lm_eval
diff --git a/intel_extension_for_transformers/neural_chat/requirements_cpu.txt b/intel_extension_for_transformers/neural_chat/requirements_cpu.txt
@@ -0,0 +1,38 @@
+transformers>=4.32.0
+peft
+fschat
+torch
+torchaudio
+intel_extension_for_pytorch
+num2words
+speechbrain
+paddlepaddle
+paddlespeech==1.4.1
+shortuuid
+gptcache
+evaluate
+pydub
+python-multipart
+PyPDF2
+langchain
+python-docx
+scikit-learn
+farm-haystack
+librosa
+beautifulsoup4
+InstructorEmbedding
+chromadb
+fastapi
+pydantic
+starlette
+yacs
+uvicorn
+optimum
+sentence_transformers
+unstructured
+markdown
+rouge_score
+openpyxl
+numpy==1.23.5
+tiktoken==0.4.0
+lm_eval
diff --git a/intel_extension_for_transformers/neural_chat/requirements_hpu.txt b/intel_extension_for_transformers/neural_chat/requirements_hpu.txt
@@ -0,0 +1,35 @@
+transformers>=4.32.0
+peft
+fschat
+num2words
+speechbrain
+paddlepaddle
+paddlespeech==1.4.1
+shortuuid
+gptcache
+evaluate
+pydub
+python-multipart
+PyPDF2
+langchain
+python-docx
+scikit-learn
+farm-haystack
+librosa
+beautifulsoup4
+InstructorEmbedding
+chromadb
+fastapi
+pydantic
+starlette
+yacs
+uvicorn
+optimum
+sentence_transformers
+unstructured
+markdown
+rouge_score
+openpyxl
+numpy==1.23.5
+tiktoken==0.4.0
+lm_eval
diff --git a/intel_extension_for_transformers/neural_chat/tests/api/test_chatbot_build_api.py b/intel_extension_for_transformers/neural_chat/tests/api/test_chatbot_build_api.py
@@ -72,7 +72,7 @@ def test_build_chatbot_with_audio_plugin(self):
 
         self.assertIsNotNone(response)
         print("output audio path: ", response)
-        self.assertTrue(os.path.exists(plugins.tts.args["output_audio_path"]))
+        self.assertTrue(os.path.exists("./output_audio.wav"))
 
     def test_build_chatbot_with_safety_checker_plugin(self):
         plugins.safety_checker.enable = True

diff --git a/intel_extension_for_transformers/neural_chat/tests/api/test_inference.py b/intel_extension_for_transformers/neural_chat/tests/api/test_inference.py
@@ -64,5 +64,14 @@ def test_quantization(self):
         config = AMPConfig()
         optimize_model(model="facebook/opt-125m", config=config)
 
+    def test_text_chat_stream(self):
+        config = PipelineConfig(model_name_or_path="facebook/opt-125m")
+        chatbot = build_chatbot(config)
+        stream_text = ""
+        for text in chatbot.predict_stream("Tell me about Intel Xeon Scalable Processors."):
+            stream_text += text
+            print(text)
+        self.assertIsNotNone(stream_text)
+
 if __name__ == '__main__':
     unittest.main()
diff --git a/intel_extension_for_transformers/neural_chat/tests/requirements.txt b/intel_extension_for_transformers/neural_chat/tests/requirements.txt
@@ -36,3 +36,4 @@ rouge_score
 openpyxl
 numpy==1.23.5
 tiktoken==0.4.0
+lm_eval