En este documento se describe cómo desplegar y servir modelos abiertos en Vertex AI mediante imágenes de contenedor prediseñadas. Vertex AI proporciona contenedores prediseñados para frameworks de servicio populares, como vLLM, Hex-LLM y SGLang, así como compatibilidad con Text Generation Inference (TGI), Text Embeddings Inference (TEI) e Inference Toolkit (a través deGoogle Cloud Hugging Face PyTorch Inference Containers)Tensor-RT-LLM de Hugging Face para servir modelos compatibles en Vertex AI.
vLLM es una biblioteca de código abierto para la inferencia y el servicio rápidos de modelos de lenguaje extensos (LLMs). Vertex AI usa una versión optimizada y personalizada de vLLM. Esta versión se ha diseñado específicamente para mejorar el rendimiento, la fiabilidad y la integración perfecta en Google Cloud. Puedes usar la imagen de contenedor vLLM personalizada de Vertex AI para servir modelos en Vertex AI. El contenedor vLLM prediseñado puede descargar modelos de Hugging Face o de Cloud Storage. Para obtener más información sobre el servicio de modelos con imágenes de contenedores vLLM precompiladas de Vertex AI, consulta Servicio de modelos con imágenes de contenedores vLLM precompiladas de Vertex AI.
Cuadernos de ejemplo
En los siguientes cuadernos se muestra cómo usar contenedores prediseñados de Vertex AI para el servicio de modelos. Puedes encontrar más cuadernos de ejemplo en el repositorio de GitHub de ejemplos de Vertex AI.
| Nombre del cuaderno | Descripción | Enlace directo (GitHub/Colab) |
|---|---|---|
| Vertex AI Model Garden - Gemma 3 (implementación) | Muestra cómo desplegar modelos de Gemma 3 en GPUs con vLLM. | Ver en GitHub |
| Model Garden de Vertex AI: sirve Llama 3.2 multimodal con vLLM | Despliega modelos multimodales Llama 3.2 mediante el contenedor prediseñado vLLM. | Ver en GitHub |
| Vertex AI Model Garden: implementación de inferencia de generación de texto de Hugging Face | Muestra cómo desplegar el modelo Gemma-2-2b-it con Text Generation Inference (TGI) de Hugging Face | Ver en GitHub |
| Vertex AI Model Garden: implementación de inferencia de inserciones de texto de Hugging Face | Muestra cómo implementar nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) de Hugging Face | Ver en GitHub |
| Vertex AI Model Garden: despliegue de inferencia de PyTorch de Hugging Face | Muestra cómo desplegar distilbert/distilbert-base-uncased-finetuned-sst-2-english con la inferencia de PyTorch de Hugging Face | Ver en GitHub |
| Vertex AI Model Garden: implementación de DeepSeek | Muestra cómo servir modelos de DeepSeek con vLLM, SGLang o TensorRT-LLM | Ver en GitHub |
| Vertex AI Model Garden: implementación de Qwen3 | Demuestra cómo servir modelos de Qwen3 con SGLang | Ver en GitHub |
| Vertex AI Model Garden: implementación de Gemma 3n | Demuestra cómo servir modelos de Gemma 3n con SGLang | Ver en GitHub |
| Vertex AI Model Garden en profundidad: despliega Llama 3.1 y 3.2 con Hex-LLM | Muestra cómo desplegar modelos Llama 3.1 y 3.2 con Hex-LLM en TPUs mediante Vertex AI Model Garden | Ver en GitHub |
Siguientes pasos
- Elegir una opción de servicio de modelos abiertos
- Usar modelos abiertos con el modelo como servicio (MaaS)
- Desplegar modelos abiertos desde Model Garden
- Implementar modelos abiertos con un contenedor vLLM personalizado