Esta página se ha traducido con Cloud Translation API.

Desplegar modelos abiertos con contenedores prediseñados

En este documento se describe cómo desplegar y servir modelos abiertos en Vertex AI mediante imágenes de contenedor prediseñadas. Vertex AI proporciona contenedores prediseñados para frameworks de servicio populares, como vLLM, Hex-LLM y SGLang, así como compatibilidad con Text Generation Inference (TGI), Text Embeddings Inference (TEI) e Inference Toolkit (a través deGoogle Cloud Hugging Face PyTorch Inference Containers)Tensor-RT-LLM de Hugging Face para servir modelos compatibles en Vertex AI.

vLLM es una biblioteca de código abierto para la inferencia y el servicio rápidos de modelos de lenguaje extensos (LLMs). Vertex AI usa una versión optimizada y personalizada de vLLM. Esta versión se ha diseñado específicamente para mejorar el rendimiento, la fiabilidad y la integración perfecta en Google Cloud. Puedes usar la imagen de contenedor vLLM personalizada de Vertex AI para servir modelos en Vertex AI. El contenedor vLLM prediseñado puede descargar modelos de Hugging Face o de Cloud Storage. Para obtener más información sobre el servicio de modelos con imágenes de contenedores vLLM precompiladas de Vertex AI, consulta Servicio de modelos con imágenes de contenedores vLLM precompiladas de Vertex AI.

Cuadernos de ejemplo

En los siguientes cuadernos se muestra cómo usar contenedores prediseñados de Vertex AI para el servicio de modelos. Puedes encontrar más cuadernos de ejemplo en el repositorio de GitHub de ejemplos de Vertex AI.

Nombre del cuaderno	Descripción	Enlace directo (GitHub/Colab)
Vertex AI Model Garden - Gemma 3 (implementación)	Muestra cómo desplegar modelos de Gemma 3 en GPUs con vLLM.	Ver en GitHub
Model Garden de Vertex AI: sirve Llama 3.2 multimodal con vLLM	Despliega modelos multimodales Llama 3.2 mediante el contenedor prediseñado vLLM.	Ver en GitHub
Vertex AI Model Garden: implementación de inferencia de generación de texto de Hugging Face	Muestra cómo desplegar el modelo Gemma-2-2b-it con Text Generation Inference (TGI) de Hugging Face	Ver en GitHub
Vertex AI Model Garden: implementación de inferencia de inserciones de texto de Hugging Face	Muestra cómo implementar nomic-ai/nomic-embed-text-v1 con Text Embeddings Inference (TEI) de Hugging Face	Ver en GitHub
Vertex AI Model Garden: despliegue de inferencia de PyTorch de Hugging Face	Muestra cómo desplegar distilbert/distilbert-base-uncased-finetuned-sst-2-english con la inferencia de PyTorch de Hugging Face	Ver en GitHub
Vertex AI Model Garden: implementación de DeepSeek	Muestra cómo servir modelos de DeepSeek con vLLM, SGLang o TensorRT-LLM	Ver en GitHub
Vertex AI Model Garden: implementación de Qwen3	Demuestra cómo servir modelos de Qwen3 con SGLang	Ver en GitHub
Vertex AI Model Garden: implementación de Gemma 3n	Demuestra cómo servir modelos de Gemma 3n con SGLang	Ver en GitHub
Vertex AI Model Garden en profundidad: despliega Llama 3.1 y 3.2 con Hex-LLM	Muestra cómo desplegar modelos Llama 3.1 y 3.2 con Hex-LLM en TPUs mediante Vertex AI Model Garden	Ver en GitHub

Desplegar modelos abiertos con contenedores prediseñados Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

Cuadernos de ejemplo

Siguientes pasos

Desplegar modelos abiertos con contenedores prediseñados