NVIDIA AI

NVIDIA NIM

专为随时随地快速、可靠地部署加速生成式 AI 推理而设计。

概览

什么是 NVIDIA NIM?

NVIDIA NIM™ 是一套易于使用的预构建容器工具,可在任何 NVIDIA 加速基础设施 (云、数据中心、工作站和边缘设备) 上快速部署最新 AI 模型。

主权 AI 智能体:依托 NVIDIA AI Factory 立足本地思考,践行全球行动

AI Factory 的经验证设计将加速基础设施与软件 (包括全新 NVIDIA NIM™  和经扩展的 NVIDIA Blueprint) 相结合,为各国和企业简化了全栈式 AI 开发的流程。

开发者免费访问 NIM

借助由 DGX Cloud 加速的无服务器 API,免费进行无限制的 NIM 原型设计,并且免费加入 NVIDIA 开发者计划,以便下载 NIM,并在您自己的基础设施上进行自主托管,用于研发工作。

借助 NVIDIA NIM 加速 AI 部署

NVIDIA NIM 兼具托管 API 的易用性和操作简便性,以及与您首选基础设施上自托管模型的灵活性和安全性。NIM 提供 AI 团队所需的一切,包括最新 AI 基础模型、优化推理引擎、行业标准 API 和运行时依赖项,这些都预封在企业级软件容器中,可随时随地部署和扩展。

NVIDIA NIM 堆栈示意图

优势

为企业提供事半功倍的生成式 AI

易于部署、可直接用于生产环境,且专为高性能 AI 而构建,旨在实现无缝协作和经济高效的扩展。借助最新的 AI 模型,您可以更快地构建 AI 智能体和其他企业级生成式 AI 应用程序,这些模型涵盖推理、仿真、语音等领域。

易于使用

通过为最新 AI 模型预构建经优化的微服务,加速创新并缩短上市时间。借助标准 API,模型可在五分钟内完成部署并轻松集成到应用中。

企业级

部署 NVIDIA NIM,由 NVIDIA 通过严格的验证流程和专用功能分支持续管理,并由 NVIDIA 企业级支持提供支持,您还可以直接联系 NVIDIA AI 专家。

性能和规模

通过低延迟、高吞吐量、随云扩展的 AI 推理来降低 TCO,并通过支持开箱即用的微调模型实现极高的精度。

可移植性

借助预构建云原生微服务在任何地方部署,这些微服务可在各类 NVIDIA 加速基础设施(云、数据中心和工作站)上运行,并在 Kubernetes 和云服务提供商环境中无缝扩展。 

演示

使用 NIM 构建 AI 智能体

了解如何设置两个分别用于内容生成和数字图形设计的 AI 智能体,并了解如何轻松使用 NIM 来启动和运行这些 AI 智能体。


技术

代理式 AI 的基础模组

获取最新的 AI 模型

获取用于推理、语言、检索、语音、视觉等的新 AI 模型,五分钟内即可在任何 NVIDIA 加速的基础设施上进行部署。

借助 NVIDIA Blueprint 快速启动开发

借助包含 NVIDIA 加速库、SDK 和 NIM 的全面参考工作流,构建有影响力的代理式 AI 应用。

借助 NVIDIA NeMo Agent toolkit 简化开发

借助用于构建 AI 智能体并将其集成到自定义工作流的开发者工具 NVIDIA NeMo Agent toolkit,将 NIM 集成到代理式 AI 应用中。

基准测试

使用 NIM 提高吞吐量

NVIDIA NIM 提供经过优化、开箱即用的吞吐量和延迟,可更大限度地提高 token 生成速度,为高峰期并发用户提供支持并改善响应能力。NIM 会使用经过优化的最新推理引擎不断更新,随着时间推移,同一基础设施的性能会不断提升。

配置:Llama 3.1 8B instruct,1 个 H100 SXM;并发请求:200。NIM 开启:FP8、吞吐量 1201 个 token/秒、ITL 32 毫秒。NIM 关闭:FP8,吞吐量 613 个 token/秒,ITL 37 毫秒。

模型

为数千个开放模型解锁企业级推理能力

部署 NVIDIA® TensorRT™-LLM、vLLM 或 SGLang 支持的大语言模型 (LLM),在 NVIDIA 加速的基础设施上实现低延迟、高吞吐量的推理。


特性

AI 开发和部署的简易方法

专为随时随地运行而设计,NIM 微服务提供行业标准 API,可轻松与企业系统和各种应用集成,同时可在 Kubernetes 上无缝扩展,以云级规模提供高吞吐量、低延迟的推理服务。

部署 NIM

只需一条命令,即可为您的模型部署 NIM。您还可以使用 NVIDIA TensorRT-LLM、vLLM 或 SGLang 支持的 LLM 轻松运行 NIM,包括微调模型。

运行推理

借助最佳运行时引擎,在 NVIDIA 加速基础设施的基础上启动并运行 NIM。

构建

仅使用几行代码即可集成自托管 NIM 端点。

Deploy
Run
Build
docker run nvcr.io/nim/publisher_name/model_name
curl -X 'POST' \ 'http://0.0.0.0:8000/v1/completions' \ -H 'accept: application/json' \ -H 'Content-Type: application/json' \ -d '{ "model" : "model_name", "prompt" : "Once upon a time", "max_tokens" : 64 }'
import openai client = openai.OpenAI( base_url = "YOUR_LOCAL_ENDPOINT_URL", api_key="YOUR_LOCAL_API_KEY" ) chat_completion = client.chat.completions.create( model="model_name", messages=[{"role" : "user" , "content" : "Write me a love song" }], temperature=0.7 )

用例

NIM 的使用方式

了解 NVIDIA NIM 如何为行业用例提供支持,并通过精选示例快速启动 AI 开发。

AI 虚拟助手

利用生成式 AI 增强客户体验,改进业务流程。

智能文档处理

使用生成式 AI 来加速和自动执行文档处理。

用于超个性化购物的 AI

借助 AI 的强大功能提供量身定制的体验,提高客户满意度。

3D 产品配置器

使用 OpenUSD 和生成式 AI 来开发 3D 产品配置器工具和体验,并将其部署到几乎所有设备。

启动选项

NVIDIA NIM 入门方法

开始免费原型设计

开始使用由 DGX Cloud 提供支持的、简单易用的 NIM API 端点。

  • 访问全面加速的 AI 基础设施。
  • 确保您的数据不用于模型训练。
  • 作为 NVIDIA 开发者计划的一部分,可用于开发和测试。

下载和部署

运行 NVIDIA NIM,在您选择的云端或数据中心扩展经过优化的 AI 模型。

  • 确保数据永远不会离开您的安全隔离区。
  • 无需更改代码,即可从云端点无缝过渡到自托管 API。
  • 将 NVIDIA AI Enterprise 许可证用于生产,或借助 NVIDIA 开发者计划免费开始使用。

联系我们

与 NVIDIA AI 专家交流,了解如何借助 NVIDIA AI Enterprise 提供的安全性、API 稳定性和支持,将试运行的生成式 AI 投入生产。

  • 了解您的生成式 AI 用例。
  • 讨论您的技术要求。
  • 根据您的目标和要求调整 NVIDIA AI 解决方案。

资源

最新 NVIDIA NIM 资源

NVIDIA NIM 入门 (免费课程)

了解 NIM 能够如何协助构建、部署和扩展 AI 应用。

规模化部署 LLM 推理系统

了解如何借助 NIM 为真实应用优化和部署大语言模型。

使用 NIM 开发 AI 背景生成器

查看基于 NVIDIA Omniverse™ 开发套件的 AI 驱动应用的创建流程。您将了解如何使用 Omniverse 扩展程序、NIM 和 Python 代码来添加能够用文本输入生成背景的扩展程序。

如何借助 NVIDIA NIM 在 5 分钟内构建简单的 AI 智能体

了解如何设置两个分别用于内容生成和数字图形设计的 AI 智能体。

用于 RTX AI PC 的 NVIDIA NIM

借助 NVIDIA NIM 和 NVIDIA Blueprint,在您的 NVIDIA RTX™ AI PC 本地运行最新的生成式 AI 模型。

由 NVIDIA NIM 提供支持的生成式 AI 推理

直观理解采用 NVIDIA NIM 的高性能生成式 AI 推理的强大作用。

后续步骤

准备好开始了吗?

免费访问由 DGX Cloud 加速的用于原型设计的 NIM API 端点。准备好投入生产时,下载 NIM 并在您首选的基础设施(工作站、数据中心、边缘设备或云)上进行自托管。

联系我们

与 NVIDIA 产品专家交流,了解如何借助 NVIDIA AI Enterprise 提供的安全性、API 稳定性和支持从试运行阶段向生产阶段推进。

及时了解最新 NVIDIA NIM 新闻资讯

直接在您的收件箱接收最新的新闻资讯、技术、突破性成果等信息。