Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

TensorRT-LLM

Use the Latest Release

Рекомендуем использовать последний стабильный релиз Dynamo, чтобы избежать несовместимых изменений.


Dynamo TensorRT-LLM интегрирует движки TensorRT-LLM в распределённую среду выполнения Dynamo, обеспечивая дисагрегированное обслуживание, KV-aware маршрутизацию, многонодовые развёртывания и отмену запросов. Он поддерживает инференс LLM, мультимодальные модели, video diffusion и продвинутые возможности вроде speculative decoding и attention data parallelism.

Feature Support Matrix

Основные возможности Dynamo

FeatureTensorRT-LLMNotes
Disaggregated Serving
Conditional Disaggregation🚧Пока не поддерживается
KV-Aware Routing
SLA-Based Planner
Load Based Planner🚧Запланировано
KVBM

Возможности крупномасштабного P/D и WideEP

FeatureTensorRT-LLMNotes
WideEP
DP Rank Routing
GB200 Support

Prerequisites

  • yq для правок YAML на месте. Установите его с помощью wget https://github.com/mikefarah/yq/releases/latest/download/yq_linux_amd64 -O /usr/local/bin/yq && chmod +x /usr/local/bin/yq или pip install yq (последний вариант — другой инструмент с тем же названием, но похожим синтаксисом). Если ни один вариант недоступен, там, где используется yq, ниже приведён запасной вариант на основе sed.

Container / driver matrix

Container tagBackend versionCUDAMin NVIDIA driver
tensorrtllm-runtime:1.0.2TRT-LLM v1.3.0rc5.post1v13.1580+
vllm-runtime:1.0.2vLLM v0.16.0v12.9575+
vllm-runtime:1.0.2-cuda13vLLM v0.16.0v13.0580+
sglang-runtime:1.0.2SGLang v0.5.9v12.9575+
sglang-runtime:1.0.2-cuda13SGLang v0.5.9v13.0580+

Источник истины: docs/reference/support-matrix.md и docs/reference/release-artifacts.md. Если они расходятся со значениями выше, приоритет у файлов-источников.

Quick Start

Шаг 1 (терминал хоста): Запустите инфраструктурные сервисы:

docker compose -f dev/docker-compose.yml up -d

Шаг 2 (терминал хоста): Скачайте и запустите предварительно собранный контейнер:

DYNAMO_VERSION=1.0.2
docker pull nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:$DYNAMO_VERSION
docker run --gpus all -it --network host --ipc host \
nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:$DYNAMO_VERSION

Переменной DYNAMO_VERSION выше можно задать любую доступную конкретную версию контейнера. Чтобы посмотреть доступные версии tensorrtllm-runtime для Dynamo, откройте NVIDIA NGC Catalog for Dynamo TensorRT-LLM Runtime.

Шаг 3 (внутри контейнера): Запустите агрегированное развёртывание обслуживания (по умолчанию используется Qwen/Qwen3-0.6B):

cd $DYNAMO_HOME/examples/backends/trtllm
./launch/agg.sh

Скрипт запуска автоматически скачает модель и запустит движок TensorRT-LLM. Модель можно переопределить, заранее задав переменные окружения MODEL_PATH и SERVED_MODEL_NAME.

Шаг 4 (терминал хоста): Проверьте развёртывание:

curl localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-0.6B",
"messages": [{"role": "user", "content": "Explain why Roger Federer is considered one of the greatest tennis players of all time"}],
"stream": true,
"max_tokens": 30
}'

Deploy

Развёртывайте TensorRT-LLM с Dynamo в Kubernetes с помощью DynamoGraphDeployment. Перед kubectl apply подставьте тег образа контейнера в YAML манифесте развёртывания. Запасной вариант через sed приведён для сред без yq:

# yq
yq -i '(.spec.services[].extraPodSpec.mainContainer.image) |= sub(":1\.0\.2", ":<your-tag>")' deploy.yaml
# sed fallback
sed -i.bak 's|:1\.0\.2|:<your-tag>|g' deploy.yaml

Полные инструкции по развёртыванию в Kubernetes см. в TensorRT-LLM Kubernetes Deployment Guide.

Next Steps