For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

TensorRT-LLM

Use the Latest Release

Рекомендуем использовать последний стабильный релиз Dynamo, чтобы избежать несовместимых изменений.

Dynamo TensorRT-LLM интегрирует движки TensorRT-LLM в распределённую среду выполнения Dynamo, обеспечивая дисагрегированное обслуживание, KV-aware маршрутизацию, многонодовые развёртывания и отмену запросов. Он поддерживает инференс LLM, мультимодальные модели, video diffusion и продвинутые возможности вроде speculative decoding и attention data parallelism.

Feature Support Matrix

Основные возможности Dynamo

Feature	TensorRT-LLM	Notes
Disaggregated Serving	✅
Conditional Disaggregation	🚧	Пока не поддерживается
KV-Aware Routing	✅
SLA-Based Planner	✅
Load Based Planner	🚧	Запланировано
KVBM	✅

Возможности крупномасштабного P/D и WideEP

Feature	TensorRT-LLM	Notes
WideEP	✅
DP Rank Routing	✅
GB200 Support	✅

Prerequisites

yq для правок YAML на месте. Установите его с помощью wget https://github.com/mikefarah/yq/releases/latest/download/yq_linux_amd64 -O /usr/local/bin/yq && chmod +x /usr/local/bin/yq или pip install yq (последний вариант — другой инструмент с тем же названием, но похожим синтаксисом). Если ни один вариант недоступен, там, где используется yq, ниже приведён запасной вариант на основе sed.

Container / driver matrix

Container tag	Backend version	CUDA	Min NVIDIA driver
`tensorrtllm-runtime:1.0.2`	TRT-LLM `v1.3.0rc5.post1`	`v13.1`	`580+`
`vllm-runtime:1.0.2`	vLLM `v0.16.0`	`v12.9`	`575+`
`vllm-runtime:1.0.2-cuda13`	vLLM `v0.16.0`	`v13.0`	`580+`
`sglang-runtime:1.0.2`	SGLang `v0.5.9`	`v12.9`	`575+`
`sglang-runtime:1.0.2-cuda13`	SGLang `v0.5.9`	`v13.0`	`580+`

Источник истины: docs/reference/support-matrix.md и docs/reference/release-artifacts.md. Если они расходятся со значениями выше, приоритет у файлов-источников.

Quick Start

Шаг 1 (терминал хоста): Запустите инфраструктурные сервисы:

docker compose -f dev/docker-compose.yml up -d

Шаг 2 (терминал хоста): Скачайте и запустите предварительно собранный контейнер:

DYNAMO_VERSION=1.0.2
docker pull nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:$DYNAMO_VERSION
docker run --gpus all -it --network host --ipc host \
  nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:$DYNAMO_VERSION

Переменной DYNAMO_VERSION выше можно задать любую доступную конкретную версию контейнера. Чтобы посмотреть доступные версии tensorrtllm-runtime для Dynamo, откройте NVIDIA NGC Catalog for Dynamo TensorRT-LLM Runtime.

Шаг 3 (внутри контейнера): Запустите агрегированное развёртывание обслуживания (по умолчанию используется Qwen/Qwen3-0.6B):

cd $DYNAMO_HOME/examples/backends/trtllm
./launch/agg.sh

Скрипт запуска автоматически скачает модель и запустит движок TensorRT-LLM. Модель можно переопределить, заранее задав переменные окружения MODEL_PATH и SERVED_MODEL_NAME.

Шаг 4 (терминал хоста): Проверьте развёртывание:

curl localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-0.6B",
    "messages": [{"role": "user", "content": "Explain why Roger Federer is considered one of the greatest tennis players of all time"}],
    "stream": true,
    "max_tokens": 30
  }'

Deploy

Развёртывайте TensorRT-LLM с Dynamo в Kubernetes с помощью DynamoGraphDeployment. Перед kubectl apply подставьте тег образа контейнера в YAML манифесте развёртывания. Запасной вариант через sed приведён для сред без yq:

# yq
yq -i '(.spec.services[].extraPodSpec.mainContainer.image) |= sub(":1\.0\.2", ":<your-tag>")' deploy.yaml
# sed fallback
sed -i.bak 's|:1\.0\.2|:<your-tag>|g' deploy.yaml

Полные инструкции по развёртыванию в Kubernetes см. в TensorRT-LLM Kubernetes Deployment Guide.

Next Steps

Reference Guide: Возможности, конфигурация и эксплуатационные детали
Examples: Все шаблоны развёртывания со скриптами запуска
KV Cache Transfer: Методы передачи KV cache для disaggregated serving
Observability: Метрики и мониторинг
Multinode Examples: Многонодовое развёртывание со SLURM
Deploying TensorRT-LLM with Dynamo on Kubernetes: Руководство по развёртыванию в Kubernetes

Use the Latest Release​

Feature Support Matrix​

Основные возможности Dynamo​

Возможности крупномасштабного P/D и WideEP​

Prerequisites​

Container / driver matrix​

Quick Start​

Deploy​

Next Steps​