For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.
TensorRT-LLM
Use the Latest Release
Рекомендуем использовать последний стабильный релиз Dynamo, чтобы избежать несовместимых изменений.
Dynamo TensorRT-LLM интегрирует движки TensorRT-LLM в распределённую среду выполнения Dynamo, обеспечивая дисагрегированное обслуживание, KV-aware маршрутизацию, многонодовые развёртывания и отмену запросов. Он поддерживает инференс LLM, мультимодальные модели, video diffusion и продвинутые возможности вроде speculative decoding и attention data parallelism.
Feature Support Matrix
Основные возможности Dynamo
| Feature | TensorRT-LLM | Notes |
|---|---|---|
| Disaggregated Serving | ✅ | |
| Conditional Disaggregation | 🚧 | Пока не поддерживается |
| KV-Aware Routing | ✅ | |
| SLA-Based Planner | ✅ | |
| Load Based Planner | 🚧 | Запланировано |
| KVBM | ✅ |
Возможности крупномасштабного P/D и WideEP
| Feature | TensorRT-LLM | Notes |
|---|---|---|
| WideEP | ✅ | |
| DP Rank Routing | ✅ | |
| GB200 Support | ✅ |
Prerequisites
yqдля правок YAML на месте. Установите его с помощьюwget https://github.com/mikefarah/yq/releases/latest/download/yq_linux_amd64 -O /usr/local/bin/yq && chmod +x /usr/local/bin/yqилиpip install yq(последний вариант — другой инструмент с тем же названием, но похожим синтаксисом). Если ни один вариант недоступен, там, где используетсяyq, ниже приведён запасной вариант на основеsed.
Container / driver matrix
| Container tag | Backend version | CUDA | Min NVIDIA driver |
|---|---|---|---|
tensorrtllm-runtime:1.0.2 | TRT-LLM v1.3.0rc5.post1 | v13.1 | 580+ |
vllm-runtime:1.0.2 | vLLM v0.16.0 | v12.9 | 575+ |
vllm-runtime:1.0.2-cuda13 | vLLM v0.16.0 | v13.0 | 580+ |
sglang-runtime:1.0.2 | SGLang v0.5.9 | v12.9 | 575+ |
sglang-runtime:1.0.2-cuda13 | SGLang v0.5.9 | v13.0 | 580+ |
Источник истины: docs/reference/support-matrix.md и docs/reference/release-artifacts.md. Если они расходятся со значениями выше, приоритет у файлов-источников.
Quick Start
Шаг 1 (терминал хоста): Запустите инфраструктурные сервисы:
docker compose -f dev/docker-compose.yml up -d
Шаг 2 (терминал хоста): Скачайте и запустите предварительно собранный контейнер:
DYNAMO_VERSION=1.0.2
docker pull nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:$DYNAMO_VERSION
docker run --gpus all -it --network host --ipc host \
nvcr.io/nvidia/ai-dynamo/tensorrtllm-runtime:$DYNAMO_VERSION
Переменной DYNAMO_VERSION выше можно задать любую доступную конкретную версию контейнера.
Чтобы посмотреть доступные версии tensorrtllm-runtime для Dynamo, откройте NVIDIA NGC Catalog for Dynamo TensorRT-LLM Runtime.
Шаг 3 (внутри контейнера): Запустите агрегированное развёртывание обслуживания (по умолчанию используется Qwen/Qwen3-0.6B):
cd $DYNAMO_HOME/examples/backends/trtllm
./launch/agg.sh
Скрипт запуска автоматически скачает модель и запустит движок TensorRT-LLM. Модель можно переопределить, заранее задав переменные окружения MODEL_PATH и SERVED_MODEL_NAME.
Шаг 4 (терминал хоста): Проверьте развёртывание:
curl localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-0.6B",
"messages": [{"role": "user", "content": "Explain why Roger Federer is considered one of the greatest tennis players of all time"}],
"stream": true,
"max_tokens": 30
}'
Deploy
Развёртывайте TensorRT-LLM с Dynamo в Kubernetes с помощью DynamoGraphDeployment. Перед kubectl apply подставьте тег образа контейнера в YAML манифесте развёртывания. Запасной вариант через sed приведён для сред без yq:
# yq
yq -i '(.spec.services[].extraPodSpec.mainContainer.image) |= sub(":1\.0\.2", ":<your-tag>")' deploy.yaml
# sed fallback
sed -i.bak 's|:1\.0\.2|:<your-tag>|g' deploy.yaml
Полные инструкции по развёртыванию в Kubernetes см. в TensorRT-LLM Kubernetes Deployment Guide.
Next Steps
- Reference Guide: Возможности, конфигурация и эксплуатационные детали
- Examples: Все шаблоны развёртывания со скриптами запуска
- KV Cache Transfer: Методы передачи KV cache для disaggregated serving
- Observability: Метрики и мониторинг
- Multinode Examples: Многонодовое развёртывание со SLURM
- Deploying TensorRT-LLM with Dynamo on Kubernetes: Руководство по развёртыванию в Kubernetes