Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.
Примеры для нескольких узлов
Общие сведения о возможностях TensorRT-LLM и конфигурации движка см. в справочном руководстве.
Рекомендуемый путь
Для развертываний TensorRT-LLM на нескольких узлах начинайте с включенных в репозиторий
рецептов Kubernetes в recipes/. Эти манифесты являются
поддерживаемыми точками входа для запуска многоузловых workers, frontend-сервисов
и связанных компонентов маршрутизации.
Основные точки входа рецептов TRT-LLM:
- DeepSeek-R1 WideEP на GB200
- Qwen3-235B-A22B-FP8, агрегированный, Hopper
- Qwen3-235B-A22B-FP8, агрегированный, Blackwell
- Qwen3-235B-A22B-FP8, дезагрегированный, Hopper
- Qwen3-235B-A22B-FP8, дезагрегированный, Blackwell
- Qwen3-32B-FP8, агрегированный
- Qwen3-32B-FP8, дезагрегированный
- GPT-OSS-120B, агрегированный
- GPT-OSS-120B, дезагрегированный
- Nemotron-3-Super-FP8, дезагрегированный
Для настройки на уровне модели, предварительных требований и примечаний по оборудованию используйте README-файлы рецептов:
- рецепты DeepSeek-R1
- рецепты Qwen3-235B-A22B-FP8
- рецепты Qwen3-32B-FP8
- рецепты GPT-OSS-120B
- рецепты Kimi-K2.5
Быстрый старт
На высоком уровне рабочий процесс Kubernetes выглядит так:
- Установите платформу Dynamo в Kubernetes. См. руководство по развертыванию Kubernetes.
- Создайте namespace и все необходимые secrets, например токен Hugging Face.
- Примените манифесты кеша модели и загрузки модели из рецепта, если рецепт их включает.
- Примените
deploy.yamlиз рецепта. - Настройте port-forward для frontend-сервиса и отправьте тестовые запросы к
/v1/modelsили/v1/chat/completions.
Пример последовательности:
export NAMESPACE=dynamo-demo
kubectl create namespace ${NAMESPACE}
kubectl create secret generic hf-token-secret \
--from-literal=HF_TOKEN="your-token-here" \
-n ${NAMESPACE}
# Example: deploy DeepSeek-R1 TRT-LLM WideEP on GB200.
kubectl apply -f recipes/deepseek-r1/model-cache/model-cache.yaml -n ${NAMESPACE}
kubectl apply -f recipes/deepseek-r1/model-cache/model-download.yaml -n ${NAMESPACE}
kubectl wait --for=condition=Complete job/model-download -n ${NAMESPACE} --timeout=7200s
kubectl apply -f recipes/deepseek-r1/trtllm/disagg/wide_ep/gb200/deploy.yaml -n ${NAMESPACE}
Когда развертывание будет готово, настройте port-forward для frontend-сервиса, указанного в рецепте, и отправьте тестовый запрос:
kubectl port-forward svc/<frontend-service> 8000:8000 -n ${NAMESPACE}
curl http://localhost:8000/v1/models
Примечания
- Файлы конфигурации движка TRT-LLM, используемые в процессах запуска и развертывания, находятся в
examples/backends/trtllm/engine_configs/. - Если нужно настроить model parallelism, количество реплик или режим маршрутизации, изменяйте локальный манифест рецепта, а не добавляйте отдельное руководство для конкретного scheduler.
- Актуальный каталог поддерживаемых рецептов см. в recipes/README.md.