Перейти к основному содержимому

Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.

Примеры для нескольких узлов

Общие сведения о возможностях TensorRT-LLM и конфигурации движка см. в справочном руководстве.

Рекомендуемый путь

Для развертываний TensorRT-LLM на нескольких узлах начинайте с включенных в репозиторий рецептов Kubernetes в recipes/. Эти манифесты являются поддерживаемыми точками входа для запуска многоузловых workers, frontend-сервисов и связанных компонентов маршрутизации.

Основные точки входа рецептов TRT-LLM:

Для настройки на уровне модели, предварительных требований и примечаний по оборудованию используйте README-файлы рецептов:

Быстрый старт

На высоком уровне рабочий процесс Kubernetes выглядит так:

  1. Установите платформу Dynamo в Kubernetes. См. руководство по развертыванию Kubernetes.
  2. Создайте namespace и все необходимые secrets, например токен Hugging Face.
  3. Примените манифесты кеша модели и загрузки модели из рецепта, если рецепт их включает.
  4. Примените deploy.yaml из рецепта.
  5. Настройте port-forward для frontend-сервиса и отправьте тестовые запросы к /v1/models или /v1/chat/completions.

Пример последовательности:

export NAMESPACE=dynamo-demo
kubectl create namespace ${NAMESPACE}

kubectl create secret generic hf-token-secret \
--from-literal=HF_TOKEN="your-token-here" \
-n ${NAMESPACE}

# Example: deploy DeepSeek-R1 TRT-LLM WideEP on GB200.
kubectl apply -f recipes/deepseek-r1/model-cache/model-cache.yaml -n ${NAMESPACE}
kubectl apply -f recipes/deepseek-r1/model-cache/model-download.yaml -n ${NAMESPACE}
kubectl wait --for=condition=Complete job/model-download -n ${NAMESPACE} --timeout=7200s
kubectl apply -f recipes/deepseek-r1/trtllm/disagg/wide_ep/gb200/deploy.yaml -n ${NAMESPACE}

Когда развертывание будет готово, настройте port-forward для frontend-сервиса, указанного в рецепте, и отправьте тестовый запрос:

kubectl port-forward svc/<frontend-service> 8000:8000 -n ${NAMESPACE}

curl http://localhost:8000/v1/models

Примечания

  • Файлы конфигурации движка TRT-LLM, используемые в процессах запуска и развертывания, находятся в examples/backends/trtllm/engine_configs/.
  • Если нужно настроить model parallelism, количество реплик или режим маршрутизации, изменяйте локальный манифест рецепта, а не добавляйте отдельное руководство для конкретного scheduler.
  • Актуальный каталог поддерживаемых рецептов см. в recipes/README.md.