Для чистой Markdown-версии этой страницы добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Быстрый старт

Запустите модель в Kubernetes за считанные минуты.

Режимы развертывания. Dynamo поддерживает два режима развертывания в Kubernetes. В этом быстром старте используется standalone mode, где Dynamo Frontend обслуживает запросы, а встроенный Dynamo Router выполняет маршрутизацию с учетом KV. Dynamo также может работать в gateway mode за шлюзом Gateway API Inference Extension, где маршрутизация с учетом KV выполняется в Dynamo Endpoint Picker Plugin (EPP) на уровне шлюза, а Frontend работает как sidecar в --router-mode direct. См. руководство по Inference Gateway (GAIE), чтобы настроить режим gateway.

Предварительные требования

Кластер Kubernetes (v1.24+) с GPU-узлами
kubectl (v1.24+)
Helm (v3.0+) установлен
NVIDIA GPU Operator установлен в кластере
Secret с токеном HuggingFace в кластере

Secret с токеном HuggingFace

Создайте secret с токеном HuggingFace для загрузки моделей. Если у вас нет токена, см. руководство по токенам HuggingFace.

export HF_TOKEN=<your-hf-token>

kubectl create secret generic hf-token-secret \
  --from-literal=HF_TOKEN="$HF_TOKEN"

Быстрая установка GPU Operator

Если у вас еще нет GPU Operator:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia --force-update
helm repo update nvidia
helm install gpu-operator nvidia/gpu-operator \
  --namespace gpu-operator --create-namespace \
  --wait --timeout=600s

Если кластер уже предоставляет драйверы GPU, например GKE с gpu-driver-version=latest или AKS, добавьте:

--set driver.enabled=false --set toolkit.enabled=false

Подробная установка

GPU Operator — единственное обязательное условие для базового развертывания. Дополнительные возможности, такие как RDMA, Prometheus или многосерверное планирование с Grove/KAI Scheduler, см. в руководстве по установке.

Если ваша GPU SKU и облачный провайдер поддерживаются, можно использовать AICR для быстрой установки предварительных требований и Helm-чарта Dynamo.

Проверьте готовность кластера

При желании проверьте готовность кластера:

./deploy/pre-deployment/pre-deployment-check.sh

Установите Dynamo

export NAMESPACE=dynamo-system
helm install dynamo-platform \
  oci://helm.ngc.nvidia.com/nvidia/ai-dynamo/charts/dynamo-platform \
  --version "1.0.2" \
  --namespace "$NAMESPACE" \
  --create-namespace

Дождитесь pod'ов платформы:

kubectl get pods -n $NAMESPACE
# Ожидается: pod'ы dynamo-operator-*, etcd-*, nats-* в состоянии Running

Разверните первую модель

Разверните Qwen/Qwen3-0.6B с помощью DynamoGraphDeploymentRequest (DGDR).

DGDR — это точка входа для развертывания моделей. Он выполняет автоматическое профилирование модели и оборудования, а затем создает автоматически настроенный DynamoGraphDeployment (DGD). После этого DGDR завершается и достигает терминального состояния, подобно K8s Job, и его можно удалить. DGD — это ресурс, который остается и обслуживает вашу модель.

# qwen3-quickstart.yaml
apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
metadata:
  name: qwen3-quickstart
spec:
  model: Qwen/Qwen3-0.6B
  backend: auto
  image: "nvcr.io/nvidia/ai-dynamo/dynamo-planner:1.2.0"  # dynamo-frontend for Dynamo < 1.1.0

kubectl apply -f qwen3-quickstart.yaml -n $NAMESPACE

Наблюдайте за ходом DGDR от Pending → Profiling → Deploying → Deployed:

kubectl get dgdr qwen3-quickstart -n $NAMESPACE -w

Dynamo поддерживает backend'ы vLLM, TensorRT-LLM и SGLang. Параметр backend: auto позволяет профилировщику выбрать лучший вариант для вашей модели и оборудования. Пример руководства по backend'у см. в руководстве по vLLM backend.

Отправьте запрос

После того как DGDR покажет Deployed:

# Найдите Frontend и настройте port-forward
FRONTEND_SVC=$(kubectl get svc -n $NAMESPACE -o name | grep frontend | head -1)
kubectl port-forward "$FRONTEND_SVC" 8000:8000 -n $NAMESPACE &

# Отправьте запрос
curl -s http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-0.6B",
    "messages": [{"role": "user", "content": "What is NVIDIA Dynamo?"}],
    "max_tokens": 200
  }' | python3 -m json.tool

Очистка

kubectl delete dgdr qwen3-quickstart -n $NAMESPACE

Следующие шаги

Руководство по установке — Настройка облачного провайдера, детали GPU Operator, дополнительные компоненты (Grove, RDMA, кэширование моделей, Prometheus)
Руководство по развертыванию моделей — Выбор стратегии, кэширование моделей, planner, multinode, типичные подводные камни
Справочник DGDR — Описание спецификации, фазы жизненного цикла, команды мониторинга, DGDR против DGD
Создание развертываний — Ручное создание спецификации DGD для полного контроля

Предварительные требования​

Secret с токеном HuggingFace​

Быстрая установка GPU Operator​

Подробная установка​

Проверьте готовность кластера​

Установите Dynamo​

Разверните первую модель​

Отправьте запрос​

Очистка​

Следующие шаги​