Для чистой Markdown-версии этой страницы добавьте
.mdк этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.
Быстрый старт
Запустите модель в Kubernetes за считанные минуты.
Режимы развертывания. Dynamo поддерживает два режима развертывания в Kubernetes. В этом быстром старте используется standalone mode, где Dynamo Frontend обслуживает запросы, а встроенный Dynamo Router выполняет маршрутизацию с учетом KV. Dynamo также может работать в gateway mode за шлюзом Gateway API Inference Extension, где маршрутизация с учетом KV выполняется в Dynamo Endpoint Picker Plugin (EPP) на уровне шлюза, а Frontend работает как sidecar в --router-mode direct. См. руководство по Inference Gateway (GAIE), чтобы настроить режим gateway.
Предварительные требования
- Кластер Kubernetes (v1.24+) с GPU-узлами
- kubectl (v1.24+)
- Helm (v3.0+) установлен
- NVIDIA GPU Operator установлен в кластере
- Secret с токеном HuggingFace в кластере
Secret с токеном HuggingFace
Создайте secret с токеном HuggingFace для загрузки моделей. Если у вас нет токена, см. руководство по токенам HuggingFace.
export HF_TOKEN=<your-hf-token>
kubectl create secret generic hf-token-secret \
--from-literal=HF_TOKEN="$HF_TOKEN"
Быстрая установка GPU Operator
Если у вас еще нет GPU Operator:
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia --force-update
helm repo update nvidia
helm install gpu-operator nvidia/gpu-operator \
--namespace gpu-operator --create-namespace \
--wait --timeout=600s
Если кластер уже предоставляет драйверы GPU, например GKE с gpu-driver-version=latest или AKS, добавьте:
--set driver.enabled=false --set toolkit.enabled=false
Подробная установка
GPU Operator — единственное обязательное условие для базового развертывания. Дополнительные возможности, такие как RDMA, Prometheus или многосерверное планирование с Grove/KAI Scheduler, см. в руководстве по установке.
Если ваша GPU SKU и облачный провайдер поддерживаются, можно использовать AICR для быстрой установки предварительных требований и Helm-чарта Dynamo.
Проверьте готовность кластера
При желании проверьте готовность кластера:
./deploy/pre-deployment/pre-deployment-check.sh
Установите Dynamo
export NAMESPACE=dynamo-system
helm install dynamo-platform \
oci://helm.ngc.nvidia.com/nvidia/ai-dynamo/charts/dynamo-platform \
--version "1.0.2" \
--namespace "$NAMESPACE" \
--create-namespace
Дождитесь pod'ов платформы:
kubectl get pods -n $NAMESPACE
# Ожидается: pod'ы dynamo-operator-*, etcd-*, nats-* в состоянии Running
Разверните первую модель
Разверните Qwen/Qwen3-0.6B с помощью DynamoGraphDeploymentRequest (DGDR).
DGDR — это точка входа для развертывания моделей. Он выполняет автоматическое профилирование модели и оборудования, а затем создает автоматически настроенный DynamoGraphDeployment (DGD). После этого DGDR завершается и достигает терминального состояния, подобно K8s Job, и его можно удалить. DGD — это ресурс, который остается и обслуживает вашу модель.
# qwen3-quickstart.yaml
apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
metadata:
name: qwen3-quickstart
spec:
model: Qwen/Qwen3-0.6B
backend: auto
image: "nvcr.io/nvidia/ai-dynamo/dynamo-planner:1.2.0" # dynamo-frontend for Dynamo < 1.1.0
kubectl apply -f qwen3-quickstart.yaml -n $NAMESPACE
Наблюдайте за ходом DGDR от Pending → Profiling → Deploying → Deployed:
kubectl get dgdr qwen3-quickstart -n $NAMESPACE -w
Dynamo поддерживает backend'ы vLLM, TensorRT-LLM и SGLang. Параметр backend: auto позволяет профилировщику выбрать лучший вариант для вашей модели и оборудования. Пример руководства по backend'у см. в руководстве по vLLM backend.
Отправьте запрос
После того как DGDR покажет Deployed:
# Найдите Frontend и настройте port-forward
FRONTEND_SVC=$(kubectl get svc -n $NAMESPACE -o name | grep frontend | head -1)
kubectl port-forward "$FRONTEND_SVC" 8000:8000 -n $NAMESPACE &
# Отправьте запрос
curl -s http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-0.6B",
"messages": [{"role": "user", "content": "What is NVIDIA Dynamo?"}],
"max_tokens": 200
}' | python3 -m json.tool
Очистка
kubectl delete dgdr qwen3-quickstart -n $NAMESPACE
Следующие шаги
- Руководство по установке — Настройка облачного провайдера, детали GPU Operator, дополнительные компоненты (Grove, RDMA, кэширование моделей, Prometheus)
- Руководство по развертыванию моделей — Выбор стратегии, кэширование моделей, planner, multinode, типичные подводные камни
- Справочник DGDR — Описание спецификации, фазы жизненного цикла, команды мониторинга, DGDR против DGD
- Создание развертываний — Ручное создание спецификации DGD для полного контроля