Перейти к основному содержимому

Для чистой Markdown-версии этой страницы добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Быстрый старт

Запустите модель в Kubernetes за считанные минуты.

Режимы развертывания. Dynamo поддерживает два режима развертывания в Kubernetes. В этом быстром старте используется standalone mode, где Dynamo Frontend обслуживает запросы, а встроенный Dynamo Router выполняет маршрутизацию с учетом KV. Dynamo также может работать в gateway mode за шлюзом Gateway API Inference Extension, где маршрутизация с учетом KV выполняется в Dynamo Endpoint Picker Plugin (EPP) на уровне шлюза, а Frontend работает как sidecar в --router-mode direct. См. руководство по Inference Gateway (GAIE), чтобы настроить режим gateway.

Предварительные требования

  • Кластер Kubernetes (v1.24+) с GPU-узлами
  • kubectl (v1.24+)
  • Helm (v3.0+) установлен
  • NVIDIA GPU Operator установлен в кластере
  • Secret с токеном HuggingFace в кластере

Secret с токеном HuggingFace

Создайте secret с токеном HuggingFace для загрузки моделей. Если у вас нет токена, см. руководство по токенам HuggingFace.

export HF_TOKEN=<your-hf-token>

kubectl create secret generic hf-token-secret \
--from-literal=HF_TOKEN="$HF_TOKEN"

Быстрая установка GPU Operator

Если у вас еще нет GPU Operator:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia --force-update
helm repo update nvidia
helm install gpu-operator nvidia/gpu-operator \
--namespace gpu-operator --create-namespace \
--wait --timeout=600s

Если кластер уже предоставляет драйверы GPU, например GKE с gpu-driver-version=latest или AKS, добавьте:

--set driver.enabled=false --set toolkit.enabled=false

Подробная установка

GPU Operator — единственное обязательное условие для базового развертывания. Дополнительные возможности, такие как RDMA, Prometheus или многосерверное планирование с Grove/KAI Scheduler, см. в руководстве по установке.

Если ваша GPU SKU и облачный провайдер поддерживаются, можно использовать AICR для быстрой установки предварительных требований и Helm-чарта Dynamo.

Проверьте готовность кластера

При желании проверьте готовность кластера:

./deploy/pre-deployment/pre-deployment-check.sh

Установите Dynamo

export NAMESPACE=dynamo-system
helm install dynamo-platform \
oci://helm.ngc.nvidia.com/nvidia/ai-dynamo/charts/dynamo-platform \
--version "1.0.2" \
--namespace "$NAMESPACE" \
--create-namespace

Дождитесь pod'ов платформы:

kubectl get pods -n $NAMESPACE
# Ожидается: pod'ы dynamo-operator-*, etcd-*, nats-* в состоянии Running

Разверните первую модель

Разверните Qwen/Qwen3-0.6B с помощью DynamoGraphDeploymentRequest (DGDR).

DGDR — это точка входа для развертывания моделей. Он выполняет автоматическое профилирование модели и оборудования, а затем создает автоматически настроенный DynamoGraphDeployment (DGD). После этого DGDR завершается и достигает терминального состояния, подобно K8s Job, и его можно удалить. DGD — это ресурс, который остается и обслуживает вашу модель.

# qwen3-quickstart.yaml
apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
metadata:
name: qwen3-quickstart
spec:
model: Qwen/Qwen3-0.6B
backend: auto
image: "nvcr.io/nvidia/ai-dynamo/dynamo-planner:1.2.0" # dynamo-frontend for Dynamo < 1.1.0
kubectl apply -f qwen3-quickstart.yaml -n $NAMESPACE

Наблюдайте за ходом DGDR от PendingProfilingDeployingDeployed:

kubectl get dgdr qwen3-quickstart -n $NAMESPACE -w

Dynamo поддерживает backend'ы vLLM, TensorRT-LLM и SGLang. Параметр backend: auto позволяет профилировщику выбрать лучший вариант для вашей модели и оборудования. Пример руководства по backend'у см. в руководстве по vLLM backend.

Отправьте запрос

После того как DGDR покажет Deployed:

# Найдите Frontend и настройте port-forward
FRONTEND_SVC=$(kubectl get svc -n $NAMESPACE -o name | grep frontend | head -1)
kubectl port-forward "$FRONTEND_SVC" 8000:8000 -n $NAMESPACE &

# Отправьте запрос
curl -s http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen3-0.6B",
"messages": [{"role": "user", "content": "What is NVIDIA Dynamo?"}],
"max_tokens": 200
}' | python3 -m json.tool

Очистка

kubectl delete dgdr qwen3-quickstart -n $NAMESPACE

Следующие шаги