For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.
AKS Spot VM
Запуск Dynamo на AKS Spot VM
Azure Spot VM дают заметную экономию для GPU-нагрузок, но Azure может выселить их в любой момент. В этом руководстве описана конфигурация, необходимая для запуска Dynamo в пуле узлов Spot VM.
Как AKS помечает узлы Spot
Когда пул узлов использует Spot VM, AKS автоматически применяет к каждому узлу в этом пуле следующую taint:
kubernetes.azure.com/scalesetpriority=spot:NoSchedule
Это не позволяет обычным нагрузкам по умолчанию попадать на узлы Spot. Любой pod, который должен запускаться на узле Spot, обязан явно допускать эту пометку.
Требуемая toleration
Добавьте следующую toleration в любую нагрузку, которая должна работать на узлах Spot:
tolerations:
- key: kubernetes.azure.com/scalesetpriority
operator: Equal
value: spot
effect: NoSchedule
Развертывание Dynamo на узлах Spot
В Helm chart платформы Dynamo входит готовый values-файл для развертываний на Spot VM — examples/deployments/AKS/values-aks-spot.yaml — который добавляет нужную toleration для всех компонентов Dynamo:
- Dynamo operator controller manager
- Задачи Webhook CA inject и генерации сертификатов
- etcd
- NATS
- Задача генерации SSH-ключа MPI
- Другие основные pod'ы платформы Dynamo
Установите Dynamo с values-файлом для Spot:
helm install dynamo-platform dynamo-platform-${RELEASE_VERSION}.tgz \
--namespace dynamo-system \
--create-namespace \
-f ./values-aks-spot.yaml
Чтобы обновить существующую установку:
helm upgrade dynamo-platform dynamo-platform-${RELEASE_VERSION}.tgz \
--namespace dynamo-system \
-f ./values-aks-spot.yaml
Создание пула GPU-узлов Spot
Добавьте пул GPU-узлов Spot в существующий кластер AKS:
az aks nodepool add \
--resource-group <RESOURCE_GROUP> \
--cluster-name <CLUSTER_NAME> \
--name spotgpunp \
--node-count 2 \
--node-vm-size Standard_NC24ads_A100_v4 \
--priority Spot \
--eviction-policy Delete \
--spot-max-price -1 \
--skip-gpu-driver-install
--spot-max-price -1 означает оплату вплоть до цены on-demand (рекомендуется). --eviction-policy Delete удаляет выселенные узлы из пула; используйте Deallocate, если хотите сохранять состояние узлов между выселениями.