Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

AKS Spot VM

Запуск Dynamo на AKS Spot VM

Azure Spot VM дают заметную экономию для GPU-нагрузок, но Azure может выселить их в любой момент. В этом руководстве описана конфигурация, необходимая для запуска Dynamo в пуле узлов Spot VM.

Как AKS помечает узлы Spot

Когда пул узлов использует Spot VM, AKS автоматически применяет к каждому узлу в этом пуле следующую taint:

kubernetes.azure.com/scalesetpriority=spot:NoSchedule

Это не позволяет обычным нагрузкам по умолчанию попадать на узлы Spot. Любой pod, который должен запускаться на узле Spot, обязан явно допускать эту пометку.

Требуемая toleration

Добавьте следующую toleration в любую нагрузку, которая должна работать на узлах Spot:

tolerations:
- key: kubernetes.azure.com/scalesetpriority
operator: Equal
value: spot
effect: NoSchedule

Развертывание Dynamo на узлах Spot

В Helm chart платформы Dynamo входит готовый values-файл для развертываний на Spot VM — examples/deployments/AKS/values-aks-spot.yaml — который добавляет нужную toleration для всех компонентов Dynamo:

  • Dynamo operator controller manager
  • Задачи Webhook CA inject и генерации сертификатов
  • etcd
  • NATS
  • Задача генерации SSH-ключа MPI
  • Другие основные pod'ы платформы Dynamo

Установите Dynamo с values-файлом для Spot:

helm install dynamo-platform dynamo-platform-${RELEASE_VERSION}.tgz \
--namespace dynamo-system \
--create-namespace \
-f ./values-aks-spot.yaml

Чтобы обновить существующую установку:

helm upgrade dynamo-platform dynamo-platform-${RELEASE_VERSION}.tgz \
--namespace dynamo-system \
-f ./values-aks-spot.yaml

Создание пула GPU-узлов Spot

Добавьте пул GPU-узлов Spot в существующий кластер AKS:

az aks nodepool add \
--resource-group <RESOURCE_GROUP> \
--cluster-name <CLUSTER_NAME> \
--name spotgpunp \
--node-count 2 \
--node-vm-size Standard_NC24ads_A100_v4 \
--priority Spot \
--eviction-policy Delete \
--spot-max-price -1 \
--skip-gpu-driver-install

--spot-max-price -1 означает оплату вплоть до цены on-demand (рекомендуется). --eviction-policy Delete удаляет выселенные узлы из пула; используйте Deallocate, если хотите сохранять состояние узлов между выселениями.

См. также