Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

Хранилище для кэширования моделей в AKS

Хранилище для кэширования моделей в AKS

Для реализации многоуровневого хранилища в AKS можно использовать разные варианты storage, доступные в Azure. В этом руководстве рассматривается, как выбрать подходящее хранилище для каждого типа кэша Dynamo и как настроить PVC.

Доступные варианты хранилища

Вариант хранилищаПроизводительностьЛучше всего подходит для
Local CSI (Ephemeral Disk)Очень высокаяБыстрое кэширование моделей, warm restarts
Azure Managed LustreОчень высокаяБольшие многоузловые модели, общий кэш
Azure Disk (Managed Disk)ВысокаяПостоянный кэш модели с одним writer
Azure FilesСредняяОбщие небольшие и средние модели
Azure Blob (via Fuse or init)Низкая-средняяХолодное хранилище моделей, загрузки при bootstrap

Azure Managed Lustre и Local CSI (ephemeral disk) по умолчанию не устанавливаются в AKS и требуют дополнительной настройки перед использованием. Azure Disk, Azure Files и Azure Blob CSI drivers доступны сразу. См. руководство Azure Lustre CSI Driver для настройки Lustre или документацию по вариантам AKS CSI storage для полного обзора встроенных драйверов.

Для настройки Azure Managed Lustre см. руководство Azure Lustre CSI Driver.

Рекомендации по типу кэша

  • Model Cache — сырые артефакты модели, конфигурационные файлы, tokenizers и т. д.

    • Постоянство: обязательно, чтобы избежать повторных загрузок и снизить задержку cold start.
    • Рекомендуемое хранилище: Azure Managed Lustre (общий, высокая пропускная способность) или Azure Disk (single-replica, persistent).
  • Compilation Cache — скомпилированные артефакты, специфичные для backend (например, TensorRT engines).

    • Постоянство: необязательно.
    • Рекомендуемое хранилище: Local CSI (быстрое, node-local) или Azure Disk (persistent, когда конфигурация GPU фиксирована).
  • Performance Cache — данные runtime tuning и profiling.

    • Постоянство: не требуется.
    • Рекомендуемое хранилище: Local CSI (или другое ephemeral storage).

Проверка доступных StorageClass

Выведите StorageClass, доступные в вашем AKS cluster:

kubectl get storageclass

NAME PROVISIONER RECLAIMPOLICY
azureblob-csi blob.csi.azure.com Delete
azurefile file.csi.azure.com Delete
azurefile-csi file.csi.azure.com Delete
azurefile-csi-premium file.csi.azure.com Delete
azurefile-premium file.csi.azure.com Delete
default disk.csi.azure.com Delete
managed disk.csi.azure.com Delete
managed-csi disk.csi.azure.com Delete
managed-csi-premium disk.csi.azure.com Delete
managed-premium disk.csi.azure.com Delete
sc.azurelustre.csi.azure.com azurelustre.csi.azure.com Retain

Пример конфигурации PVC

В cache.yaml в разных recipes можно задать storageClassName в значение варианта хранилища, доступного в вашем AKS cluster:

apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: model-cache
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 100Gi
storageClassName: "sc.azurelustre.csi.azure.com"
---
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: compilation-cache
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 50Gi
storageClassName: "azurefile-csi"
---
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
name: perf-cache
spec:
accessModes:
- ReadWriteMany
resources:
requests:
storage: 50Gi
storageClassName: "local-ephemeral"

См. также

  • Azure Lustre CSI Driver — полное руководство по настройке Azure Managed Lustre
  • Model Caching — полное описание настройки model caching с Dynamo, включая download Jobs и конфигурацию mount
  • AKS CSI Storage Drivers — документация Microsoft по всем встроенным CSI drivers