For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

Профайлер

Dynamo Profiler - это автоматизированный инструмент анализа производительности, который измеряет характеристики инференса модели, чтобы оптимизировать конфигурации развертывания. Он определяет оптимальные настройки тензорного параллелизма (TP) для этапов prefill и decode, генерирует данные для интерполяции производительности и позволяет выполнять автоскейлинг на основе SLA через Planner.

Матрица возможностей

Возможность	SGLang	TensorRT-LLM	vLLM
Профилирование dense-моделей	✅	✅	✅
Профилирование MoE-моделей	✅	🚧	🚧
AI Configurator (оффлайн)	✅	✅	✅
Онлайн-профилирование (AIPerf)	✅	✅	✅
Интерактивный WebUI	✅	✅	✅
Endpoints для runtime-профилирования	✅	❌	❌

Быстрый старт

Предварительные требования

Установлена платформа Dynamo (см. Installation Guide)
Kubernetes-кластер с GPU-нодами (для профилирования на основе DGDR)
Установлен kube-prometheus-stack (требуется для SLA planner)

Использование DynamoGraphDeploymentRequest (рекомендуется)

Рекомендуемый способ профилирования моделей - через DGDR, которые автоматизируют весь процесс профилирования и развертывания.

apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
metadata:
  name: my-model-profiling
spec:
  model: "Qwen/Qwen3-0.6B"
  backend: vllm
  image: "nvcr.io/nvidia/ai-dynamo/dynamo-planner:1.2.0"  # dynamo-frontend for Dynamo < 1.1.0

  workload:
    isl: 3000      # Average input sequence length
    osl: 150       # Average output sequence length

  sla:
    ttft: 200.0    # Target Time To First Token (ms)
    itl: 20.0      # Target Inter-Token Latency (ms)

  autoApply: true

kubectl apply -f my-profiling-dgdr.yaml -n $NAMESPACE

Использование AI Configurator (быстрое оффлайн-профилирование)

AI Configurator позволяет быстро выполнять оффлайн-профилирование (~30 секунд) и поддерживает все backend'ы (vLLM, SGLang, TensorRT-LLM). Поскольку searchStrategy: rapid используется по умолчанию, AIC применяется автоматически, если только вы явно не зададите searchStrategy: thorough.

Конфигурация

Параметр	Значение по умолчанию	Описание
`workload.isl`	4000	Средняя длина входной последовательности (токены)
`workload.osl`	1000	Средняя длина выходной последовательности (токены)
`sla.ttft`	2000	Целевое время до первого токена (миллисекунды)
`sla.itl`	30	Целевая задержка между токенами (миллисекунды)
`hardware.numGpusPerNode`	auto	Количество GPU на узел
`hardware.gpuSku`	auto	Идентификатор SKU GPU

Методы профилирования

Метод	Длительность	Точность	Требуется GPU	Бэкенды
Онлайн (AIPerf)	2-4 часа	Максимальная	Да	Все
Оффлайн (AI Configurator)	20-30 секунд	Оценочная	Нет	Все

Результат

Profiler генерирует:

Оптимальную конфигурацию: рекомендуемые размеры TP для движков prefill и decode
Данные о производительности: модели интерполяции для SLA Planner
Сгенерированный DGD: полный манифест развертывания с оптимизированными настройками

Пример рекомендаций:

Suggested prefill TP:4 (TTFT 48.37 ms, throughput 15505.23 tokens/s/GPU)
Suggested decode TP:4 (ITL 4.83 ms, throughput 51.22 tokens/s/GPU)

Следующие шаги

Документ	Описание
Profiler Guide	Конфигурация, методы и устранение неполадок
Profiler Examples	Полные YAML-файлы DGDR, WebUI, примеры скриптов
SLA Planner Guide	Сквозной workflow развертывания
SLA Planner Architecture	Как Planner использует данные профилирования

Матрица возможностей​

Быстрый старт​

Предварительные требования​

Использование DynamoGraphDeploymentRequest (рекомендуется)​

Использование AI Configurator (быстрое оффлайн-профилирование)​

Конфигурация​

Методы профилирования​

Результат​

Следующие шаги​