Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

Профайлер

Dynamo Profiler - это автоматизированный инструмент анализа производительности, который измеряет характеристики инференса модели, чтобы оптимизировать конфигурации развертывания. Он определяет оптимальные настройки тензорного параллелизма (TP) для этапов prefill и decode, генерирует данные для интерполяции производительности и позволяет выполнять автоскейлинг на основе SLA через Planner.

Матрица возможностей

ВозможностьSGLangTensorRT-LLMvLLM
Профилирование dense-моделей
Профилирование MoE-моделей🚧🚧
AI Configurator (оффлайн)
Онлайн-профилирование (AIPerf)
Интерактивный WebUI
Endpoints для runtime-профилирования

Быстрый старт

Предварительные требования

  • Установлена платформа Dynamo (см. Installation Guide)
  • Kubernetes-кластер с GPU-нодами (для профилирования на основе DGDR)
  • Установлен kube-prometheus-stack (требуется для SLA planner)

Использование DynamoGraphDeploymentRequest (рекомендуется)

Рекомендуемый способ профилирования моделей - через DGDR, которые автоматизируют весь процесс профилирования и развертывания.

apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
metadata:
name: my-model-profiling
spec:
model: "Qwen/Qwen3-0.6B"
backend: vllm
image: "nvcr.io/nvidia/ai-dynamo/dynamo-planner:1.2.0" # dynamo-frontend for Dynamo < 1.1.0

workload:
isl: 3000 # Average input sequence length
osl: 150 # Average output sequence length

sla:
ttft: 200.0 # Target Time To First Token (ms)
itl: 20.0 # Target Inter-Token Latency (ms)

autoApply: true
kubectl apply -f my-profiling-dgdr.yaml -n $NAMESPACE

Использование AI Configurator (быстрое оффлайн-профилирование)

AI Configurator позволяет быстро выполнять оффлайн-профилирование (~30 секунд) и поддерживает все backend'ы (vLLM, SGLang, TensorRT-LLM). Поскольку searchStrategy: rapid используется по умолчанию, AIC применяется автоматически, если только вы явно не зададите searchStrategy: thorough.

Конфигурация

ПараметрЗначение по умолчаниюОписание
workload.isl4000Средняя длина входной последовательности (токены)
workload.osl1000Средняя длина выходной последовательности (токены)
sla.ttft2000Целевое время до первого токена (миллисекунды)
sla.itl30Целевая задержка между токенами (миллисекунды)
hardware.numGpusPerNodeautoКоличество GPU на узел
hardware.gpuSkuautoИдентификатор SKU GPU

Методы профилирования

МетодДлительностьТочностьТребуется GPUБэкенды
Онлайн (AIPerf)2-4 часаМаксимальнаяДаВсе
Оффлайн (AI Configurator)20-30 секундОценочнаяНетВсе

Результат

Profiler генерирует:

  1. Оптимальную конфигурацию: рекомендуемые размеры TP для движков prefill и decode
  2. Данные о производительности: модели интерполяции для SLA Planner
  3. Сгенерированный DGD: полный манифест развертывания с оптимизированными настройками

Пример рекомендаций:

Suggested prefill TP:4 (TTFT 48.37 ms, throughput 15505.23 tokens/s/GPU)
Suggested decode TP:4 (ITL 4.83 ms, throughput 51.22 tokens/s/GPU)

Следующие шаги

ДокументОписание
Profiler GuideКонфигурация, методы и устранение неполадок
Profiler ExamplesПолные YAML-файлы DGDR, WebUI, примеры скриптов
SLA Planner GuideСквозной workflow развертывания
SLA Planner ArchitectureКак Planner использует данные профилирования