For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.
Профайлер
Dynamo Profiler - это автоматизированный инструмент анализа производительности, который измеряет характеристики инференса модели, чтобы оптимизировать конфигурации развертывания. Он определяет оптимальные настройки тензорного параллелизма (TP) для этапов prefill и decode, генерирует данные для интерполяции производительности и позволяет выполнять автоскейлинг на основе SLA через Planner.
Матрица возможностей
| Возможность | SGLang | TensorRT-LLM | vLLM |
|---|---|---|---|
| Профилирование dense-моделей | ✅ | ✅ | ✅ |
| Профилирование MoE-моделей | ✅ | 🚧 | 🚧 |
| AI Configurator (оффлайн) | ✅ | ✅ | ✅ |
| Онлайн-профилирование (AIPerf) | ✅ | ✅ | ✅ |
| Интерактивный WebUI | ✅ | ✅ | ✅ |
| Endpoints для runtime-профилирования | ✅ | ❌ | ❌ |
Быстрый старт
Предварительные требования
- Установлена платформа Dynamo (см. Installation Guide)
- Kubernetes-кластер с GPU-нодами (для профилирования на основе DGDR)
- Установлен kube-prometheus-stack (требуется для SLA planner)
Использование DynamoGraphDeploymentRequest (рекомендуется)
Рекомендуемый способ профилирования моделей - через DGDR, которые автоматизируют весь процесс профилирования и развертывания.
apiVersion: nvidia.com/v1beta1
kind: DynamoGraphDeploymentRequest
metadata:
name: my-model-profiling
spec:
model: "Qwen/Qwen3-0.6B"
backend: vllm
image: "nvcr.io/nvidia/ai-dynamo/dynamo-planner:1.2.0" # dynamo-frontend for Dynamo < 1.1.0
workload:
isl: 3000 # Average input sequence length
osl: 150 # Average output sequence length
sla:
ttft: 200.0 # Target Time To First Token (ms)
itl: 20.0 # Target Inter-Token Latency (ms)
autoApply: true
kubectl apply -f my-profiling-dgdr.yaml -n $NAMESPACE
Использование AI Configurator (быстрое оффлайн-профилирование)
AI Configurator позволяет быстро выполнять оффлайн-профилирование (~30 секунд) и поддерживает все backend'ы (vLLM, SGLang, TensorRT-LLM). Поскольку searchStrategy: rapid используется по умолчанию, AIC применяется автоматически, если только вы явно не зададите searchStrategy: thorough.
Конфигурация
| Параметр | Значение по умолчанию | Описание |
|---|---|---|
workload.isl | 4000 | Средняя длина входной последовательности (токены) |
workload.osl | 1000 | Средняя длина выходной последовательности (токены) |
sla.ttft | 2000 | Целевое время до первого токена (миллисекунды) |
sla.itl | 30 | Целевая задержка между токенами (миллисекунды) |
hardware.numGpusPerNode | auto | Количество GPU на узел |
hardware.gpuSku | auto | Идентификатор SKU GPU |
Методы профилирования
| Метод | Длительность | Точность | Требуется GPU | Бэкенды |
|---|---|---|---|---|
| Онлайн (AIPerf) | 2-4 часа | Максимальная | Да | Все |
| Оффлайн (AI Configurator) | 20-30 секунд | Оценочная | Нет | Все |
Результат
Profiler генерирует:
- Оптимальную конфигурацию: рекомендуемые размеры TP для движков prefill и decode
- Данные о производительности: модели интерполяции для SLA Planner
- Сгенерированный DGD: полный манифест развертывания с оптимизированными настройками
Пример рекомендаций:
Suggested prefill TP:4 (TTFT 48.37 ms, throughput 15505.23 tokens/s/GPU)
Suggested decode TP:4 (ITL 4.83 ms, throughput 51.22 tokens/s/GPU)
Следующие шаги
| Документ | Описание |
|---|---|
| Profiler Guide | Конфигурация, методы и устранение неполадок |
| Profiler Examples | Полные YAML-файлы DGDR, WebUI, примеры скриптов |
| SLA Planner Guide | Сквозной workflow развертывания |
| SLA Planner Architecture | Как Planner использует данные профилирования |