For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

Матрица функций

Этот документ содержит полную матрицу совместимости ключевых функций Dynamo между поддерживаемыми backend'ами.

Обновлено для Dynamo v1.2.0

Условные обозначения:

✅ : Поддерживается
🚧 : В работе / экспериментально / ограниченно

Краткое сравнение

Функция	SGLang	TensorRT-LLM	vLLM	Источник
Раздельное обслуживание	✅	✅	✅	Документ по архитектуре
Маршрутизация с учетом KV	✅	✅	✅	Документ по Router
Планировщик на основе SLA	✅	✅	✅	Документ по планировщику
Менеджер KV-блоков	🚧	✅	✅	Документ по KVBM
Мультимодальность (изображения)	✅	✅	✅	Документ по мультимодальности
Мультимодальность (видео)	✅		✅	Документ по мультимодальности
Мультимодальность (аудио)			🚧	Документ по мультимодальности
Миграция запросов	✅	🚧	✅	Документ по миграции
Отмена запросов	🚧	✅	✅	README backend'ов
LoRA			✅	Руководство по K8s
Tool Calling	✅	✅	✅	Документ по Tool Calling
Спекулятивное декодирование	🚧	✅	✅	README backend'ов
Dynamo Snapshot	✅		✅	Документация по Snapshot

1. Backend vLLM

vLLM обеспечивает самую широкую поддержку функций в Dynamo: полную поддержку раздельного обслуживания, маршрутизации с учетом KV, управления KV-блоками, адаптеров LoRA и мультимодального inference, включая видео и аудио.

Источник: docs/backends/vllm/README.md

Функция	Раздельное обслуживание	Маршрутизация с учетом KV	Планировщик на основе SLA	Менеджер KV-блоков	Мультимодальность	Миграция запросов	Отмена запросов	LoRA	Tool Calling	Спекулятивное декодирование
Раздельное обслуживание	—
Маршрутизация с учетом KV	✅	—
Планировщик на основе SLA	✅	✅	—
Менеджер KV-блоков	✅	✅	✅	—
Мультимодальность	✅	✅¹	—	✅	—
Миграция запросов	✅	✅	✅	✅	✅	—
Отмена запросов	✅	✅	✅	✅	✅	✅	—
LoRA	✅	✅²	—	✅	—	✅	✅	—
Tool Calling	✅	✅	✅	✅	✅	✅	✅	✅	—
Спекулятивное декодирование	✅	✅	—	✅	—	✅	✅	—	✅	—

Примечания:

Мультимодальность + маршрутизация с учетом KV: маршрутизация KV с учетом изображений поддерживается в документированных путях vLLM. Путь Rust frontend по умолчанию поддерживает семейства моделей, обрабатываемые llm-multimodal; путь Python chat-processor делегирует обработку мультимодальности в vLLM. (Источник)

Маршрутизация LoRA с учетом KV: vLLM поддерживает маршрутизацию запросов на основе affinity адаптера LoRA.

Поддержка аудио: vLLM поддерживает аудиомодели вроде Qwen2-Audio (экспериментально). (Источник)

Поддержка видео: vLLM поддерживает входное видео с выборкой кадров. (Источник)

Спекулятивное декодирование: задокументирована поддержка Eagle3. (Источник)

2. Backend SGLang

SGLang оптимизирован для высокопроизводительного обслуживания с быстрыми примитивами и обеспечивает надежную поддержку раздельного обслуживания, маршрутизации с учетом KV и миграции запросов.

Источник: docs/backends/sglang/README.md

Функция	Раздельное обслуживание	Маршрутизация с учетом KV	Планировщик на основе SLA	Менеджер KV-блоков	Мультимодальность	Миграция запросов	Отмена запросов	LoRA	Tool Calling	Спекулятивное декодирование
Раздельное обслуживание	—
Маршрутизация с учетом KV	✅	—
Планировщик на основе SLA	✅	✅	—
Менеджер KV-блоков	🚧	🚧	🚧	—
Мультимодальность	✅²	¹	—	🚧	—
Миграция запросов	✅	✅	✅	🚧	✅	—
Отмена запросов	🚧³	✅	✅	🚧	🚧	✅	—
LoRA				🚧				—
Tool Calling	✅	✅	✅	🚧	✅	✅	✅		—
Спекулятивное декодирование	🚧	🚧	—	🚧	—	🚧	—		🚧	—

Примечания:

Мультимодальность + маршрутизация с учетом KV: не поддерживается. (Источник)

Паттерны мультимодальности: поддерживает простые паттерны Aggregated EPD, E/PD и E/P/D. Традиционный Disagg EP/D не поддерживается. (Источник)

Отмена запросов: отмена на этапе remote prefill не поддерживается в режиме disaggregated. (Источник)

Спекулятивное декодирование: в publisher есть хуки кода (spec_decode_stats), но примеров и документации пока нет.

3. Backend TensorRT-LLM

TensorRT-LLM обеспечивает максимальную производительность и оптимизацию inference, полную интеграцию с KVBM и надежную поддержку раздельного обслуживания.

Источник: docs/backends/trtllm/README.md

Функция	Раздельное обслуживание	Маршрутизация с учетом KV	Планировщик на основе SLA	Менеджер KV-блоков	Мультимодальность	Миграция запросов	Отмена запросов	LoRA	Tool Calling	Спекулятивное декодирование
Раздельное обслуживание	—
Маршрутизация с учетом KV	✅	—
Планировщик на основе SLA	✅	✅	—
Менеджер KV-блоков	✅	✅	✅	—
Мультимодальность	✅¹	✅²	—	✅	—
Миграция запросов	✅	✅	✅	✅	🚧	—
Отмена запросов	✅³	✅³	✅³	✅³	✅³	✅³	—
LoRA								—
Tool Calling	✅	✅	✅	✅	✅	✅	✅		—
Спекулятивное декодирование	✅	✅	—	✅	—	✅	✅		✅	—

Примечания:

Раздельная мультимодальность: поддерживает потоки изображений EP/D (традиционный) и E/P/D (полное раздельное обслуживание), включая URL изображений и заранее вычисленные embeddings. (Источник)

Мультимодальность + маршрутизация с учетом KV: маршрутизация KV с учетом изображений поддерживается через специальный TRT-LLM MM Router Worker. Для этого требуется публикация KV-событий на worker'ах TRT-LLM. (Источник)

Отмена запросов: из-за известных проблем engine TensorRT-LLM временно не уведомляется об отмене запросов, поэтому выделенные ресурсы для отмененных запросов не освобождаются.

Краткое сравнение​

1. Backend vLLM​

2. Backend SGLang​

3. Backend TensorRT-LLM​

Краткое сравнение

1. Backend vLLM

2. Backend SGLang

3. Backend TensorRT-LLM