For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.
Матрица функций
Этот документ содержит полную матрицу совместимости ключевых функций Dynamo между поддерживаемыми backend'ами.
Обновлено для Dynamo v1.2.0
Условные обозначения:
- ✅ : Поддерживается
- 🚧 : В работе / экспериментально / ограниченно
Краткое сравнение
| Функция | SGLang | TensorRT-LLM | vLLM | Источник |
|---|---|---|---|---|
| Раздельное обслуживание | ✅ | ✅ | ✅ | Документ по архитектуре |
| Маршрутизация с учетом KV | ✅ | ✅ | ✅ | Документ по Router |
| Планировщик на основе SLA | ✅ | ✅ | ✅ | Документ по планировщику |
| Менеджер KV-блоков | 🚧 | ✅ | ✅ | Документ по KVBM |
| Мультимодальность (изображения) | ✅ | ✅ | ✅ | Документ по мультимодальности |
| Мультимодальность (видео) | ✅ | ✅ | Документ по мультимодальности | |
| Мультимодальность (аудио) | 🚧 | Документ по мультимодальности | ||
| Миграция запросов | ✅ | 🚧 | ✅ | Документ по миграции |
| Отмена запросов | 🚧 | ✅ | ✅ | README backend'ов |
| LoRA | ✅ | Руководство по K8s | ||
| Tool Calling | ✅ | ✅ | ✅ | Документ по Tool Calling |
| Спекулятивное декодирование | 🚧 | ✅ | ✅ | README backend'ов |
| Dynamo Snapshot | ✅ | ✅ | Документация по Snapshot |
1. Backend vLLM
vLLM обеспечивает самую широкую поддержку функций в Dynamo: полную поддержку раздельного обслуживания, маршрутизации с учетом KV, управления KV-блоками, адаптеров LoRA и мультимодального inference, включая видео и аудио.
Источник: docs/backends/vllm/README.md
| Функция | Раздельное обслуживание | Маршрутизация с учетом KV | Планировщик на основе SLA | Менеджер KV-блоков | Мультимодальность | Миграция запросов | Отмена запросов | LoRA | Tool Calling | Спекулятивное декодирование |
|---|---|---|---|---|---|---|---|---|---|---|
| Раздельное обслуживание | — | |||||||||
| Маршрутизация с учетом KV | ✅ | — | ||||||||
| Планировщик на основе SLA | ✅ | ✅ | — | |||||||
| Менеджер KV-блоков | ✅ | ✅ | ✅ | — | ||||||
| Мультимодальность | ✅ | ✅1 | — | ✅ | — | |||||
| Миграция запросов | ✅ | ✅ | ✅ | ✅ | ✅ | — | ||||
| Отмена запросов | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | — | |||
| LoRA | ✅ | ✅2 | — | ✅ | — | ✅ | ✅ | — | ||
| Tool Calling | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | — | |
| Спекулятивное декодирование | ✅ | ✅ | — | ✅ | — | ✅ | ✅ | — | ✅ | — |
Примечания:
- Мультимодальность + маршрутизация с учетом KV: маршрутизация KV с учетом изображений поддерживается в документированных путях vLLM. Путь Rust frontend по умолчанию поддерживает семейства моделей, обрабатываемые
llm-multimodal; путь Python chat-processor делегирует обработку мультимодальности в vLLM. (Источник)- Маршрутизация LoRA с учетом KV: vLLM поддерживает маршрутизацию запросов на основе affinity адаптера LoRA.
- Поддержка аудио: vLLM поддерживает аудиомодели вроде Qwen2-Audio (экспериментально). (Источник)
- Поддержка видео: vLLM поддерживает входное видео с выборкой кадров. (Источник)
- Спекулятивное декодирование: задокументирована поддержка Eagle3. (Источник)
2. Backend SGLang
SGLang оптимизирован для высокопроизводительного обслуживания с быстрыми примитивами и обеспечивает надежную поддержку раздельного обслуживания, маршрутизации с учетом KV и миграции запросов.
Источник: docs/backends/sglang/README.md
| Функция | Раздельное обслуживание | Маршрутизация с учетом KV | Планировщик на основе SLA | Менеджер KV-блоков | Мультимодальность | Миграция запросов | Отмена запросов | LoRA | Tool Calling | Спекулятивное декодирование |
|---|---|---|---|---|---|---|---|---|---|---|
| Раздельное обслуживание | — | |||||||||
| Маршрутизация с учетом KV | ✅ | — | ||||||||
| Планировщик на основе SLA | ✅ | ✅ | — | |||||||
| Менеджер KV-блоков | 🚧 | 🚧 | 🚧 | — | ||||||
| Мультимодальность | ✅2 | 1 | — | 🚧 | — | |||||
| Миграция запросов | ✅ | ✅ | ✅ | 🚧 | ✅ | — | ||||
| Отмена запросов | 🚧3 | ✅ | ✅ | 🚧 | 🚧 | ✅ | — | |||
| LoRA | 🚧 | — | ||||||||
| Tool Calling | ✅ | ✅ | ✅ | 🚧 | ✅ | ✅ | ✅ | — | ||
| Спекулятивное декодирование | 🚧 | 🚧 | — | 🚧 | — | 🚧 | — | 🚧 | — |
Примечания:
- Мультимодальность + маршрутизация с учетом KV: не поддерживается. (Источник)
- Паттерны мультимодальности: поддерживает простые паттерны Aggregated EPD, E/PD и E/P/D. Традиционный Disagg EP/D не поддерживается. (Источник)
- Отмена запросов: отмена на этапе remote prefill не поддерживается в режиме disaggregated. (Источник)
- Спекулятивное декодирование: в publisher есть хуки кода (
spec_decode_stats), но примеров и документации пока нет.
3. Backend TensorRT-LLM
TensorRT-LLM обеспечивает максимальную производительность и оптимизацию inference, полную интеграцию с KVBM и надежную поддержку раздельного обслуживания.
Источник: docs/backends/trtllm/README.md
| Функция | Раздельное обслуживание | Маршрутизация с учетом KV | Планировщик на основе SLA | Менеджер KV-блоков | Мультимодальность | Миграция запросов | Отмена запросов | LoRA | Tool Calling | Спекулятивное декодирование |
|---|---|---|---|---|---|---|---|---|---|---|
| Раздельное обслуживание | — | |||||||||
| Маршрутизация с учетом KV | ✅ | — | ||||||||
| Планировщик на основе SLA | ✅ | ✅ | — | |||||||
| Менеджер KV-блоков | ✅ | ✅ | ✅ | — | ||||||
| Мультимодальность | ✅1 | ✅2 | — | ✅ | — | |||||
| Миграция запросов | ✅ | ✅ | ✅ | ✅ | 🚧 | — | ||||
| Отмена запросов | ✅3 | ✅3 | ✅3 | ✅3 | ✅3 | ✅3 | — | |||
| LoRA | — | |||||||||
| Tool Calling | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | — | ||
| Спекулятивное декодирование | ✅ | ✅ | — | ✅ | — | ✅ | ✅ | ✅ | — |
Примечания:
- Раздельная мультимодальность: поддерживает потоки изображений EP/D (традиционный) и E/P/D (полное раздельное обслуживание), включая URL изображений и заранее вычисленные embeddings. (Источник)
- Мультимодальность + маршрутизация с учетом KV: маршрутизация KV с учетом изображений поддерживается через специальный TRT-LLM MM Router Worker. Для этого требуется публикация KV-событий на worker'ах TRT-LLM. (Источник)
- Отмена запросов: из-за известных проблем engine TensorRT-LLM временно не уведомляется об отмене запросов, поэтому выделенные ресурсы для отмененных запросов не освобождаются.