Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

Матрица функций

Этот документ содержит полную матрицу совместимости ключевых функций Dynamo между поддерживаемыми backend'ами.

Обновлено для Dynamo v1.2.0

Условные обозначения:

  • ✅ : Поддерживается
  • 🚧 : В работе / экспериментально / ограниченно

Краткое сравнение

ФункцияSGLangTensorRT-LLMvLLMИсточник
Раздельное обслуживаниеДокумент по архитектуре
Маршрутизация с учетом KVДокумент по Router
Планировщик на основе SLAДокумент по планировщику
Менеджер KV-блоков🚧Документ по KVBM
Мультимодальность (изображения)Документ по мультимодальности
Мультимодальность (видео)Документ по мультимодальности
Мультимодальность (аудио)🚧Документ по мультимодальности
Миграция запросов🚧Документ по миграции
Отмена запросов🚧README backend'ов
LoRAРуководство по K8s
Tool CallingДокумент по Tool Calling
Спекулятивное декодирование🚧README backend'ов
Dynamo SnapshotДокументация по Snapshot

1. Backend vLLM

vLLM обеспечивает самую широкую поддержку функций в Dynamo: полную поддержку раздельного обслуживания, маршрутизации с учетом KV, управления KV-блоками, адаптеров LoRA и мультимодального inference, включая видео и аудио.

Источник: docs/backends/vllm/README.md

ФункцияРаздельное обслуживаниеМаршрутизация с учетом KVПланировщик на основе SLAМенеджер KV-блоковМультимодальностьМиграция запросовОтмена запросовLoRATool CallingСпекулятивное декодирование
Раздельное обслуживание
Маршрутизация с учетом KV
Планировщик на основе SLA
Менеджер KV-блоков
Мультимодальность1
Миграция запросов
Отмена запросов
LoRA2
Tool Calling
Спекулятивное декодирование

Примечания:

  1. Мультимодальность + маршрутизация с учетом KV: маршрутизация KV с учетом изображений поддерживается в документированных путях vLLM. Путь Rust frontend по умолчанию поддерживает семейства моделей, обрабатываемые llm-multimodal; путь Python chat-processor делегирует обработку мультимодальности в vLLM. (Источник)
  2. Маршрутизация LoRA с учетом KV: vLLM поддерживает маршрутизацию запросов на основе affinity адаптера LoRA.
  3. Поддержка аудио: vLLM поддерживает аудиомодели вроде Qwen2-Audio (экспериментально). (Источник)
  4. Поддержка видео: vLLM поддерживает входное видео с выборкой кадров. (Источник)
  5. Спекулятивное декодирование: задокументирована поддержка Eagle3. (Источник)

2. Backend SGLang

SGLang оптимизирован для высокопроизводительного обслуживания с быстрыми примитивами и обеспечивает надежную поддержку раздельного обслуживания, маршрутизации с учетом KV и миграции запросов.

Источник: docs/backends/sglang/README.md

ФункцияРаздельное обслуживаниеМаршрутизация с учетом KVПланировщик на основе SLAМенеджер KV-блоковМультимодальностьМиграция запросовОтмена запросовLoRATool CallingСпекулятивное декодирование
Раздельное обслуживание
Маршрутизация с учетом KV
Планировщик на основе SLA
Менеджер KV-блоков🚧🚧🚧
Мультимодальность21🚧
Миграция запросов🚧
Отмена запросов🚧3🚧🚧
LoRA🚧
Tool Calling🚧
Спекулятивное декодирование🚧🚧🚧🚧🚧

Примечания:

  1. Мультимодальность + маршрутизация с учетом KV: не поддерживается. (Источник)
  2. Паттерны мультимодальности: поддерживает простые паттерны Aggregated EPD, E/PD и E/P/D. Традиционный Disagg EP/D не поддерживается. (Источник)
  3. Отмена запросов: отмена на этапе remote prefill не поддерживается в режиме disaggregated. (Источник)
  4. Спекулятивное декодирование: в publisher есть хуки кода (spec_decode_stats), но примеров и документации пока нет.

3. Backend TensorRT-LLM

TensorRT-LLM обеспечивает максимальную производительность и оптимизацию inference, полную интеграцию с KVBM и надежную поддержку раздельного обслуживания.

Источник: docs/backends/trtllm/README.md

ФункцияРаздельное обслуживаниеМаршрутизация с учетом KVПланировщик на основе SLAМенеджер KV-блоковМультимодальностьМиграция запросовОтмена запросовLoRATool CallingСпекулятивное декодирование
Раздельное обслуживание
Маршрутизация с учетом KV
Планировщик на основе SLA
Менеджер KV-блоков
Мультимодальность12
Миграция запросов🚧
Отмена запросов333333
LoRA
Tool Calling
Спекулятивное декодирование

Примечания:

  1. Раздельная мультимодальность: поддерживает потоки изображений EP/D (традиционный) и E/P/D (полное раздельное обслуживание), включая URL изображений и заранее вычисленные embeddings. (Источник)
  2. Мультимодальность + маршрутизация с учетом KV: маршрутизация KV с учетом изображений поддерживается через специальный TRT-LLM MM Router Worker. Для этого требуется публикация KV-событий на worker'ах TRT-LLM. (Источник)
  3. Отмена запросов: из-за известных проблем engine TensorRT-LLM временно не уведомляется об отмене запросов, поэтому выделенные ресурсы для отмененных запросов не освобождаются.