Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Выгрузка KV-кэша

Dynamo поддерживает несколько бэкендов выгрузки KV-кэша для vLLM, позволяя расширить эффективную емкость KV-кэша за пределы памяти GPU за счет CPU RAM и дискового хранилища. Каждый бэкенд интегрируется через интерфейс коннекторов vLLM и работает как с агрегированным, так и с дизагрегированным обслуживанием.

Бэкенд	Источник
KVBM	Dynamo
LMCache	GitHub
FlexKV	GitHub

KVBM

KVBM (KV Block Manager) — встроенная в Dynamo система выгрузки KV-кэша. Она предоставляет трехуровневую архитектуру (среда выполнения LLM, управление логическими блоками, транспорт NIXL) с поддержкой уровней кэша на CPU и диске, а также нативно интегрируется с KV-aware маршрутизацией Dynamo и дизагрегированным обслуживанием.

Развертывание	Скрипт запуска
Агрегированное	`agg_kvbm.sh`
Агрегированное + KV routing	`agg_kvbm_router.sh`
Дизагрегированное (1P1D)	`disagg_kvbm.sh`
Дизагрегированное (2P2D)	`disagg_kvbm_2p2d.sh`
Дизагрегированное + KV routing	`disagg_kvbm_router.sh`

Подробности настройки см. в руководстве по KVBM.

LMCache

LMCache — open-source движок KV-кэша, который реализует кэширование в стиле «один раз выполнить prefill, повторно использовать везде» с многоуровневыми бэкендами хранения (CPU RAM, локальное хранилище, Redis, GDS, InfiniStore/Mooncake).

Развертывание	Скрипт запуска
Агрегированное (MP sidecar — рекомендуется)	`agg_lmcache_mp.sh`
Агрегированное (устаревшее, in-process)	`agg_lmcache.sh`
Агрегированное (устаревшее, multiprocess metrics)	`agg_lmcache_multiproc.sh`
Дизагрегированное	`disagg_lmcache.sh`

Подробности настройки см. в руководстве по интеграции LMCache.

FlexKV

FlexKV — масштабируемая распределенная среда выполнения KV-кэша, разработанная командой TACO из Tencent Cloud. Она поддерживает многоуровневое кэширование (GPU, CPU, SSD), распределенное повторное использование KV-кэша между узлами и высокопроизводительный I/O через io_uring и GPUDirect Storage.

Развертывание	Скрипт запуска
Агрегированное	`agg_flexkv.sh`
Агрегированное + KV routing	`agg_flexkv_router.sh`
Дизагрегированное	`disagg_flexkv.sh`

Подробности настройки см. в руководстве по интеграции FlexKV.

См. также

Дизайн KVBM: архитектура и дизайн встроенной в Dynamo выгрузки KV-кэша
Концепции маршрутизации: маршрутизация запросов на основе состояния KV-кэша
Дизагрегированное обслуживание: архитектура разделения prefill/decode

Выгрузка KV-кэша

KVBM​

LMCache​

FlexKV​

См. также​

KVBM

LMCache

FlexKV

См. также