Перейти к основному содержимому

Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Выгрузка KV-кэша

Выгрузка KV-кэша

Dynamo поддерживает несколько бэкендов выгрузки KV-кэша для vLLM, позволяя расширить эффективную емкость KV-кэша за пределы памяти GPU за счет CPU RAM и дискового хранилища. Каждый бэкенд интегрируется через интерфейс коннекторов vLLM и работает как с агрегированным, так и с дизагрегированным обслуживанием.

БэкендИсточник
KVBMDynamo
LMCacheGitHub
FlexKVGitHub

KVBM

KVBM (KV Block Manager) — встроенная в Dynamo система выгрузки KV-кэша. Она предоставляет трехуровневую архитектуру (среда выполнения LLM, управление логическими блоками, транспорт NIXL) с поддержкой уровней кэша на CPU и диске, а также нативно интегрируется с KV-aware маршрутизацией Dynamo и дизагрегированным обслуживанием.

РазвертываниеСкрипт запуска
Агрегированноеagg_kvbm.sh
Агрегированное + KV routingagg_kvbm_router.sh
Дизагрегированное (1P1D)disagg_kvbm.sh
Дизагрегированное (2P2D)disagg_kvbm_2p2d.sh
Дизагрегированное + KV routingdisagg_kvbm_router.sh

Подробности настройки см. в руководстве по KVBM.

LMCache

LMCache — open-source движок KV-кэша, который реализует кэширование в стиле «один раз выполнить prefill, повторно использовать везде» с многоуровневыми бэкендами хранения (CPU RAM, локальное хранилище, Redis, GDS, InfiniStore/Mooncake).

РазвертываниеСкрипт запуска
Агрегированное (MP sidecar — рекомендуется)agg_lmcache_mp.sh
Агрегированное (устаревшее, in-process)agg_lmcache.sh
Агрегированное (устаревшее, multiprocess metrics)agg_lmcache_multiproc.sh
Дизагрегированноеdisagg_lmcache.sh

Подробности настройки см. в руководстве по интеграции LMCache.

FlexKV

FlexKV — масштабируемая распределенная среда выполнения KV-кэша, разработанная командой TACO из Tencent Cloud. Она поддерживает многоуровневое кэширование (GPU, CPU, SSD), распределенное повторное использование KV-кэша между узлами и высокопроизводительный I/O через io_uring и GPUDirect Storage.

РазвертываниеСкрипт запуска
Агрегированноеagg_flexkv.sh
Агрегированное + KV routingagg_flexkv_router.sh
Дизагрегированноеdisagg_flexkv.sh

Подробности настройки см. в руководстве по интеграции FlexKV.

См. также