Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.
Выгрузка KV-кэша
Выгрузка KV-кэша
Dynamo поддерживает несколько бэкендов выгрузки KV-кэша для vLLM, позволяя расширить эффективную емкость KV-кэша за пределы памяти GPU за счет CPU RAM и дискового хранилища. Каждый бэкенд интегрируется через интерфейс коннекторов vLLM и работает как с агрегированным, так и с дизагрегированным обслуживанием.
| Бэкенд | Источник |
|---|---|
| KVBM | Dynamo |
| LMCache | GitHub |
| FlexKV | GitHub |
KVBM
KVBM (KV Block Manager) — встроенная в Dynamo система выгрузки KV-кэша. Она предоставляет трехуровневую архитектуру (среда выполнения LLM, управление логическими блоками, транспорт NIXL) с поддержкой уровней кэша на CPU и диске, а также нативно интегрируется с KV-aware маршрутизацией Dynamo и дизагрегированным обслуживанием.
| Развертывание | Скрипт запуска |
|---|---|
| Агрегированное | agg_kvbm.sh |
| Агрегированное + KV routing | agg_kvbm_router.sh |
| Дизагрегированное (1P1D) | disagg_kvbm.sh |
| Дизагрегированное (2P2D) | disagg_kvbm_2p2d.sh |
| Дизагрегированное + KV routing | disagg_kvbm_router.sh |
Подробности настройки см. в руководстве по KVBM.
LMCache
LMCache — open-source движок KV-кэша, который реализует кэширование в стиле «один раз выполнить prefill, повторно использовать везде» с многоуровневыми бэкендами хранения (CPU RAM, локальное хранилище, Redis, GDS, InfiniStore/Mooncake).
| Развертывание | Скрипт запуска |
|---|---|
| Агрегированное (MP sidecar — рекомендуется) | agg_lmcache_mp.sh |
| Агрегированное (устаревшее, in-process) | agg_lmcache.sh |
| Агрегированное (устаревшее, multiprocess metrics) | agg_lmcache_multiproc.sh |
| Дизагрегированное | disagg_lmcache.sh |
Подробности настройки см. в руководстве по интеграции LMCache.
FlexKV
FlexKV — масштабируемая распределенная среда выполнения KV-кэша, разработанная командой TACO из Tencent Cloud. Она поддерживает многоуровневое кэширование (GPU, CPU, SSD), распределенное повторное использование KV-кэша между узлами и высокопроизводительный I/O через io_uring и GPUDirect Storage.
| Развертывание | Скрипт запуска |
|---|---|
| Агрегированное | agg_flexkv.sh |
| Агрегированное + KV routing | agg_flexkv_router.sh |
| Дизагрегированное | disagg_flexkv.sh |
Подробности настройки см. в руководстве по интеграции FlexKV.
См. также
- Дизайн KVBM: архитектура и дизайн встроенной в Dynamo выгрузки KV-кэша
- Концепции маршрутизации: маршрутизация запросов на основе состояния KV-кэша
- Дизагрегированное обслуживание: архитектура разделения prefill/decode