Для чистого Markdown-контента этой страницы добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полный контент, включая API reference и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Grove

Grove — это Kubernetes API, специально созданный для решения задач оркестрации современных AI-нагрузок, особенно disaggregated inference-систем. Grove обеспечивает бесшовную интеграцию с NVIDIA Dynamo для комплексного управления AI-инфраструктурой.

Обзор

Изначально Grove появился как ответ на сложности оркестрации multinode disaggregated inference-систем. Он предоставляет последовательный и единый API, который позволяет пользователям определять, настраивать и масштабировать prefill, decode и любые другие компоненты, например routing, в рамках одного custom resource.

Как Grove работает для disaggregated serving

Grove обеспечивает disaggregated serving, разбивая inference больших языковых моделей на отдельные специализированные компоненты, которые можно масштабировать и управлять ими независимо. Такая архитектура дает несколько преимуществ:

Специализация компонентов: отдельные компоненты prefill, decode и routing оптимизированы под свои задачи
Независимое масштабирование: каждый компонент может масштабироваться в соответствии со своими требованиями к ресурсам и характером нагрузки
Оптимизация ресурсов: более эффективное использование аппаратных ресурсов за счет специализированного размещения нагрузок
Изоляция сбоев: проблемы в одном компоненте не обязательно затрагивают другие

Основные компоненты и API-ресурсы

Grove реализует disaggregated serving через несколько custom resources Kubernetes, которые обеспечивают декларативную композицию групп pod'ов на основе ролей:

PodCliqueSet

Объект Grove верхнего уровня, который определяет группу компонентов, управляемых и размещаемых совместно. Ключевые возможности:

Поддержка autoscaling
Топологически осознанное распределение replicas для повышения доступности
Единое управление несколькими disaggregated-компонентами

PodClique

Представляет группу pod'ов с определенной ролью (например, leader, worker, frontend). Каждый clique обладает:

Независимыми настройками конфигурации
Поддержкой собственной логики масштабирования
Назначением ресурсов с учетом роли

PodCliqueScalingGroup

Набор PodClique, которые масштабируются и планируются вместе; подходит для тесно связанных ролей, таких как prefill leader и worker components, которым нужно согласованное поведение при масштабировании.

Ключевые возможности для disaggregated serving

Grove предоставляет несколько специализированных функций, которые делают его особенно подходящим для disaggregated serving:

Гибкое gang scheduling

PodCliques и PodCliqueScalingGroups позволяют задавать гибкие требования gang scheduling на нескольких уровнях внутри PodCliqueSet, чтобы предотвратить взаимные блокировки ресурсов и гарантировать совместный старт всех компонентов disaggregated-системы.

Многоуровневое горизонтальное autoscaling

Поддерживает подключаемые решения horizontal auto-scaling для независимого масштабирования custom resources PodCliqueSet, PodClique и PodCliqueScalingGroup в соответствии с их собственными метриками и требованиями.

Планирование с учетом сетевой топологии

Позволяет задавать ограничения pack и spread для сетевой топологии, чтобы оптимизировать и сетевую производительность, и доступность сервиса, что особенно важно для disaggregated-систем, где компонентам нужна эффективная межузловая связь. Dynamo предоставляет эту возможность через поле topologyConstraint в ресурсах DynamoGraphDeployment, так что пользователи могут включить топологически осознанное размещение без взаимодействия с внутренностями Grove. Смотрите руководство по Topology Aware Scheduling для деталей конфигурации и примеров.

Пользовательские зависимости старта

Задает порядок, в котором PodCliques должны запускаться, в декларативной спецификации, при этом запуск pod'ов отделен от их создания или планирования. Это обеспечивает правильный порядок инициализации для disaggregated-компонентов.

Сценарии использования и примеры

Grove особенно хорошо подходит для:

Многоузлового disaggregated inference для больших моделей, таких как DeepSeek-R1 и Llama-4-Maverick
Одноузлового disaggregated inference для более эффективного использования ресурсов
Agentic pipelines из моделей для сложных AI-workflow
Стандартных aggregated serving-паттернов для inference на одном узле или одной GPU

Интеграция с NVIDIA Dynamo

Grove стратегически согласован с NVIDIA Dynamo для бесшовной интеграции в стек AI-инфраструктуры:

Взаимодополняющие роли

Grove: отвечает за уровень Kubernetes-оркестрации disaggregated AI-нагрузок
Dynamo: предоставляет комплексные возможности AI-инфраструктуры, включая serving backends, routing и управление ресурсами

Согласование релизов

Grove синхронизирует свой релизный график с NVIDIA Dynamo, чтобы обеспечить бесшовную интеграцию; итоговый ритм релизов отражен в дорожной карте проекта.

Единая AI-платформа

Интеграция создает комплексную платформу, где:

Grove управляет сложной оркестрацией disaggregated-компонентов
Dynamo предоставляет инфраструктуру serving, возможности routing и интеграции backend'ов
Вместе они обеспечивают продвинутые AI-serving-архитектуры с более простым управлением

Преимущества архитектуры

Grove представляет собой значительный шаг вперед в Kubernetes-оркестрации AI-нагрузок за счет:

Упрощения сложных развертываний: предоставляет единый API, способный управлять несколькими компонентами (prefill, decode, routing) в рамках одного определения ресурса
Поддержки сложных архитектур: обеспечивает advanced disaggregated inference-паттерны, которые раньше было трудно оркестрировать
Снижения операционной сложности: скрывает сложность координации нескольких взаимозависимых AI-компонентов
Оптимизации использования ресурсов: дает детальный контроль над размещением и масштабированием компонентов

Начало работы

Grove использует KAI Scheduler для распределения ресурсов и планирования.

См. руководство по развертыванию KAI Scheduler.

Инструкции по установке см. в Grove Installation Guide.

Практические примеры multinode-развертываний на базе Grove см. в Multinode Deployment Guide, где показаны сценарии многоузлового disaggregated serving.

За последними обновлениями Grove обращайтесь к официальному проекту на GitHub.

Dynamo Kubernetes Platform также позволяет установить Grove и KAI Scheduler в составе установки платформы. Подробности см. в Dynamo Kubernetes Platform Deployment Installation Guide.

Обзор​

Как Grove работает для disaggregated serving​

Основные компоненты и API-ресурсы​

PodCliqueSet​

PodClique​

PodCliqueScalingGroup​

Ключевые возможности для disaggregated serving​

Гибкое gang scheduling​

Многоуровневое горизонтальное autoscaling​

Планирование с учетом сетевой топологии​

Пользовательские зависимости старта​

Сценарии использования и примеры​

Интеграция с NVIDIA Dynamo​

Взаимодополняющие роли​

Согласование релизов​

Единая AI-платформа​

Преимущества архитектуры​

Начало работы​