Для чистого Markdown-контента этой страницы добавьте
.mdк этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полный контент, включая API reference и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.
Grove
Grove — это Kubernetes API, специально созданный для решения задач оркестрации современных AI-нагрузок, особенно disaggregated inference-систем. Grove обеспечивает бесшовную интеграцию с NVIDIA Dynamo для комплексного управления AI-инфраструктурой.
Обзор
Изначально Grove появился как ответ на сложности оркестрации multinode disaggregated inference-систем. Он предоставляет последовательный и единый API, который позволяет пользователям определять, настраивать и масштабировать prefill, decode и любые другие компоненты, например routing, в рамках одного custom resource.
Как Grove работает для disaggregated serving
Grove обеспечивает disaggregated serving, разбивая inference больших языковых моделей на отдельные специализированные компоненты, которые можно масштабировать и управлять ими независимо. Такая архитектура дает несколько преимуществ:
- Специализация компонентов: отдельные компоненты prefill, decode и routing оптимизированы под свои задачи
- Независимое масштабирование: каждый компонент может масштабироваться в соответствии со своими требованиями к ресурсам и характером нагрузки
- Оптимизация ресурсов: более эффективное использование аппаратных ресурсов за счет специализированного размещения нагрузок
- Изоляция сбоев: проблемы в одном компоненте не обязательно затрагивают другие
Основные компоненты и API-ресурсы
Grove реализует disaggregated serving через несколько custom resources Kubernetes, которые обеспечивают декларативную композицию групп pod'ов на основе ролей:
PodCliqueSet
Объект Grove верхнего уровня, который определяет группу компонентов, управляемых и размещаемых совместно. Ключевые возможности:
- Поддержка autoscaling
- Топологически осознанное распределение replicas для повышения доступности
- Единое управление несколькими disaggregated-компонентами
PodClique
Представляет группу pod'ов с определенной ролью (например, leader, worker, frontend). Каждый clique обладает:
- Независимыми настройками конфигурации
- Поддержкой собственной логики масштабирования
- Назначением ресурсов с учетом роли
PodCliqueScalingGroup
Набор PodClique, которые масштабируются и планируются вместе; подходит для тесно связанных ролей, таких как prefill leader и worker components, которым нужно согласованное поведение при масштабировании.
Ключевые возможности для disaggregated serving
Grove предоставляет несколько специализированных функций, которые делают его особенно подходящим для disaggregated serving:
Гибкое gang scheduling
PodCliques и PodCliqueScalingGroups позволяют задавать гибкие требования gang scheduling на нескольких уровнях внутри PodCliqueSet, чтобы предотвратить взаимные блокировки ресурсов и гарантировать совместный старт всех компонентов disaggregated-системы.
Многоуровневое горизонтальное autoscaling
Поддерживает подключаемые решения horizontal auto-scaling для независимого масштабирования custom resources PodCliqueSet, PodClique и PodCliqueScalingGroup в соответствии с их собственными метриками и требованиями.
Планирование с учетом сетевой топологии
Позволяет задавать ограничения pack и spread для сетевой топологии, чтобы оптимизировать и сетевую производительность, и доступность сервиса, что особенно важно для disaggregated-систем, где компонентам нужна эффективная межузловая связь. Dynamo предоставляет эту возможность через поле topologyConstraint в ресурсах DynamoGraphDeployment, так что пользователи могут включить топологически осознанное размещение без взаимодействия с внутренностями Grove. Смотрите руководство по Topology Aware Scheduling для деталей конфигурации и примеров.
Пользовательские зависимости старта
Задает порядок, в котором PodCliques должны запускаться, в декларативной спецификации, при этом запуск pod'ов отделен от их создания или планирования. Это обеспечивает правильный порядок инициализации для disaggregated-компонентов.
Сценарии использования и примеры
Grove особенно хорошо подходит для:
- Многоузлового disaggregated inference для больших моделей, таких как DeepSeek-R1 и Llama-4-Maverick
- Одноузлового disaggregated inference для более эффективного использования ресурсов
- Agentic pipelines из моделей для сложных AI-workflow
- Стандартных aggregated serving-паттернов для inference на одном узле или одной GPU
Интеграция с NVIDIA Dynamo
Grove стратегически согласован с NVIDIA Dynamo для бесшовной интеграции в стек AI-инфраструктуры:
Взаимодополняющие роли
- Grove: отвечает за уровень Kubernetes-оркестрации disaggregated AI-нагрузок
- Dynamo: предоставляет комплексные возможности AI-инфраструктуры, включая serving backends, routing и управление ресурсами
Согласование релизов
Grove синхронизирует свой релизный график с NVIDIA Dynamo, чтобы обеспечить бесшовную интеграцию; итоговый ритм релизов отражен в дорожной карте проекта.
Единая AI-платформа
Интеграция создает комплексную платформу, где:
- Grove управляет сложной оркестрацией disaggregated-компонентов
- Dynamo предоставляет инфраструктуру serving, возможности routing и интеграции backend'ов
- Вместе они обеспечивают продвинутые AI-serving-архитектуры с более простым управлением
Преимущества архитектуры
Grove представляет собой значительный шаг вперед в Kubernetes-оркестрации AI-нагрузок за счет:
- Упрощения сложных развертываний: предоставляет единый API, способный управлять несколькими компонентами (prefill, decode, routing) в рамках одного определения ресурса
- Поддержки сложных архитектур: обеспечивает advanced disaggregated inference-паттерны, которые раньше было трудно оркестрировать
- Снижения операционной сложности: скрывает сложность координации нескольких взаимозависимых AI-компонентов
- Оптимизации использования ресурсов: дает детальный контроль над размещением и масштабированием компонентов
Начало работы
Grove использует KAI Scheduler для распределения ресурсов и планирования.
См. руководство по развертыванию KAI Scheduler.
Инструкции по установке см. в Grove Installation Guide.
Практические примеры multinode-развертываний на базе Grove см. в Multinode Deployment Guide, где показаны сценарии многоузлового disaggregated serving.
За последними обновлениями Grove обращайтесь к официальному проекту на GitHub.
Dynamo Kubernetes Platform также позволяет установить Grove и KAI Scheduler в составе установки платформы. Подробности см. в Dynamo Kubernetes Platform Deployment Installation Guide.