Чтобы получить чистую Markdown-версию этой страницы, добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая API reference и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Подсказки агента

Подсказки агента - это необязательные метаданные на уровне запроса, которые обвязка отправляет в nvext.agent_hints. Dynamo разбирает эти подсказки во frontend и передает их в router и, где поддерживается, в backend runtimes.

Используйте подсказки только для intent, связанного с обслуживанием запросов. Для пассивного идентификатора трассировки используйте nvext.agent_context.

Схема запроса

{
    "model": "my-model",
    "messages": [
        { "role": "user", "content": "Continue the report." }
    ],
    "nvext": {
        "agent_hints": {
            "priority": 5,
            "osl": 1024,
            "speculative_prefill": true
        }
    }
}

Подсказка	Описание
`priority`	Единый приоритет запроса. Более высокие значения смещают запрос выше в очереди router и передаются в backends, которые поддерживают приоритетное планирование или вытеснение.
`osl`	Ожидаемая длина выходной последовательности в токенах. Используется router для отслеживания выходных блоков и повышения точности балансировки нагрузки, когда включен `--router-track-output-blocks`.
`speculative_prefill`	Когда значение `true`, Dynamo может предварительно заполнить предсказанный префикс следующего хода после завершения текущего хода, чтобы прогреть KV cache для следующего запроса.

Поток запроса

flowchart LR
    Harness[Agent harness] -->|nvext.agent_hints| Frontend[Dynamo frontend]
    Frontend --> Router[Router]
    Router --> Worker[Backend worker]

Frontend разбирает nvext.agent_hints, router использует подсказки для очереди и выбора worker, а поддерживаемые backends используют переданные подсказки для планирования на уровне engine и политики cache.

Поддержка backend

Поддержка backend зависит от runtime. Для флагов и поведения SGLang см. SGLang for Agentic Workloads.

Возможность	vLLM	SGLang	TensorRT-LLM
Маршрутизация с учетом приоритета	Да	Да	Да
Вытеснение cache на основе приоритета	В планах	Да	В планах
Спекулятивный prefill	Да	Да	Да
Изоляция KV подагента с управлением сессией	Нет	Экспериментально	Нет

Связанные расширения запроса

agent_hints is separate from agent_context:

agent_context - это пассивный идентификатор для трассировок и joins.
agent_hints - это активный intent обслуживания для маршрутизации, планирования и поведения cache.

Метаданные управления сессией для изоляции KV подагента в SGLang находятся в nvext.session_control; см. NVIDIA Request Extensions.

Схема запроса​

Поток запроса​

Поддержка backend​

Связанные расширения запроса​

Схема запроса

Поток запроса

Поддержка backend

Связанные расширения запроса