Перейти к основному содержимому

Чтобы получить чистую Markdown-версию этой страницы, добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая API reference и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Подсказки агента

Подсказки агента - это необязательные метаданные на уровне запроса, которые обвязка отправляет в nvext.agent_hints. Dynamo разбирает эти подсказки во frontend и передает их в router и, где поддерживается, в backend runtimes.

Используйте подсказки только для intent, связанного с обслуживанием запросов. Для пассивного идентификатора трассировки используйте nvext.agent_context.

Схема запроса

{
"model": "my-model",
"messages": [
{ "role": "user", "content": "Continue the report." }
],
"nvext": {
"agent_hints": {
"priority": 5,
"osl": 1024,
"speculative_prefill": true
}
}
}
ПодсказкаОписание
priorityЕдиный приоритет запроса. Более высокие значения смещают запрос выше в очереди router и передаются в backends, которые поддерживают приоритетное планирование или вытеснение.
oslОжидаемая длина выходной последовательности в токенах. Используется router для отслеживания выходных блоков и повышения точности балансировки нагрузки, когда включен --router-track-output-blocks.
speculative_prefillКогда значение true, Dynamo может предварительно заполнить предсказанный префикс следующего хода после завершения текущего хода, чтобы прогреть KV cache для следующего запроса.

Поток запроса

flowchart LR
Harness[Agent harness] -->|nvext.agent_hints| Frontend[Dynamo frontend]
Frontend --> Router[Router]
Router --> Worker[Backend worker]

Frontend разбирает nvext.agent_hints, router использует подсказки для очереди и выбора worker, а поддерживаемые backends используют переданные подсказки для планирования на уровне engine и политики cache.

Поддержка backend

Поддержка backend зависит от runtime. Для флагов и поведения SGLang см. SGLang for Agentic Workloads.

ВозможностьvLLMSGLangTensorRT-LLM
Маршрутизация с учетом приоритетаДаДаДа
Вытеснение cache на основе приоритетаВ планахДаВ планах
Спекулятивный prefillДаДаДа
Изоляция KV подагента с управлением сессиейНетЭкспериментальноНет

Связанные расширения запроса

agent_hints is separate from agent_context:

  • agent_context - это пассивный идентификатор для трассировок и joins.
  • agent_hints - это активный intent обслуживания для маршрутизации, планирования и поведения cache.

Метаданные управления сессией для изоляции KV подагента в SGLang находятся в nvext.session_control; см. NVIDIA Request Extensions.