Чтобы получить чистую Markdown-версию этой страницы, добавьте
.mdк этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая API reference и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.
Подсказки агента
Подсказки агента - это необязательные метаданные на уровне запроса, которые
обвязка отправляет в nvext.agent_hints. Dynamo разбирает эти подсказки во
frontend и передает их в router и, где поддерживается, в backend runtimes.
Используйте подсказки только для intent, связанного с обслуживанием запросов.
Для пассивного идентификатора трассировки используйте
nvext.agent_context.
Схема запроса
{
"model": "my-model",
"messages": [
{ "role": "user", "content": "Continue the report." }
],
"nvext": {
"agent_hints": {
"priority": 5,
"osl": 1024,
"speculative_prefill": true
}
}
}
| Подсказка | Описание |
|---|---|
priority | Единый приоритет запроса. Более высокие значения смещают запрос выше в очереди router и передаются в backends, которые поддерживают приоритетное планирование или вытеснение. |
osl | Ожидаемая длина выходной последовательности в токенах. Используется router для отслеживания выходных блоков и повышения точности балансировки нагрузки, когда включен --router-track-output-blocks. |
speculative_prefill | Когда значение true, Dynamo может предварительно заполнить предсказанный префикс следующего хода после завершения текущего хода, чтобы прогреть KV cache для следующего запроса. |
Поток запроса
flowchart LR
Harness[Agent harness] -->|nvext.agent_hints| Frontend[Dynamo frontend]
Frontend --> Router[Router]
Router --> Worker[Backend worker]
Frontend разбирает nvext.agent_hints, router использует подсказки для
очереди и выбора worker, а поддерживаемые backends используют переданные
подсказки для планирования на уровне engine и политики cache.
Поддержка backend
Поддержка backend зависит от runtime. Для флагов и поведения SGLang см. SGLang for Agentic Workloads.
| Возможность | vLLM | SGLang | TensorRT-LLM |
|---|---|---|---|
| Маршрутизация с учетом приоритета | Да | Да | Да |
| Вытеснение cache на основе приоритета | В планах | Да | В планах |
| Спекулятивный prefill | Да | Да | Да |
| Изоляция KV подагента с управлением сессией | Нет | Экспериментально | Нет |
Связанные расширения запроса
agent_hints is separate from agent_context:
agent_context- это пассивный идентификатор для трассировок и joins.agent_hints- это активный intent обслуживания для маршрутизации, планирования и поведения cache.
Метаданные управления сессией для изоляции KV подагента в SGLang находятся в
nvext.session_control; см. NVIDIA Request Extensions.