Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

Парсинг рассуждений (резервный путь движка)

Если в registry Dynamo нет reasoning parser для вашей модели, используйте parser upstream-движка через замену chat-processor. Это сохраняет токенизацию frontend и KV routing.

Для Dynamo-native parser'ов см. Reasoning Parsing (Dynamo). Для аналогичного fallback для tool call см. Tool Call Parsing (Engine Fallback).

Известная проблема: reasoning parsing через engine-fallback сейчас не работает с disaggregated serving (поддержка скоро появится). Для disaggregated-deployment'ов сейчас используйте Dynamo-native reasoning parser.

Конфигурации

Флаги frontendФлаги worker'аKV routingПримечания
vLLM chat processor--dyn-chat-processor vllm --reasoning-parser <name>(нет)ДаПарсинг выполняется в Python preprocessor'е vLLM. См. vLLM Chat Processor.
SGLang chat processor--dyn-chat-processor sglang --reasoning-parser <name>(нет)ДаПарсинг выполняется в Python preprocessor'е SGLang. См. SGLang Chat Processor.
TRTLLM chat processor(в работе)(в работе)--Поддержка engine-fallback для TRTLLM находится в разработке. Для TRTLLM сейчас используйте Dynamo-native reasoning parser.

--dyn-reasoning-parser выбирает путь Dynamo-native parser'а, а --reasoning-parser выбирает путь engine fallback (vLLM или SGLang). Допустимые значения для каждого флага берутся из разных registry и могут слегка отличаться в зависимости от определений каждого фреймворка (например, nemotron_v3 у vLLM против nemotron3 у Dynamo).

Примеры

# vLLM chat processor
python -m dynamo.vllm ...
python -m dynamo.frontend --dyn-chat-processor vllm --reasoning-parser deepseek_r1

# SGLang chat processor
python -m dynamo.sglang ...
python -m dynamo.frontend --dyn-chat-processor sglang --reasoning-parser kimi_k25

См. также