Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. по адресу https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. по адресу https://docs.nvidia.com/dynamo/llms-full.txt.

Маршрутизация DP Rank (Attention Data Parallelism)

Общие возможности и конфигурация TensorRT-LLM описаны в справочном руководстве.

TensorRT-LLM поддерживает параллелизм данных attention (attention DP) для моделей вроде DeepSeek. Когда он включен, несколько attention DP ranks выполняются внутри одного worker, и у каждого есть собственный KV cache. Dynamo может маршрутизировать запросы к конкретным DP ranks на основе состояния KV cache.

Dynamo и внутренняя маршрутизация TRT-LLM

Dynamo DP Rank Routing: маршрутизатор выбирает оптимальный DP rank на основе пересечения KV cache и указывает TRT-LLM использовать этот rank со строгой маршрутизацией (attention_dp_relax=False). Используйте это с --router-mode kv для маршрутизации с учетом кэша.
TRT-LLM Internal Routing: планировщик TRT-LLM назначает DP ranks внутри себя. Используйте это с --router-mode round-robin или random, когда маршрутизация с учетом KV не нужна.

Включение маршрутизации DP Rank

# Worker with attention DP
# (TP=2 acts as the "world size", in effect creating 2 attention DP ranks)
CUDA_VISIBLE_DEVICES=0,1 python3 -m dynamo.trtllm \
  --model-path <MODEL_PATH> \
  --tensor-parallel-size 2 \
  --enable-attention-dp \
  --publish-events-and-metrics

# Frontend with KV routing
python3 -m dynamo.frontend --router-mode kv

Флаг --enable-attention-dp задает attention_dp_size = tensor_parallel_size и настраивает Dynamo на публикацию KV events для каждого DP rank. Маршрутизатор автоматически создает цели маршрутизации для каждой комбинации (worker_id, dp_rank).

Attention DP требует PyTorch backend в TRT-LLM. AutoDeploy не поддерживает attention DP.

Dynamo и внутренняя маршрутизация TRT-LLM​

Включение маршрутизации DP Rank​

Dynamo и внутренняя маршрутизация TRT-LLM

Включение маршрутизации DP Rank