Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.

Llama4 + Eagle

В этом руководстве показано, как развернуть Llama 4 Maverick Instruct с Eagle Speculative Decoding на узлах GB200x4. Мы будем следовать инструкциям по многоузловому развертыванию, чтобы настроить окружение для следующих сценариев:

Агрегированное обслуживание: Развертывание всей модели Llama 4 на одном узле GB200x4 для сквозного обслуживания.
Дезагрегированное обслуживание: Распределение рабочей нагрузки между двумя узлами GB200x4:
- Один узел запускает decode worker.
- Другой узел запускает prefill worker.

Примечания

Убедитесь, что (eagle3_one_model: true) задано в конфигурации LLM API в папке examples/backends/trtllm/engine_configs/llama4/eagle.

Настройка

Предполагая, что вы уже выделили узлы через salloc и находитесь в интерактивной оболочке на одном из выделенных узлов, задайте следующие переменные окружения:

cd $DYNAMO_HOME/examples/backends/trtllm

export IMAGE="<dynamo_trtllm_image>"
# export MOUNTS="${PWD}/:/mnt,/lustre:/lustre"
export MOUNTS="${PWD}/:/mnt"
export MODEL_PATH="nvidia/Llama-4-Maverick-17B-128E-Instruct-FP8"
export SERVED_MODEL_NAME="nvidia/Llama-4-Maverick-17B-128E-Instruct-FP8"

Подробнее о приведенных выше параметрах см. в инструкциях по настройке multinode.

Агрегированное обслуживание

export NUM_NODES=1
export ENGINE_CONFIG="/mnt/examples/backends/trtllm/engine_configs/llama4/eagle/eagle_agg.yml"
./multinode/srun_aggregated.sh

Дезагрегированное обслуживание

export NUM_PREFILL_NODES=1
export PREFILL_ENGINE_CONFIG="/mnt/examples/backends/trtllm/engine_configs/llama4/eagle/eagle_prefill.yml"
export NUM_DECODE_NODES=1
export DECODE_ENGINE_CONFIG="/mnt/examples/backends/trtllm/engine_configs/llama4/eagle/eagle_decode.yml"
./multinode/srun_disaggregated.sh

Пример запроса

О том, как отправить запрос к развертыванию, см. в разделе с примером запроса.

curl localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
        "model": "nvidia/Llama-4-Maverick-17B-128E-Instruct-FP8",
        "messages": [{"role": "user", "content": "Explain why Roger Federer is considered one of the greatest tennis players of all time"}],
        "max_tokens": 1024
    }' -w "\n"


# output:
{"id":"cmpl-3e87ea5c-010e-4dd2-bcc4-3298ebd845a8","choices":[{"text":"NVIDIA is considered a great company for several reasons:\n\n1. **Technological Innovation**: NVIDIA is a leader in the field of graphics processing units (GPUs) and has been at the forefront of technological innovation.
...
and the broader tech industry.\n\nThese factors combined have contributed to NVIDIA's status as a great company in the technology sector.","index":0,"logprobs":null,"finish_reason":"stop"}],"created":1753329671,"model":"nvidia/Llama-4-Maverick-17B-128E-Instruct-FP8","system_fingerprint":null,"object":"text_completion","usage":{"prompt_tokens":16,"completion_tokens":562,"total_tokens":578,"prompt_tokens_details":null,"completion_tokens_details":null}}

Примечания​

Настройка​

Агрегированное обслуживание​

Дезагрегированное обслуживание​

Пример запроса​

Примечания

Настройка

Агрегированное обслуживание

Дезагрегированное обслуживание

Пример запроса