Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Спекулятивное декодирование

Спекулятивное декодирование - это метод оптимизации, который использует меньшую "черновую" модель для предсказания нескольких токенов, которые затем параллельно проверяются основной моделью. Это может значительно снизить задержку при авторегрессионной генерации.

Поддержка бэкендов

Backend	Статус	Примечания
vLLM	✅	Поддержка черновой модели Eagle3
SGLang	🚧	Пока не задокументировано
TensorRT-LLM	🚧	Пока не задокументировано

Обзор

Спекулятивное декодирование работает так:

Черновая фаза: меньшая и более быстрая модель генерирует токены-кандидаты
Фаза проверки: основная модель проверяет эти кандидаты за один прямой проход
Принятие/отклонение: токены принимаются, если они совпадают с тем, что сгенерировала бы основная модель

В этом подходе дополнительные вычисления обмениваются на меньшую задержку, поскольку за один прямой проход основной модели можно сгенерировать несколько токенов.

Быстрый старт (vLLM + Eagle3)

В этом руководстве показано развертывание Meta-Llama-3.1-8B-Instruct со спекулятивным декодированием Eagle3 на одном GPU с VRAM не менее 16GB.

Предварительные требования

Запустите инфраструктурные сервисы:

docker compose -f dev/docker-compose.yml up -d

Соберите и запустите контейнер vLLM:

./container/build.sh --framework VLLM
./container/run.sh -it --framework VLLM --mount-workspace

Настройте доступ к Hugging Face (доступ к Meta-Llama-3.1-8B-Instruct ограничен):

export HUGGING_FACE_HUB_TOKEN="your_token_here"
export HF_TOKEN=$HUGGING_FACE_HUB_TOKEN

Запустите спекулятивное декодирование

cd examples/backends/vllm
bash launch/agg_spec_decoding.sh

Проверьте развертывание

curl http://localhost:8000/v1/chat/completions \
   -H "Content-Type: application/json" \
   -d '{
     "model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
     "messages": [
       {"role": "user", "content": "Write a poem about why Sakura trees are beautiful."}
     ],
     "max_tokens": 250
   }'

Руководства для отдельных бэкендов

Backend	Руководство
vLLM	speculative_decoding_vllm.md

См. также

Backend vLLM - полное руководство по развертыванию vLLM
Дезагрегированное обслуживание - альтернативный подход к оптимизации
Meta-Llama-3.1-8B-Instruct на Hugging Face

Поддержка бэкендов​

Обзор​

Быстрый старт (vLLM + Eagle3)​

Предварительные требования​

Запустите спекулятивное декодирование​

Проверьте развертывание​

Руководства для отдельных бэкендов​

См. также​