Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.
Скользящее окно Gemma3
Общие возможности и настройки TensorRT-LLM описаны в справочном руководстве.
В этом руководстве показано, как развернуть google/gemma-3-1b-it с Variable Sliding Window Attention (VSWA) с помощью Dynamo. Поскольку google/gemma-3-1b-it — небольшая модель, каждому агрегированному рабочему процессу, а также рабочему процессу decode или prefill требуется только один H100 GPU или один GB200 GPU. VSWA — это механизм, при котором слои модели чередуются между несколькими размерами скользящего окна. Примером служит Gemma 3, где есть как слои глобального внимания, так и слои со скользящим окном.
- Перед запуском убедитесь, что необходимые сервисы, такие как
natsиetcd, работают. - Запросите доступ к
google/gemma-3-1b-itна Hugging Face и задайте переменную окруженияHF_TOKENдля аутентификации.
Агрегированное обслуживание
cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export AGG_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_agg.yaml
./launch/agg.sh
Агрегированное обслуживание с маршрутизацией KV
cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export AGG_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_agg.yaml
./launch/agg_router.sh
Дезагрегированное обслуживание
cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export PREFILL_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_prefill.yaml
export DECODE_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_decode.yaml
./launch/disagg.sh
Дезагрегированное обслуживание с маршрутизацией KV
cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export PREFILL_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_prefill.yaml
export DECODE_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_decode.yaml
./launch/disagg_router.sh