Перейти к основному содержимому

Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.

Скользящее окно Gemma3

Общие возможности и настройки TensorRT-LLM описаны в справочном руководстве.


В этом руководстве показано, как развернуть google/gemma-3-1b-it с Variable Sliding Window Attention (VSWA) с помощью Dynamo. Поскольку google/gemma-3-1b-it — небольшая модель, каждому агрегированному рабочему процессу, а также рабочему процессу decode или prefill требуется только один H100 GPU или один GB200 GPU. VSWA — это механизм, при котором слои модели чередуются между несколькими размерами скользящего окна. Примером служит Gemma 3, где есть как слои глобального внимания, так и слои со скользящим окном.

  • Перед запуском убедитесь, что необходимые сервисы, такие как nats и etcd, работают.
  • Запросите доступ к google/gemma-3-1b-it на Hugging Face и задайте переменную окружения HF_TOKEN для аутентификации.

Агрегированное обслуживание

cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export AGG_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_agg.yaml
./launch/agg.sh

Агрегированное обслуживание с маршрутизацией KV

cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export AGG_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_agg.yaml
./launch/agg_router.sh

Дезагрегированное обслуживание

cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export PREFILL_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_prefill.yaml
export DECODE_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_decode.yaml
./launch/disagg.sh

Дезагрегированное обслуживание с маршрутизацией KV

cd $DYNAMO_HOME/examples/backends/trtllm
export MODEL_PATH=google/gemma-3-1b-it
export SERVED_MODEL_NAME=$MODEL_PATH
export PREFILL_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_prefill.yaml
export DECODE_ENGINE_ARGS=$DYNAMO_HOME/examples/backends/trtllm/engine_configs/gemma3/vswa_decode.yaml
./launch/disagg_router.sh