Перейти к основному содержимому

Для чистой Markdown-версии этой страницы добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Поддержка видео-диффузии (экспериментально)

Общие сведения о возможностях и конфигурации TensorRT-LLM см. в Справочном руководстве.


Dynamo поддерживает генерацию видео с помощью диффузионных моделей через флаг --modality video_diffusion и генерацию изображений через флаг --modality image_diffusion.

Требования

  • TensorRT-LLM с visual_gen: Модуль visual_gen входит в состав TensorRT-LLM (tensorrt_llm._torch.visual_gen). Установите TensorRT-LLM, следуя официальным инструкциям.
  • dynamo-runtime с multimodal API: В среде выполнения Dynamo должна быть поддержка ModelType.Videos или ModelType.Images. Убедитесь, что вы используете совместимую версию.
  • Видео-диффузия: imageio с ffmpeg: Требуется для кодирования сгенерированных кадров в видео MP4. Контейнер runtime Dynamo TRT-LLM поставляется с CLI ffmpeg только под LGPL, собранным с кодировщиком NVIDIA NVENC H.264 (h264_nvenc) и libvpx_vp9 для WebM, и указывает imageio на него через IMAGEIO_FFMPEG_EXE=/usr/local/bin/ffmpeg — бинарный ffmpeg с ограничениями GPL, который обычно входит в wheel imageio-ffmpeg из PyPI, не установлен. Если вы запускаете систему вне контейнера, установите Python-обёртку без bundled-бинарника и укажите ей свой ffmpeg:
    pip install --no-binary imageio-ffmpeg "imageio[ffmpeg]"
    export IMAGEIO_FFMPEG_EXE=/path/to/your/ffmpeg
    Для вывода MP4 во время выполнения требуется GPU NVIDIA (NVENC — аппаратный кодировщик).

Поддерживаемые модели

Конвейер DiffusersОписаниеПример модели
WanPipelineWan 2.1/2.2, преобразование текста в видеоWan-AI/Wan2.1-T2V-1.3B-Diffusers
FluxPipelineFLUX, преобразование текста в изображениеblack-forest-labs/FLUX.1-dev

Тип конвейера определяется автоматически по model_index.json модели — флаг --model-type не нужен.

Быстрый старт

Видео-диффузия

Запуск воркера

python -m dynamo.trtllm \
--modality video_diffusion \
--model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
--media-output-fs-url file:///tmp/dynamo_media

Конечная точка API

Для генерации видео используется конечная точка /v1/videos:

curl -X POST http://localhost:8000/v1/videos \
-H "Content-Type: application/json" \
-d '{
"prompt": "A cat playing piano",
"model": "wan_t2v",
"seconds": 4,
"size": "832x480",
"nvext": {
"fps": 24
}
}'

Диффузия изображений

Запуск воркера

python -m dynamo.trtllm \
--modality image_diffusion \
--model-path black-forest-labs/FLUX.1-dev \
--media-output-fs-url file:///tmp/dynamo_media

Конечная точка API

Для генерации изображений используется конечная точка /v1/images/generations:

curl -X POST http://localhost:8000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "A cat playing piano",
"model": "black-forest-labs/FLUX.1-dev",
"size": "256x256"
}'

Параметры конфигурации

ФлагОписаниеЗначение по умолчанию
--media-output-fs-urlURL файловой системы для хранения сгенерированных медиафайловfile:///tmp/dynamo_media
--default-heightВысота изображений/видео по умолчанию480
--default-widthШирина изображений/видео по умолчанию832
--default-num-framesКоличество кадров по умолчанию81
--default-num-images-per-promptКоличество изображений на один prompt по умолчанию1
--enable-teacacheВключить оптимизацию TeaCacheFalse
--disable-torch-compileОтключить torch.compileFalse

Ограничения

  • Диффузия находится в экспериментальном статусе и не рекомендуется для production.
  • В этом выпуске поддерживаются только преобразование текста в видео и преобразование текста в изображение (image-to-video запланирован).
  • Требуется GPU с достаточным объёмом VRAM для диффузионной модели.