Для чистой Markdown-версии этой страницы добавьте .md к этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.

Поддержка видео-диффузии (экспериментально)

Общие сведения о возможностях и конфигурации TensorRT-LLM см. в Справочном руководстве.

Dynamo поддерживает генерацию видео с помощью диффузионных моделей через флаг --modality video_diffusion и генерацию изображений через флаг --modality image_diffusion.

Требования

TensorRT-LLM с visual_gen: Модуль visual_gen входит в состав TensorRT-LLM (tensorrt_llm._torch.visual_gen). Установите TensorRT-LLM, следуя официальным инструкциям.
dynamo-runtime с multimodal API: В среде выполнения Dynamo должна быть поддержка ModelType.Videos или ModelType.Images. Убедитесь, что вы используете совместимую версию.
Видео-диффузия: imageio с ffmpeg: Требуется для кодирования сгенерированных кадров в видео MP4. Контейнер runtime Dynamo TRT-LLM поставляется с CLI ffmpeg только под LGPL, собранным с кодировщиком NVIDIA NVENC H.264 (h264_nvenc) и libvpx_vp9 для WebM, и указывает imageio на него через IMAGEIO_FFMPEG_EXE=/usr/local/bin/ffmpeg — бинарный ffmpeg с ограничениями GPL, который обычно входит в wheel imageio-ffmpeg из PyPI, не установлен. Если вы запускаете систему вне контейнера, установите Python-обёртку без bundled-бинарника и укажите ей свой ffmpeg:
```
pip install --no-binary imageio-ffmpeg "imageio[ffmpeg]"
export IMAGEIO_FFMPEG_EXE=/path/to/your/ffmpeg
```
Для вывода MP4 во время выполнения требуется GPU NVIDIA (NVENC — аппаратный кодировщик).

Поддерживаемые модели

Конвейер Diffusers	Описание	Пример модели
`WanPipeline`	Wan 2.1/2.2, преобразование текста в видео	`Wan-AI/Wan2.1-T2V-1.3B-Diffusers`
`FluxPipeline`	FLUX, преобразование текста в изображение	`black-forest-labs/FLUX.1-dev`

Тип конвейера определяется автоматически по model_index.json модели — флаг --model-type не нужен.

Быстрый старт

Видео-диффузия

Запуск воркера

python -m dynamo.trtllm \
  --modality video_diffusion \
  --model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
  --media-output-fs-url file:///tmp/dynamo_media

Конечная точка API

Для генерации видео используется конечная точка /v1/videos:

curl -X POST http://localhost:8000/v1/videos \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "A cat playing piano",
    "model": "wan_t2v",
    "seconds": 4,
    "size": "832x480",
    "nvext": {
      "fps": 24
    }
  }'

Диффузия изображений

Запуск воркера

python -m dynamo.trtllm \
  --modality image_diffusion \
  --model-path black-forest-labs/FLUX.1-dev \
  --media-output-fs-url file:///tmp/dynamo_media

Конечная точка API

Для генерации изображений используется конечная точка /v1/images/generations:

curl -X POST http://localhost:8000/v1/images/generations \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "A cat playing piano",
    "model": "black-forest-labs/FLUX.1-dev",
    "size": "256x256"
  }'

Параметры конфигурации

Флаг	Описание	Значение по умолчанию
`--media-output-fs-url`	URL файловой системы для хранения сгенерированных медиафайлов	`file:///tmp/dynamo_media`
`--default-height`	Высота изображений/видео по умолчанию	`480`
`--default-width`	Ширина изображений/видео по умолчанию	`832`
`--default-num-frames`	Количество кадров по умолчанию	`81`
`--default-num-images-per-prompt`	Количество изображений на один prompt по умолчанию	`1`
`--enable-teacache`	Включить оптимизацию TeaCache	`False`
`--disable-torch-compile`	Отключить `torch.compile`	`False`

Ограничения

Диффузия находится в экспериментальном статусе и не рекомендуется для production.
В этом выпуске поддерживаются только преобразование текста в видео и преобразование текста в изображение (image-to-video запланирован).
Требуется GPU с достаточным объёмом VRAM для диффузионной модели.

Требования​

Поддерживаемые модели​

Быстрый старт​

Видео-диффузия​

Запуск воркера​

Конечная точка API​

Диффузия изображений​

Запуск воркера​

Конечная точка API​

Параметры конфигурации​

Ограничения​

Требования

Поддерживаемые модели

Быстрый старт

Видео-диффузия

Запуск воркера

Конечная точка API

Диффузия изображений

Запуск воркера

Конечная точка API

Параметры конфигурации

Ограничения