Для чистой Markdown-версии этой страницы добавьте
.mdк этому URL. Полный индекс документации см. в https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. в https://docs.nvidia.com/dynamo/llms-full.txt.
Поддержка видео-диффузии (экспериментально)
Общие сведения о возможностях и конфигурации TensorRT-LLM см. в Справочном руководстве.
Dynamo поддерживает генерацию видео с помощью диффузионных моделей через флаг --modality video_diffusion и
генерацию изображений через флаг --modality image_diffusion.
Требования
- TensorRT-LLM с visual_gen: Модуль
visual_genвходит в состав TensorRT-LLM (tensorrt_llm._torch.visual_gen). Установите TensorRT-LLM, следуя официальным инструкциям. - dynamo-runtime с multimodal API: В среде выполнения Dynamo должна быть поддержка
ModelType.VideosилиModelType.Images. Убедитесь, что вы используете совместимую версию. - Видео-диффузия: imageio с ffmpeg: Требуется для кодирования сгенерированных кадров в видео MP4. Контейнер runtime Dynamo TRT-LLM поставляется с CLI
ffmpegтолько под LGPL, собранным с кодировщиком NVIDIA NVENC H.264 (h264_nvenc) иlibvpx_vp9для WebM, и указываетimageioна него черезIMAGEIO_FFMPEG_EXE=/usr/local/bin/ffmpeg— бинарныйffmpegс ограничениями GPL, который обычно входит в wheelimageio-ffmpegиз PyPI, не установлен. Если вы запускаете систему вне контейнера, установите Python-обёртку без bundled-бинарника и укажите ей свойffmpeg:Для вывода MP4 во время выполнения требуется GPU NVIDIA (NVENC — аппаратный кодировщик).pip install --no-binary imageio-ffmpeg "imageio[ffmpeg]"export IMAGEIO_FFMPEG_EXE=/path/to/your/ffmpeg
Поддерживаемые модели
| Конвейер Diffusers | Описание | Пример модели |
|---|---|---|
WanPipeline | Wan 2.1/2.2, преобразование текста в видео | Wan-AI/Wan2.1-T2V-1.3B-Diffusers |
FluxPipeline | FLUX, преобразование текста в изображение | black-forest-labs/FLUX.1-dev |
Тип конвейера определяется автоматически по model_index.json модели — флаг --model-type не нужен.
Быстрый старт
Видео-диффузия
Запуск воркера
python -m dynamo.trtllm \
--modality video_diffusion \
--model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \
--media-output-fs-url file:///tmp/dynamo_media
Конечная точка API
Для генерации видео используется конечная точка /v1/videos:
curl -X POST http://localhost:8000/v1/videos \
-H "Content-Type: application/json" \
-d '{
"prompt": "A cat playing piano",
"model": "wan_t2v",
"seconds": 4,
"size": "832x480",
"nvext": {
"fps": 24
}
}'
Диффузия изображений
Запуск воркера
python -m dynamo.trtllm \
--modality image_diffusion \
--model-path black-forest-labs/FLUX.1-dev \
--media-output-fs-url file:///tmp/dynamo_media
Конечная точка API
Для генерации изображений используется конечная точка /v1/images/generations:
curl -X POST http://localhost:8000/v1/images/generations \
-H "Content-Type: application/json" \
-d '{
"prompt": "A cat playing piano",
"model": "black-forest-labs/FLUX.1-dev",
"size": "256x256"
}'
Параметры конфигурации
| Флаг | Описание | Значение по умолчанию |
|---|---|---|
--media-output-fs-url | URL файловой системы для хранения сгенерированных медиафайлов | file:///tmp/dynamo_media |
--default-height | Высота изображений/видео по умолчанию | 480 |
--default-width | Ширина изображений/видео по умолчанию | 832 |
--default-num-frames | Количество кадров по умолчанию | 81 |
--default-num-images-per-prompt | Количество изображений на один prompt по умолчанию | 1 |
--enable-teacache | Включить оптимизацию TeaCache | False |
--disable-torch-compile | Отключить torch.compile | False |
Ограничения
- Диффузия находится в экспериментальном статусе и не рекомендуется для production.
- В этом выпуске поддерживаются только преобразование текста в видео и преобразование текста в изображение (image-to-video запланирован).
- Требуется GPU с достаточным объёмом VRAM для диффузионной модели.