Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.
Известные проблемы и способы их устранения
Общие возможности и настройки TensorRT-LLM описаны в справочном руководстве.
Исчерпание KV cache, вызывающее взаимную блокировку worker'а (Disaggregated Serving)
Проблема: В режиме disaggregated serving worker'ы TensorRT-LLM могут зависнуть и перестать отвечать после длительного высоконагруженного трафика. После перехода в это состояние для восстановления worker'ов требуется перезапуск pod'а или процесса.
Симптомы:
- Сначала worker'ы работают нормально, но зависают после интенсивного нагрузочного тестирования
- Запросы инференса зависают и в итоге завершаются по тайм-ауту
- В логах появляются предупреждения:
num_fitting_reqs=0 and fitting_disagg_gen_init_requests is empty, may not have enough kvCache - Логи ошибок могут содержать:
asyncio.exceptions.InvalidStateError: invalid state
Первопричина: Если max_tokens_in_buffer в конфигурации cache transceiver меньше максимальной обрабатываемой длины входной последовательности (ISL), при высокой нагрузке может произойти исчерпание KV cache. Из-за этого передачи контекста завершаются по тайм-ауту, worker'ы застревают в ожидании фантомных передач и переходят в невосстановимое состояние взаимной блокировки.
Способ устранения: Убедитесь, что max_tokens_in_buffer превышает максимальную ожидаемую длину входной последовательности. Обновите конфигурационные файлы engine, например prefill.yaml и decode.yaml:
cache_transceiver_config:
backend: DEFAULT
max_tokens_in_buffer: 65536 # Must exceed max ISL
Пример см. в examples/backends/trtllm/engine_configs/gpt-oss-120b/prefill.yaml.
Связанная issue: #4327
Несоответствие драйвера приводит к неочевидным ошибкам PyTorch
Если драйвер NVIDIA на хосте слишком старый для версии CUDA в контейнере, PyTorch показывает сбой так:
RuntimeError: The NVIDIA driver on your system is too old (found version 570). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx
Это симптом, а не причина: причина в том, что загруженному образу контейнера требуется более новый драйвер, чем установлен на хосте.
Исправление:
- Проверьте минимальную версию драйвера для загруженного тега в матрице контейнеров и драйверов.
- Либо обновите драйвер на хосте, либо загрузите вариант с более ранней версией CUDA, например
vllm-runtime:1.0.2для драйвера575+вместоvllm-runtime:1.0.2-cuda13для драйвера580+.
Само сообщение об ошибке несоответствия драйвера улучшается; это отслеживается как инженерная доработка.