Перейти к основному содержимому

Чтобы получить чистое Markdown-содержимое этой страницы, добавьте .md к этому URL. Полный индекс документации см. на https://docs.nvidia.com/dynamo/llms.txt. Полное содержимое, включая справочник API и примеры SDK, см. на https://docs.nvidia.com/dynamo/llms-full.txt.

Известные проблемы и способы их устранения

Общие возможности и настройки TensorRT-LLM описаны в справочном руководстве.


Исчерпание KV cache, вызывающее взаимную блокировку worker'а (Disaggregated Serving)

Проблема: В режиме disaggregated serving worker'ы TensorRT-LLM могут зависнуть и перестать отвечать после длительного высоконагруженного трафика. После перехода в это состояние для восстановления worker'ов требуется перезапуск pod'а или процесса.

Симптомы:

  • Сначала worker'ы работают нормально, но зависают после интенсивного нагрузочного тестирования
  • Запросы инференса зависают и в итоге завершаются по тайм-ауту
  • В логах появляются предупреждения: num_fitting_reqs=0 and fitting_disagg_gen_init_requests is empty, may not have enough kvCache
  • Логи ошибок могут содержать: asyncio.exceptions.InvalidStateError: invalid state

Первопричина: Если max_tokens_in_buffer в конфигурации cache transceiver меньше максимальной обрабатываемой длины входной последовательности (ISL), при высокой нагрузке может произойти исчерпание KV cache. Из-за этого передачи контекста завершаются по тайм-ауту, worker'ы застревают в ожидании фантомных передач и переходят в невосстановимое состояние взаимной блокировки.

Способ устранения: Убедитесь, что max_tokens_in_buffer превышает максимальную ожидаемую длину входной последовательности. Обновите конфигурационные файлы engine, например prefill.yaml и decode.yaml:

cache_transceiver_config:
backend: DEFAULT
max_tokens_in_buffer: 65536 # Must exceed max ISL

Пример см. в examples/backends/trtllm/engine_configs/gpt-oss-120b/prefill.yaml.

Связанная issue: #4327

Несоответствие драйвера приводит к неочевидным ошибкам PyTorch

Если драйвер NVIDIA на хосте слишком старый для версии CUDA в контейнере, PyTorch показывает сбой так:

RuntimeError: The NVIDIA driver on your system is too old (found version 570). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx

Это симптом, а не причина: причина в том, что загруженному образу контейнера требуется более новый драйвер, чем установлен на хосте.

Исправление:

  • Проверьте минимальную версию драйвера для загруженного тега в матрице контейнеров и драйверов.
  • Либо обновите драйвер на хосте, либо загрузите вариант с более ранней версией CUDA, например vllm-runtime:1.0.2 для драйвера 575+ вместо vllm-runtime:1.0.2-cuda13 для драйвера 580+.

Само сообщение об ошибке несоответствия драйвера улучшается; это отслеживается как инженерная доработка.