Перейти к основному содержимому

For clean Markdown content of this page, append .md to this URL. For the complete documentation index, see https://docs.nvidia.com/dynamo/llms.txt. For full content including API reference and SDK examples, see https://docs.nvidia.com/dynamo/llms-full.txt.

DynoSim

DynoSim — это стек симуляции Dynamo для изучения serving-конфигураций до их проверки на реальных кластерах. Это не отдельный сервис; это продуктовая поверхность, которая объединяет workload-driven simulation runs, sweeps конфигураций, mocker engine, Planner simulation, Router simulation и timing models на базе AIC в единый workflow.

Используйте DynoSim, когда хотите ответить на вопросы вроде:

  • Which aggregated or disaggregated topology should this workload use?
  • How many prefill and decode workers fit within my GPU budget?
  • How sensitive is the deployment to startup time, queue pressure, prefix reuse, or router tuning?
  • Which candidates should I validate with AIPerf on real GPUs?

Компоненты

КомпонентТочка входаРоль
DynoSim runpython -m dynamo.replayЗапускает один workload против одной симулированной конфигурации Dynamo и выводит метрики плюс отчет
DynoSim sweepdynamo.profiler.utils.replay_optimizeВыполняет множество симуляционных прогонов по shape TP, split workers, настройкам router, ограничениям SLA и бюджету GPU
Live simulation with Mockerpython -m dynamo.mockerЗапускает симулированных worker'ов внутри живого пути развертывания Dynamo, включая регистрацию worker'ов и публикацию KV events
Mocker corelib/mockerМоделирует планирование engine, выделение KV, prefix caching, preemption и timing
AICAI Configurator SDKПредоставляет откалиброванные timing data и данные о candidate-shape для поддерживаемых tuple model/backend/GPU
Planner simulation--planner-config on DynoSim runsЗапускает решения Planner в цикле симуляции, чтобы изучать поведение масштабирования и соблюдение SLA

Workflow

flowchart LR
W["Workload trace or synthetic workload"] --> R["Single DynoSim run"]
R --> S["DynoSim sweep"]
S --> C["Candidate configs"]
C --> M["Live Mocker deployment"]
C --> G["Real-GPU validation"]
M --> G

Начните с одного DynoSim run, чтобы проверить форму workload и аргументы engine. Используйте DynoSim sweeps, когда нужно исследовать пространство дизайна. Используйте live-развертывания Mocker, когда требуется прогнать реальный frontend Dynamo, router, регистрацию worker'ов, KV events и пути planner без запуска model inference. Перед production rollout проверьте shortlist на реальных GPU.

Где используется AIC

AIC предоставляет performance models и информацию о candidate-shape. DynoSim использует эти модели как один из источников timing внутри mocker engine и sweep optimizer. Mocker по-прежнему отвечает за scheduler и симуляцию KV-memory: batching, prefix-cache hits, preemption, allocation блоков и жизненный цикл запросов моделируются core Mocker Dynamo, а timing на базе AIC прогнозирует, сколько должны занимать prefill и decode для поддерживаемых сочетаний model/backend/GPU.

Выбор точки входа

ЦельНачните отсюда
Прогнать один trace или synthetic workload через одну конфигурациюЗапуски DynoSim
Перебирать варианты topology и router под ограничениями SLA/GPUПеребор конфигураций DynoSim
Проверить живую настройку frontend/router без GPUЖивая симуляция с Mocker
Изучить решения Planner по масштабированию на traceБенчмаркинг Planner DynoSim
Сгенерировать разворачиваемую Kubernetes-конфигурацию из intent model/SLAРуководство по развертыванию модели

DynoSim сужает пространство поиска; он не заменяет проверку на реальном железе. Используйте его, чтобы быстрее двигаться, находить перспективные варианты и понимать режимы отказа до того, как тратить время кластера.