The GRPO training process hangs for multi-node training. #3934

hakob-petro · 2025-04-18T14:09:38Z

I launched GRPO training script on a multi-node cluster (2 nodes with 8xH100 connected with infiniband), but the
training process always hangs
on 5th step without any warning or error message. I was using "Colocate mode" of GRPO since Async mode doesn't
support tensor or pipeline parallelism techniques for inferencing,
which is crucial for big models like meta-llama/Llama-3.3-70B-Instruct. nvidia-smi shows that all GPUs are utilizing
memory but the actual compute utilization was 0%. Could it be that infiniband is not configured properly?

What I've tried

Because training hangs on 5th step, I was thinking that it might be a problem with the dataset. So, I tried different
datasets and enabled dataset shuffling, but it still was hanging on 5th step
I tried to disable vLLM prefix caching, since it wasn't printing "memory free" messages from all GPUs
I tried different --sleep-level arguments
I was using private IP of node, and ping private_ip was working between nodes
I tried to play with infiniband interfaces

How to reproduce?

git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .
pip install deepspeed
pip install vllm
pip install math_verify
pip install -U trl
run launch command

Launch command 1:

export nnodes=2
export nproc_per_node=8

#TP_SOCKET_IFNAME=enp27s0f0np0 \
#NCCL_SOCKET_IFNAME=^lo,docker0 \
#GLOO_TIMEOUT_SEC=60 \
#NCCL_P2P_DISABLE=0 \
#TORCH_DISTRIBUTED_DEBUG=INFO \
#NCCL_DEBUG=INFO \
#NCCL_DEBUG_FILE=nccl_log.txt \
GLOO_SOCKET_IFNAME=enp27s0f0np0 \
USE_HF=1 \
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun \
  --master_port 29500 \
  --nproc_per_node=$nproc_per_node \
  --nnodes=$nnodes \
  --node_rank=0 \
  --master_addr=127.0.0.1 \
  swift/cli/rlhf.py \
    --rlhf_type grpo \
    --model meta-llama/Llama-3.3-70B-Instruct \
    --train_type lora \
    --dataset /home/ubuntu/merged_data.jsonl \
    --dataset_shuffle true \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --max_length 20000 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --eval_steps 1000 \
    --save_steps 100 \
    --learning_rate 1e-6 \
    --save_total_limit 2 \
    --logging_steps 1 \
    --output_dir /data/output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 2 \
    --max_completion_length 20000 \
    --reward_funcs format repetition \
    --num_generations 16 \
    --system "" \
    --use_vllm true \
    --vllm_gpu_memory_utilization 0.4 \
    --vllm_max_model_len 20000 \
    --deepspeed zero3_offload \
    --temperature 1 \
    --top_p 1.0 \
    --top_k 80 \
    --log_completions true \
    --num_infer_workers 8 \
    --async_generate false \
    --move_model_batches 16 \
    --offload_optimizer true \
    --offload_model true \
    --gc_collect_after_offload true \
    --lora_rank 128 \
    --lora_alpha 256 \
    --rope_scaling dynamic \
    --model_type llama3_2 \
    --tensor_parallel_size 8 \
    --sleep_level 1 \
    --report_to comet_ml wandb \
    --vllm_enable_prefix_caching false

Launch command 2:

export nnodes=2
export nproc_per_node=8

#TP_SOCKET_IFNAME=enp27s0f0np0 \
#NCCL_SOCKET_IFNAME=^lo,docker0 \
#GLOO_TIMEOUT_SEC=60 \
#NCCL_P2P_DISABLE=0 \
#TORCH_DISTRIBUTED_DEBUG=INFO \
#NCCL_DEBUG=INFO \
#NCCL_DEBUG_FILE=nccl_log.txt \
GLOO_SOCKET_IFNAME=enp27s0f0np0 \
USE_HF=1 \
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun \
  --master_port 29500 \
  --nproc_per_node=$nproc_per_node \
  --nnodes=$nnodes \
  --node_rank=1  \
  --master_addr=10.15.22.97 \
  swift/cli/rlhf.py \
    --rlhf_type grpo \
    --model meta-llama/Llama-3.3-70B-Instruct \
    --train_type lora \
    --dataset /home/ubuntu/merged_data.jsonl \
    --dataset_shuffle true \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --max_length 20000 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --eval_steps 1000 \
    --save_steps 100 \
    --learning_rate 1e-6 \
    --save_total_limit 2 \
    --logging_steps 1 \
    --output_dir /data/output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 2 \
    --max_completion_length 20000 \
    --reward_funcs format repetition \
    --num_generations 16 \
    --system "" \
    --use_vllm true \
    --vllm_gpu_memory_utilization 0.4 \
    --vllm_max_model_len 20000 \
    --deepspeed zero3_offload \
    --temperature 1 \
    --top_p 1.0 \
    --top_k 80 \
    --log_completions true \
    --num_infer_workers 8 \
    --async_generate false \
    --move_model_batches 16 \
    --offload_optimizer true \
    --offload_model true \
    --gc_collect_after_offload true \
    --lora_rank 128 \
    --lora_alpha 256 \
    --rope_scaling dynamic \
    --model_type llama3_2 \
    --tensor_parallel_size 8 \
    --sleep_level 1 \
    --report_to comet_ml wandb \
    --vllm_enable_prefix_caching false

Debugging info

pip freeze

absl-py==2.2.2
accelerate==1.6.0
addict==2.4.0
aiofiles==24.1.0
aiohappyeyeballs==2.6.1
aiohttp==3.11.16
aiosignal==1.3.2
airportsdata==20250224
aliyun-python-sdk-core==2.16.0
aliyun-python-sdk-kms==2.16.5
annotated-types==0.7.0
anthropic==0.49.0
antlr4-python3-runtime==4.13.2
anyio==4.9.0
astor==0.8.1
async-timeout==5.0.1
attrdict==2.0.1
attrs==25.3.0
binpacking==1.5.2
blake3==1.0.4
boto3==1.37.35
botocore==1.37.35
cachetools==5.5.2
certifi==2025.1.31
cffi==1.17.1
charset-normalizer==3.4.1
click==8.1.8
cloudpickle==3.1.1
comet_ml==3.49.7
compressed-tensors==0.9.2
configobj==5.0.9
contourpy==1.3.2
cpm-kernels==1.0.11
crcmod==1.7
cryptography==44.0.2
cupy-cuda12x==13.4.1
cycler==0.12.1
dacite==1.9.2
datasets==3.2.0
deepspeed==0.16.6
depyf==0.18.0
dill==0.3.8
diskcache==5.6.3
distro==1.9.0
dnspython==2.7.0
docker-pycreds==0.4.0
dulwich==0.22.8
einops==0.8.1
email_validator==2.2.0
everett==3.1.0
exceptiongroup==1.2.2
fastapi==0.115.12
fastapi-cli==0.0.7
fastrlock==0.8.3
ffmpy==0.5.0
filelock==3.18.0
fonttools==4.57.0
frozenlist==1.5.0
fsspec==2024.9.0
future==1.0.0
gguf==0.10.0
gitdb==4.0.12
GitPython==3.1.44
gradio==5.25.2
gradio_client==1.8.0
groovy==0.1.2
grpcio==1.71.0
h11==0.14.0
hjson==3.1.0
httpcore==1.0.8
httptools==0.6.4
httpx==0.28.1
huggingface-hub==0.30.2
idna==3.10
importlib_metadata==8.6.1
iniconfig==2.1.0
inquirerpy==0.3.4
interegular==0.3.3
jieba==0.42.1
Jinja2==3.1.6
jiter==0.9.0
jmespath==0.10.0
joblib==1.4.2
jsonschema==4.23.0
jsonschema-specifications==2024.10.1
kiwisolver==1.4.8
lark==1.2.2
latex2sympy2_extended==1.10.1
llguidance==0.7.16
llvmlite==0.44.0
lm-format-enforcer==0.10.11
Markdown==3.8
markdown-it-py==3.0.0
MarkupSafe==3.0.2
math-verify==0.7.0
matplotlib==3.10.1
mdurl==0.1.2
mistral_common==1.5.4
modelscope==1.25.0
mpmath==1.3.0
-e git+https://github.com/modelscope/ms-swift.git@a52cd65a8b9eb7e61dec82992b71ff61ba0a9e60#egg=ms_swift
msgpack==1.1.0
msgspec==0.19.0
multidict==6.4.3
multiprocess==0.70.16
nanobind==2.6.1
nest-asyncio==1.6.0
networkx==3.4.2
ninja==1.11.1.4
nltk==3.9.1
numba==0.61.0
numpy==1.26.4
nvidia-cublas-cu12==12.4.5.8
nvidia-cuda-cupti-cu12==12.4.127
nvidia-cuda-nvrtc-cu12==12.4.127
nvidia-cuda-runtime-cu12==12.4.127
nvidia-cudnn-cu12==9.1.0.70
nvidia-cufft-cu12==11.2.1.3
nvidia-curand-cu12==10.3.5.147
nvidia-cusolver-cu12==11.6.1.9
nvidia-cusparse-cu12==12.3.1.170
nvidia-cusparselt-cu12==0.6.2
nvidia-ml-py==12.570.86
nvidia-nccl-cu12==2.21.5
nvidia-nvjitlink-cu12==12.4.127
nvidia-nvtx-cu12==12.4.127
openai==1.75.0
opencv-python-headless==4.11.0.86
orjson==3.10.16
oss2==2.19.1
outlines==0.1.11
outlines_core==0.1.26
packaging==24.2
pandas==2.2.3
partial-json-parser==0.2.1.1.post5
peft==0.15.2
pfzy==0.3.4
pillow==11.2.1
platformdirs==4.3.7
pluggy==1.5.0
prometheus-fastapi-instrumentator==7.1.0
prometheus_client==0.21.1
prompt_toolkit==3.0.51
propcache==0.3.1
protobuf==5.29.4
psutil==7.0.0
py-cpuinfo==9.0.0
pyarrow==19.0.1
pybind11==2.13.6
pycountry==24.6.1
pycparser==2.22
pycryptodome==3.22.0
pydantic==2.11.3
pydantic_core==2.33.1
pydub==0.25.1
Pygments==2.19.1
pyparsing==3.2.3
pytest==8.3.5
python-box==6.1.0
python-dateutil==2.9.0.post0
python-dotenv==1.1.0
python-json-logger==3.3.0
python-multipart==0.0.20
pytz==2025.2
PyYAML==6.0.2
pyzmq==26.4.0
ray==2.43.0
referencing==0.36.2
regex==2024.11.6
requests==2.32.3
requests-toolbelt==1.0.0
rich==14.0.0
rich-toolkit==0.14.1
rouge==1.0.1
rpds-py==0.24.0
ruff==0.11.5
s3transfer==0.11.4
safehttpx==0.1.6
safetensors==0.5.3
scipy==1.15.2
semantic-version==2.10.0
sentencepiece==0.2.0
sentry-sdk==2.26.1
setproctitle==1.3.5
shellingham==1.5.4
simplejson==3.20.1
six==1.17.0
smmap==5.0.2
sniffio==1.3.1
sortedcontainers==2.4.0
starlette==0.46.2
sympy==1.13.1
tensorboard==2.19.0
tensorboard-data-server==0.7.2
tiktoken==0.9.0
tokenizers==0.21.1
tomli==2.2.1
tomlkit==0.13.2
torch==2.6.0
torchaudio==2.6.0
torchvision==0.21.0
tqdm==4.67.1
transformers==4.51.3
transformers-stream-generator==0.0.5
triton==3.2.0
trl==0.16.1
typer==0.15.2
typing-inspection==0.4.0
typing_extensions==4.13.2
tzdata==2025.2
urllib3==2.4.0
uvicorn==0.34.1
uvloop==0.21.0
vllm==0.8.3
wandb==0.19.9
watchfiles==1.0.5
wcwidth==0.2.13
websockets==15.0.1
Werkzeug==3.1.3
wrapt==1.17.2
wurlitzer==3.1.1
xformers==0.0.29.post2
xgrammar==0.1.17
xxhash==3.5.0
yarl==1.20.0
zipp==3.21.0
zstandard==0.23.0

printenv

    SHELL=/bin/bash
    PWD=/home/ubuntu/ms-swift
    LOGNAME=ubuntu
    XDG_SESSION_TYPE=tty
    MOTD_SHOWN=pam
    HOME=/home/ubuntu
    LANG=C.UTF-8
    LS_COLORS=rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*.pcx=01;35:*.mov=01;35:*.mpg=01;35:*.mpeg=01;35:*.m2v=01;35:*.mkv=01;35:*.webm=01;35:*.webp=01;35:*.ogm=01;35:*.mp4=01;35:*.m4v=01;35:*.mp4v=01;35:*.vob=01;35:*.qt=01;35:*.nuv=01;35:*.wmv=01;35:*.asf=01;35:*.rm=01;35:*.rmvb=01;35:*.flc=01;35:*.avi=01;35:*.fli=01;35:*.flv=01;35:*.gl=01;35:*.dl=01;35:*.xcf=01;35:*.xwd=01;35:*.yuv=01;35:*.cgm=01;35:*.emf=01;35:*.ogv=01;35:*.ogx=01;35:*.aac=00;36:*.au=00;36:*.flac=00;36:*.m4a=00;36:*.mid=00;36:*.midi=00;36:*.mka=00;36:*.mp3=00;36:*.mpc=00;36:*.ogg=00;36:*.ra=00;36:*.wav=00;36:*.oga=00;36:*.opus=00;36:*.spx=00;36:*.xspf=00;36:
    VIRTUAL_ENV=/home/ubuntu/envs/grpo
    SSH_CONNECTION=78.109.65.154 43175 10.15.24.25 22
    LESSCLOSE=/usr/bin/lesspipe %s %s
    XDG_SESSION_CLASS=user
    TERM=xterm-256color
    LESSOPEN=| /usr/bin/lesspipe %s
    USER=ubuntu
    SHLVL=1
    XDG_SESSION_ID=80
    VIRTUAL_ENV_PROMPT=(grpo)
    XDG_RUNTIME_DIR=/run/user/1000
    PS1=(grpo) \[\e]0;\u@\h: \w\a\]${debian_chroot:+($debian_chroot)}\[\033[01;32m\]\u@\h\[\033[00m\]:\[\033[01;34m\]\w\[\033[00m\]\$
    SSH_CLIENT=78.109.65.154 43175 22
    XDG_DATA_DIRS=/usr/local/share:/usr/share:/var/lib/snapd/desktop
    PATH=/home/ubuntu/envs/grpo/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin
    DBUS_SESSION_BUS_ADDRESS=unix:path=/run/user/1000/bus
    SSH_TTY=/dev/pts/0
    OLDPWD=/home/ubuntu
    _=/usr/bin/printenv

ifconfig on node 1

eno8303: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet6 fe80::c6cb:e1ff:feab:563e  prefixlen 64  scopeid 0x20<link>
        ether c4:cb:e1:ab:56:3e  txqueuelen 1000  (Ethernet)
        RX packets 201698  bytes 20579254 (20.5 MB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 108669  bytes 11251969 (11.2 MB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 16

eno8403: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether c4:cb:e1:ab:56:3f  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 17

enp157s0f0np0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 94:6d:ae:e2:23:5a  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

enp157s0f1np1: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 94:6d:ae:e2:23:5b  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

enp27s0f0np0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 10.15.24.25  netmask 255.255.255.248  broadcast 10.15.24.31
        inet6 fe80::966d:aeff:fee2:1972  prefixlen 64  scopeid 0x20<link>
        ether 94:6d:ae:e2:19:72  txqueuelen 1000  (Ethernet)
        RX packets 202969938  bytes 302280515196 (302.2 GB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 7097873  bytes 531522952 (531.5 MB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

enp27s0f1np1: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 94:6d:ae:e2:19:73  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10<host>
        loop  txqueuelen 1000  (Local Loopback)
        RX packets 9248588  bytes 623075444 (623.0 MB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 9248588  bytes 623075444 (623.0 MB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

ifconfig on node 2

eno8303: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet6 fe80::c6cb:e1ff:feab:5c0a  prefixlen 64  scopeid 0x20<link>
        ether c4:cb:e1:ab:5c:0a  txqueuelen 1000  (Ethernet)
        RX packets 198601  bytes 20278051 (20.2 MB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 105471  bytes 10934170 (10.9 MB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 16

eno8403: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether c4:cb:e1:ab:5c:0b  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0
        device interrupt 17

enp157s0f0np0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 94:6d:ae:e2:1c:f2  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

enp157s0f1np1: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 94:6d:ae:e2:1c:f3  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

enp27s0f0np0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 10.15.24.33  netmask 255.255.255.248  broadcast 10.15.24.39
        inet6 fe80::966d:aeff:fee2:1cc2  prefixlen 64  scopeid 0x20<link>
        ether 94:6d:ae:e2:1c:c2  txqueuelen 1000  (Ethernet)
        RX packets 202617052  bytes 302238893795 (302.2 GB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 7410993  bytes 529405292 (529.4 MB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

enp27s0f1np1: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
        ether 94:6d:ae:e2:1c:c3  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

NCCL logs

g183:161261:161261 [4] NCCL INFO cudaDriverVersion 12060
g183:161261:161261 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to ^lo,docker0
g183:161261:161261 [4] NCCL INFO Bootstrap : Using enp27s0f0np0:10.15.24.57<0>
g183:161261:161261 [4] NCCL INFO NET/Plugin: No plugin found (libnccl-net.so)
g183:161261:161261 [4] NCCL INFO NET/Plugin: Plugin load returned 2 : libnccl-net.so: cannot open shared object file: No such file or directory : when loading libnccl-net.so
g183:161261:161261 [4] NCCL INFO NET/Plugin: Using internal network plugin.
g183:161261:161699 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to ^lo,docker0
g183:161261:161699 [4] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB [1]mlx5_1:1/RoCE [2]mlx5_3:1/IB [3]mlx5_4:1/IB [4]mlx5_5:1/IB [5]mlx5_6:1/IB [6]mlx5_9:1/IB [7]mlx5_10:1/IB [8]mlx5_11:1/IB [RO]; OOB enp27s0f0np0:10.15.24.57<0>
g183:161261:161699 [4] NCCL INFO Using non-device net plugin version 0
g183:161261:161699 [4] NCCL INFO Using network IB
g183:161261:161699 [4] NCCL INFO DMA-BUF is available on GPU device 4
g183:161259:161697 [2] NCCL INFO ncclCommInitRank comm 0x563ecc6c6390 rank 2 nranks 16 cudaDev 2 nvmlDev 2 busId 4c000 commId 0x9f7528e6278aebd2 - Init START
g183:161259:161697 [2] NCCL INFO MNNVL busId 0x4c000 fabric UUID 0.0 cliqueId 0x0 state 3 healthMask 0x0
g183:161262:161694 [5] NCCL INFO Setting affinity for GPU 5 to 07,ffc00000,00000000,00000000,07ffc000,00000000,00000000
g183:161262:161694 [5] NCCL INFO NVLS multicast support is ag183:161260:161700 [3] NCCL INFO comm 0x55d7575a0980 rank 3 nRanks 16 nNodes 2 localRanks 8 localRank 3 MNNVL 0
g183:161260:161700 [3] NCCL INFO NVLS Head  0:  0  8
g183:161260:161700 [3] NCCL INFO NVLS Head  1:  1  9
g183:161260:161700 [3] NCCL INFO NVLS Head  2:  2 10
g183:161260:161700 [3] NCCL INFO NVLS Head  3:  3 11
g183:161260:161700 [3] NCCL INFO NVLS Head  4:  4 12
g183:161260:161700 [3] NCCL INFO NVLS Head  5:  5 13
g183:161260:161700 [3] NCCL INFO NVLS Head  6:  6 14
g183:161260:161700 [3] NCCL INFO NVLS Head  7:  7 15
g183:161260:161700 [3] NCCL INFO Trees [0] 4/-1/-1->3->2 [1] 4/-1/-1->3->2 [2] 4/-1/-1->3->2 [3] 4/11/-1->3->-1 [4] -1/-1/-1->3->2 [5] 4/-1/-1->3->2 [6] 4/-1/-1->3->2 [7] 4/-1/-1->3->2 [8] 4/-1/-1->3->2 [9] 4/-1/-1->3->2 [10] 4/-1/-1->3->2 [11] 4/-1/-1->3->11 [12] -1/-1/-1->3->2 [13] 4/-1/-1->3->2 [14] 4/-1/-1->3->2 [15] 4/-1/-1->3->2
g183:161260:161700 [3] NCCL INFO P2P Chunksize set to 131072
g183:1g183:16g183:161264:161695 [7] NCCL INFO Channel 07/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:161695 [7] NCCL INFO Channel 15/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:161695 [7] NCCL INFO Channel 06/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:161695 [7] NCCL INFO Channel 14/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:161695 [7] NCCL INFO Channel 01/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 03/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 05/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 07/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 09/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 11/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 13/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 15/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 00/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 02/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 04/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 08/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 10/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 12/0 : 7[7] -> 6[g183:161258:161696 [1] NCCL INFO Connected all rings
g183:161258:16169g183:161264:161695 [7] NCCL INFO Channel 07/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:161695 [7] NCCL INFO Channel 15/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:161695 [7] NCCL INFO Channel 02/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 04/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 06/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 10/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 12/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:161695 [7] NCCL INFO Channel 14/0 : 7[7] -> g183:161258:161696 [1] NCCL INFO Channel 00/0 : 1[1] -> 0[0] via P2P/CUMEM
g183:161258:161696 [1] NCCL INFO Channel 03/0 : 1[1] -> 0[0] via P2P/CUMEM
g183:161258:161696 [1] NCCL INFO Channel 05/0 : 1[1] -> 0[0] via P2P/CUMEM
g183:161258:g183:161259:161697 [2] NCCL INFO Channel 03/0 : 2[2] -> 1[1] via P2P/CUMEM
g183:161259:161697 [2] NCCL INFO Channel 05/0 : 2[2] -> 1[1] via P2P/CUMEM
g183:161259:161697 [2] NCCL INFO Channel 07/0 : 2[2] -> 1[1] vig183:161258:g183:161259:161697 [2] NCCL INFO Channel 09/0 : 2[2] -> 1[1] via P2P/CUMEM
g183:161259:161697 [2] NCCL INFO Channel 11/0 : 2[2] -> 1[1] vig183:161258:161696 [1] NCCL INFO Connected all trees
g183:161258:161696 [1] Ng183:161262:161694 [5] NCCL INFO NVLS comm 0x55f6e844dbe0 headRank 5 nHeads 8 buffSize 1048576 memSize 2097152 nvlsPerRankSize 100663296 g183:1g183:161260:161700 [3] NCCL INFO Channel 00/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 01/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 02/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 04/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 05/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 06/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 07/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 08/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 09/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 10/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 12/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 13/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 14/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 15/0 : 11[3] -> 3[3] [receive] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 00/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 01/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 04/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 05/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 06/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 07/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 08/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 09/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 12/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 13/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 14/0 : 3[3] -> 11[3] [send] via NET/IB/4/GDRDMA
g183:161260:161700 [3] NCCL INFO Channel 15/0 : 3[3] -> 1g183:161258:161696 [1] NCCL INFOg183:161260:161700 [3] NCCL INFO Connected NVLS tree
g183:161260:161700 [3] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512
g183:161260:161700 [3] NCCL INFO 16 coll channels, 16 collnet channels, 16 nvls channels, 16 p2p chg183:161258:161696 [1] NCCL INFOg183:161260:161700 [3] NCCL INFO TUNER/Plugin: Plugin load returned 2 : libnccl-net.so: cannot open shared object file: No such file or directory : when loag183:161259:161697 [2]g183:161260:161700 [3] NCCL INFO TUNER/Plugin: Using internal tuner plugin.
g183:161260:161700 [3] NCCL INFO ncclCommInitRank comm 0x55d7575a0980 rank 3 nranks 16 cudaDev 3 nvmlDev 3 busId 5d000 commId 0x9g183:161258:161258 [1] NCCL INFOg183:161260:161260 [3] NCCL INFO Using non-device net plugin version 0
g183:161260:161260 [3] NCCL INFO Using network IB
g183:161260:161260 [3] NCCL INFO DMA-Bg183:161258:161258 [1] NCCL INFOg183:161260:161260 [3] NCCL INFO ncclCommInitRank comm 0x55d788f19e30 rank 3 nranks 8 cudaDev 3 nvmlDev 3 busId 5d000 commId g183:161258:161258 [1] NCCL INFOg183:161260:161260 [3] NCCL INFO MNNVL busId 0x5d000 fabric UUID 0.0 cliqg183:161258:161258 [1] NCCL INFO Setting affig183:161264:161264 [7] NCCL INFO Setting affinity for GPU 7 to 3ffe00,00000000,00000000,00003ffe,00000000,00000000
g183:161264:161264 [7]g183:161258:161258 [1] NCCL INg183:161260:161260 [3] NCCL INFO comm 0x55d788f19e30 rank 3 nRanks 8 nNodes 1 locg183:161258:161258 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0 [2] 2/-1/-1->1->0 [3] 2/-1/-1->1->0 [4] 2/-1/-1->1->0 [5] 2/-1/-1->1->0 [6] 2/-1/-1->1->0 [7] 2/-1/-1->1->0 [8] 2/-1/-1->1->0 [9] 2/-1/-1->1->0 [10] 2/-1/-1->1->0 [11] 2/-1/-1->1->0 [12] 2/-1/-1->1->0 [13] 2/-1/-1->1->0 [14] 2/-1/-1->1->0 [15] 2/-1/-1->1->0 [16] 2/-1/-1->1->0 [17] 2/-1/-1->1->0 [18] 2/-1/-1->1->0 [19] 2/-1/-1->1->0 [20] 2/-1/-1->1->0 [21] 2/-1/-1->1->0 [22] 2/-1/-1->1->0 [23] 2/-1/-1->1->0
g183:161258:161258 [1] NCCL INFO P2P Chunksize set to 524288
g183:161258:161258 [1] NCCL INFO Channel 00/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 01/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 02/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 03/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 04/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 05/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 06/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 07/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 08/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 09/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 10/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 11/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 12/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 13/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 14/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 15/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 16/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 17/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 18/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 19/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 20/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 21/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 22/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Channel 23/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:161258 [1] NCCL INFO Connected all rings
g183:161258:161258 [1] NCCL INFO Channel 00/0 : 1[1] -> 0[0] via Pg183:161262:161262 [5] NCCL INFO Channel 00/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:161262 [5] NCCL INFO Channel 01/0 : 5[5] -> 4[4] via P2P/CUMEM
g183g183:161263:161263 [6] NCCL INFO Channel 00/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 01/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 02/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 03/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 04/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 05/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 06/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 07/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 08/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 09/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 10/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 11/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 12/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 13/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 14/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 15/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 16/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 17/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 18/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 19/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:161263:161263 [6] NCCL INFO Channel 20/0 : 6[6] -> 5[5] via P2P/CUMEM
g183:g183:161258:161258 [1] NCCL INg183:161260:161260 [3] NCCL INFO Cong183:161262:16g183:161264:161264 [7] NCCL INFO Connecg183:161262:16g183:161264:161264 [7] NCCL INFO NVLS comm 0x565246a6b100 headRank 7 nHeads 8 buffg183:161258:161258 [1] NCCL INg183:161260:161260 [3] NCCL INFO thrg183:161262:16g183:161264:161264 [7] NCCL INFO threadThresholds 8/8/64 | 64/8/64 | 512 | 512
g183:161264:161264 [7] NCCL INFO 24 coll channels, 2g183:161258:161258 [1] NCCL INg183:161260:161260 [3] NCCL INFO ncclCommInitRank comm 0x55d788f19e30 rank 3 nranks 8 cudaDev 3 nvmlDev 3 busId 5d000 commId 0xa9fg183:161258:163308 [1] NCCL INg183:161260:163309 [3] NCCL INFO Using non-device net plugin version 0
g183:161260:163309 [g183:161258:163308 [1] NCCL INg183:161260:163309 [3] NCCL INFO DMA-BUFg183:161258:163308 [1] NCCL INg183:161260:163309 [3] NCCL INFO ncclCommInitRank comm 0x55d84d0db840 rank 3 nranks 8 cudaDev 3 nvmlDev 3 busId 5d000 commId 0xg183:161258:163308 [1] NCCL INFO MNNVL busId 0x3b000 fabric UUID 0.0 cliqueId 0x0 state 3 healthMask 0x0
g183:161258:163308 [1] NCCL INFO Setting affinity for GPU 1 to 7ffc,00000000,00000000,0000007f,fc000000
g183:161258:163308 [1] NCCL INFO NVLS multicast support is available on dev 1
g183:161258:163308 [1] NCCL g183:161260:163309 [3] NCCL INFO comm 0x55d84d0db840 rank 3 nRanks 8 nNodes 1 localg183:161258:163308 [1] NCCL g183:161260:163309 [3] NCCL INFO Trees [0] 4/-1/-1->3->2 [1] 4/-1/-1->3->2 [2] 4/-1/-1->3->2 [3] 4/-1/-1->3->2 [4] 4/-1/-1->3->2 [5] 4/-1/-1->3->2 [6] 4/-1/-1->3->2 [7] 4/-1/-1->3->2 [8] 4/-1/-1->3->2 [9] 4/-1/-1->3->2 [10] 4/-1/-1->3->2 [11] 4/-1/-1->3->2 [12] 4/-1/-1->3->2 [13] 4/-1/-1->3->2 [14] 4/-1/-1->3->2 [15] 4/-1/-1->3->2 [16] 4/-1/-1->3->2 [17] 4/-1/-1->3->2 [18] 4/-1/-1->3->2 [19] 4/-1/-1->3->2 [20] 4/-1/-1->3->2 [21] 4/-1/-1->3->2 [22] 4/-1/-1->3->2 [23] 4/-1/-1->3->2
g183:161260:163309 [3] NCCL INFO g183:161258:163308 [1] NCCL INFO Channel 00/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:163308 [1] NCCL INFO Channelg183:161264:163305 [7] NCCL INFO Channel 00/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 01/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 02/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 03/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 04/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 05/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 06/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 07/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 08/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 09/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 10/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 11/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 12/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 13/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 14/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 15/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 16/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 17/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 18/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 19/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 20/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Channel 21/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:163305 [7] NCCL INFO Chg183:161258:163308 [1] NCCL INFO Connected all rings
g183:161258:163308 [1] NCCL INFO Channel 00/0 : 1[1] -> 0[0] vg183:161264:163305 [g183:161262:163304 [5] NCCL INFO Channel 00/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 01/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 02/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 03/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 04/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 05/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 06/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 07/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 08/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 09/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 10/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 11/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 12/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 13/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 14/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 15/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 16/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 17/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 18/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 19/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 20/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 21/0 : 5[5] -> 4[4] via P2P/CUMEM
g183:161262:163304 [5] NCCL INFO Channel 22/0 : 5[5] -> 4[4] via P2Pg183:161258:163308 [1] NCCL g183:161260:163309 [3] NCCL INFO Connected all trees
g183:161260:163309 [3] NCCL INFO NVLS comm 0x55d84d0dbg183:161262:163304 [5] NCCL INFO g183:161264:163305 [7] NCCL INFO NVLS comm 0x56g183:161258:163308 [1] NCCL g183:161260:163309 [3] NCCL INFO threadThresholds 8/8/g183:161262:163304 [5] NCCL INFO g183:161264:163305 [7] NCCL INFO threadThresholds 8/8/64 | 64/8/64 | 512 | 512
g183:161264:16330g183:161258:163308 [1] NCCL g183:161260:163309 [3] NCCL INFO ncclCommInitRank commg183:161262:163304 [5] NCCL INFO g183:161264:163305 [7] NCCL INFO ncclCommInitg183:161258:166018 [1] NCCL INFO Using non-device net plugin version 0
g183:161258:166018 [1] NCCL INFO Using network IB
g183:161258:166018 [1] NCCL INFO DMA-BUF is available on GPU device 1
g183:161258:166018 [1] NCCL INFO bootstrapSplit: comm 0x7fe5126331e0 parent 0x55cd375a1020 rank 1 nranks 16 color 1197013201 key 1 prev 0 next 2 - DONE
g183:161258:166018 [1] NCCL INFO ncclCommSplit comm 0x7fe5126331e0 rank 1 nranks 16 cudaDev 1 nvmlDev 1 busId 3b000 parent 0x55cd375a1020 color 1197013201 key 1 commId 0xe0c9546863386fd6 - Init START
g183:161258:166018 [1] NCCL INFO MNNVL busId 0x3b000 fabric UUID 0.0 cliqueId 0x0 state 3 healthMask 0x0
g183:161258:166018 [1] NCCL INFO Setting affinity for GPU 1 to 7ffc,00000000,00000000,0000007f,fc000000
g183:161258:166018 [1] NCCL INFO NVLS multicast support is available on dev 1
g183:161258:166018 [1] NCCg183:161260:166021 [3] NCCL INFO comm 0x7f5d9a6263c0 rank 3 nRanks 16 nNodes 2 localRanks 8 localRank 3 MNNVL 0
g183:161260:166021 [3] NCCL INFO NVLS Head  0:  0  8
g183:161260:166021 [3] NCCL INFO NVLS Head  1:  1  9
g183:161260:166021 [3] NCCL INFO NVLS Head  2:  2 10
g183:161260:166021 [3] NCCL INFO NVLS Head  3:  3 11
g183:161260:166021 [3] NCCL INFO NVLS Head  4:  4 12
g183:161260:166021 [3] NCCL INFO NVLS Head  5:  5 13
g183:161260:166021 [3] NCCL INFO NVLS Head  6:  6 14
g183:161260:166021 [3] NCCL INFO NVLS Head  7:  7 15
g183:161260:166021 [3] NCCL INFO Trees [0] 4/-1/-1->3->2 [1] 4/-1/-1->3->2 [2] 4/-1/-1->3->2 [3] 4/11/-1->3->-1 [4] -1/-1/-1->3->2 [5] 4/-1/-1->3->2 [6] 4/-1/-1->3->2 [7] 4/-1/-1->3->2 [8] 4/-1/-1->3->2 [9] 4/-1/-1->3->2 [10] 4/-1/-1->3->2 [11] 4/-1/-1->3->11 [12] -1/-1/-1->3->2 [13] 4/-1/-1->3->2 [14] 4/-1/-1->3->2 [15] 4/-1/-1->3->2
g183:161260:166021 [3] NCCL INFO g183:161258:166018 [1] NCCL g183:161260:166021 [3] NCCL INFO Channel 01/0 : 3[3] -> 4[4] via P2P/CUMEM
g183:161260:166021 [3] NCg183:161264:166015 [7] NCCL INFO Channel 07/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 15/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 06/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 14/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 01/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 03/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 05/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 07/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 09/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 11/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015g183:161258:166018 [1] NCCL INFO Channel 02/0 : 1[1] -> 0[0] via P2P/CUMEM
g183:161258:166018 [1] NCCL INFO Channel 04/0 : 1[1] -> 0g183:161264:166015g183:161258:166018 [1] NCCL INFO Channel 06/0 : 1[1] -> 0[0] via P2P/CUMEM
g183:161258:166018 [1] NCCL INFO Channel 10/0 : 1[1] -> 0[0] via P2P/CUMEM
g183:161258:166018 [1] NCCL INFO Channel 12/0 : 1[1] -> 0g183:161264:166015g183:161258:166018 [1] NCCL INFO Channel 14/0 : 1[1] -> 0g183:161264:166015g183:161258:166018 [1] NCCL INFO Connected all rings
g183:161258:166018 [1] NCCL INFO Channel 00/0 : 1[1] -> 2[2] via P2P/CUMEM
g183:161258:166018 [1] NCCL INFO Channel 04/0 : 1[1] -> 2g183:161264:166015 [7] NCCL INFO Channel 07/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 15/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 02/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 04/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 06/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 10/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 12/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 14/0 : 7[7] -> 0[0] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 01/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 03/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 05/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 06/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 09/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:166015 [7] NCCL INFO Channel 11/0 : 7[7] -> 6[6] via P2P/CUMEM
g183:161264:1660g183:161258:166018 [1] NCCL INFO Connected all trees
g183:161258:166018 [1] NCCL INFO Ng183:161260:166021 [3] NCCL INFO NVLS comm 0x7f5d9a6263c0 headRank 3 nHeads 8 buffSize 1048576 memSize 2097152 nvlsPerRankSize g183:161258:166018 [1] NCCL INFO Cg183:161260:166021 [3] NCCL INFO Channel 00/0 : 11[3] -> g183:161258:166g183:161262:166017 [5] NCCL g183:161264:166015 [7] NCCL INFO Channel 00/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 01/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 02/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 03/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 04/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 05/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 06/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 08/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 09/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 10/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 11/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 12/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 13/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 14/0 : 15[7] -> 7[7] [receive] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 00/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 01/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 02/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 03/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 04/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 05/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 08/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 09/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 10/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015 [7] NCCL INFO Channel 11/0 : 7[7] -> 15[7] [send] via NET/IB/8/GDRDMA
g183:161264:166015g183:161258:166018 [1] NCCL INFO Connected NVLS tree
g183:161258:166018 [1] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512g183:161262:166017 [5] NCCL g183:161264:166015 [7] NCCL INFO Connected NVLS tree
g183:161264:166015 [7] NCCL INFO threadThresholds 8g183:161258:166018 [1] NCCL INFO ncclCommSplit comm 0x7fe5126331e0 rank 1 nranks 16 cudaDev 1 nvmlDev 1 busId 3b000 parent 0x55cd375g183:161262:166017 [5] NCCL INFO ncclCommSplit comm 0x7f831a628b80 rank 5 nranks 16 cudaDev 5 nvmlDev 5 busId bb000 parent 0x55f6e8g183:161260:166045 [3] NCCL INFO [Service thread] Connection closed by lg183:161262g183:161260:162336 [3] NCCL INFO [Service thread] Connection closed by lg183:161262g183:161260:166045 [3] NCCL INFO [Service thread] Connection closed by lg183:161262:166047 [5] NCCL g183:161264:166036 [7] NCCL INFO [Service thread] Conneg183:161262:162335 [5] NCCL g183:161264:162331 [7] NCCL INFO [Service thread] Conneg183:161262:162335 [5] NCCL INFO [Service thread] Connection closed by localRank 2
ction closed by localRank 2
g183:161264:162331 [7] NCCL INFO [Service thread] Connection closed by localRank 2
161261:162323 [4] NCCL INFO [Seg183:161263:162329 [6] NCCL INFO [Service threag183:161261:166035 [4] NCCL INFO [Seg183:161263:166040 [6] NCCL INFO [Service thread] Connection closed by localRank 2
g183:161263:162329 [6] NCCL INFO [Service thread] Connection closed by localRank 2
7] via P2P/CUMEM
g183:161257:166020 [0] NCCL INFO Channel 11/0 : 0[0] -> 7[7] via P2P/CUMEM
g183:161257:166020 [0] NCCL INFO Channel 13/0 : 0[0] -> 7[7] via P2P/CUMEM
g183:161257:166020 [0] NCCL INFO Channel 15/0 : 0[0] -> 7[7] via P2P/CUMEM
g183:161257:166020 [0] NCCL INFO Channel 00/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 08/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Connected all trees
g183:161257:166020 [0] NCCL INFO NVLS comm 0x7f670663e280 headRank 0 nHeads 8 buffSize 1048576 memSize 2097152 nvlsPerRankSize 100663296 nvlsTotalSize 805306368
g183:161257:166020 [0] NCCL INFO Channel 01/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 02/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 03/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 04/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 05/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 06/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 07/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 09/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 10/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 11/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 12/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 13/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 14/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 15/0 : 8[0] -> 0[0] [receive] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 02/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 03/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 04/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 05/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 06/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 07/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 10/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 11/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 12/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 13/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 14/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Channel 15/0 : 0[0] -> 8[0] [send] via NET/IB/0/GDRDMA
g183:161257:166020 [0] NCCL INFO Connected NVLS tree
g183:161257:166020 [0] NCCL INFO threadThresholds 8/8/64 | 128/8/64 | 512 | 512
g183:161257:166020 [0] NCCL INFO 16 coll channels, 16 collnet channels, 16 nvls channels, 16 p2p channels, 2 p2p channels per peer
g183:161257:166020 [0] NCCL INFO ncclCommSplit comm 0x7f670663e280 rank 0 nranks 16 cudaDev 0 nvmlDev 0 busId 19000 parent 0x5629e2dcf680 color 1197013201 key 0 commId 0xe0c9546863386fd6 - Init COMPLETE

The text was updated successfully, but these errors were encountered:

tejeshbhalla · 2025-04-20T07:55:26Z

hangs for me too @hjh0119 can u help

hjh0119 · 2025-04-23T03:26:52Z

It might be due to OOM.

BTW, the external vLLM server is now supported, which means you can use TP in async mode.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

The GRPO training process hangs for multi-node training. #3934

The GRPO training process hangs for multi-node training. #3934

hakob-petro commented Apr 18, 2025

tejeshbhalla commented Apr 20, 2025

hjh0119 commented Apr 23, 2025

The GRPO training process hangs for multi-node training. #3934

The GRPO training process hangs for multi-node training. #3934

Comments

hakob-petro commented Apr 18, 2025

What I've tried

How to reproduce?

Launch command 1:

Launch command 2:

Debugging info

tejeshbhalla commented Apr 20, 2025

hjh0119 commented Apr 23, 2025