【教程】PyTorch多机多卡分布式训练的参数说明

​转载请注明出处:小锋学长生活大爆炸[xfxuezhagn]如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~目录torchrun一、什么是 torchrun二、torchrun 的核心参数讲解三、torchrun 会自动设置的环境变量四

【教程】PyTorch多机多卡分布式训练的参数说明

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~

目录

torchrun

一、什么是 torchrun

二、torchrun 的核心参数讲解

三、torchrun 会自动设置的环境变量

四、torchrun 启动过程举例

机器 A(node_rank=0)上运行

机器 B(node_rank=1)上运行

五、小结表格

PyTorch

一、背景回顾

二、init_process_group

三、脚本中通常的典型写法

通用启动脚本


torchrun 与 torch.multiprocessing.spawn 的对比可以看这篇: 【知识】torchrun 与 torch.multiprocessing.spawn 的对比

torchrun

一、什么是 torchrun

torchrun 是 PyTorch 官方推荐的分布式训练启动器,它的作用是:

  • 启动 多进程分布式训练(支持多 GPU,多节点)
  • 自动设置每个进程的环境变量
  • 协调节点之间建立通信

二、torchrun 的核心参数讲解

代码语言:javascript代码运行次数:0运行复制
torchrun \
  --nnodes=2 \
  --nproc_per_node=2 \
  --node_rank=0 \
  --master_addr=192.168.5.228 \
  --master_port=29400 \
  xxx.py

发布者:admin,转转请注明出处:http://www.yc00.com/web/1747633470a4673472.html

相关推荐

  • 【教程】PyTorch多机多卡分布式训练的参数说明

    ​转载请注明出处:小锋学长生活大爆炸[xfxuezhagn]如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~目录torchrun一、什么是 torchrun二、torchrun 的核心参数讲解三、torchrun 会自动设置的环境变量四

    3天前
    10

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信