52_图解分布式训练_八_ZeRO_学习
图解分布式训练(八)—— ZeRO 学习
来自: AiGC面试宝典
扫码 查看更
一、什么是 3D 并行?
3D 并行可以让大型模型以非常有效的方式进行训练
二、3D 并行 策略有哪些?
• DataParallel (DP) • TensorParallel (TP) • PipelineParallel (PP)
2.1 DataParallel (DP)
• 介绍:假设有N张卡,每张卡都保存一个模型,每一次迭代(iteration/step)都将batch数据分割成N个等大小的micro-batch,每张卡根据拿到的micro-batch数据独立计算梯度,然后调用AllReduce计算梯度均值,每张卡再独立进行参数更新。