43_显存优化策略篇
扫码 查看更
• 显存优化策略篇
• 一、介绍一下 gradient accumulation 显存优化方式?• 二、介绍一下 gradient checkpointing 显存优化方式?• 致谢
一、介绍一下 gradient accumulation 显存优化方式?
正常情况下是一个batch之后统一计算梯度大小,gradient accumulation可以再指定个batch之后一起更新梯度,这种情况下,可以再batch_size很小的时候,提升真正的batch_size,是一种显存占用的优化算法。随着模型和数据规模越来越大,显存紧张的时候,需要把batch_size设置的很小,使用gradient accumulation的技术可以在实际上提高真正的batch_size【如果batch_size很小的话,会导致训练不稳定,收敛更慢】梯度累积(Gradient Accumulation)是深度学习训练中的一种技术,用于在一次反向传播(backpropagation)中累积多个小批量数据的梯度,然后一次性更新模型参数。这个技术的主要目的是在内存有限的情况下,能够有效地使用大批量数据进行训练,从而提高模型性能。以下是梯度累积的详细解释: