#1 我看你的训练文件中使用了Adam优化器，有用过其他优化器嘛？

Closed

created 1 year ago by despacito · 5 comments

有使用过sgd优化器

Adam 优化器结合了 momentum 和 RMSProp 两种优化技术，它在梯度下降过程中既可以考虑历史梯度的平均值，也可以考虑历史梯度的方差，能够更快地收敛到最优解，并且通常需要较少的超参数调整。Adam 适用于处理大规模数据和参数的情况，并且通常比 SGD 的收敛速度更快。

相比之下，SGD 优化器是一种经典的优化器，它只考虑当前的梯度方向进行更新，容易受到数据噪声的影响，训练不稳定。因此可能会需要更小的学习率，才能达到良好的收敛性能。但是，SGD 的实现相对简单，具有较低的计算开销，并且在一些数据集和模型中可能比 Adam 更有效。

一般而言，Adam 比 SGD 更容易过拟合，因为它考虑了历史梯度的平均值，可能导致过于自信地更新参数。当训练数据较少时，可以尝试使用 SGD 或其变种（例如带动量的 SGD）以避免过拟合。

Adam 和 SGD 都有各自的优点和缺点，应该根据具体情况选择。通常来说，Adam 更适合用于处理大规模数据集和模型，而 SGD 更适合用于小规模数据集和模型。

rongannn closed this issue 11 months ago

No Label

No Milestone

No Assignees

2 Participants

Notifications

Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.