我训练了一个模型,得到了不错的结果,但后来我变得贪婪,我想要更高的准确性,所以,我训练模型的时间越来越长,越来越长,但无济于事,什么也没有发生!根据理论,在某些时候,验证准确度必须在训练过多后开始下降(损失开始增加)!但这似乎从未发生过。所以,我想可能是神经网络太简单而无法过拟合,所以我增加了它的容量,最终得到了数百万个参数,我训练了 10,000 个 epoch,仍然没有发生过拟合。这里问了同样的问题,但那里的答案并不令人满意。这意味着什么?
1 回答
繁花不似锦
TA贡献1851条经验 获得超4个赞
对于高容量模型来说,这是众所周知的事情。它们对过度拟合有惊人的抵抗力,这与经典的统计学习理论相矛盾,即如果没有明确的正则化,你就会过度拟合。例如,这篇论文说
大多数具有学习参数的深度神经网络通常在经验上泛化非常好,甚至配备了比训练样本数量更有效的参数,即高容量......因此,统计学习理论无法解释深度学习模型的泛化能力。
此外,这和这篇论文都在谈论它。您可以继续关注这些论文中的参考资料以阅读更多信息。
就个人而言,我从未见过高容量模型过拟合,即使在训练了数千个 epoch 之后也是如此。如果你想要一个过拟合的例子:为 Cifar10 使用 Lenet 5,使用 ReLU 激活且没有 dropout,并使用 SGD 和 learning rate 对其进行训练0.01
。该模型的训练参数数量约为 6000 万,与 Cifar10(低容量模型)中的样本数量相同。在最多 500-1000 个 epoch 之后,您将看到一个非常明显的过度拟合,随着时间的推移损失和错误越来越多。
添加回答
举报
0/150
提交
取消