大批量深度学习为何泛化效果差西北大学联合英特尔给出了答案_[#第一枪]

发布时间：2021-06-07 16:53:01 阅读：次来源：珠宝秤厂家

雷锋网AI科技评论按：ICLR 2017 于4月24-26日在法国土伦举行，AI科技评论的编辑们也于法国带来一线报道。在这个深度学习会议举办之际，雷锋网也围绕会议议程及论文介绍展开一系列的覆盖和专题报道，敬请期待。

由西北大学（Northwestern U）的Nitish Shirish Keskar和Jorge Nocedal和英特尔的Dheevatsa Mudigere，Mikhail Smelyanskiy以及Ping Tak Peter Tang近期发表的论文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》，当选 ICLR 2017的oral paper。文章描述了在传统神经网络训练时，大的 batch size（如，超过512）会导致网络模型泛化能力下降的问题，并通过实验证明其原因是泛化误差和尖锐收敛，并提出了一些解决方案。

很多深度学习过程中都在算法上应用了随机梯度下降的方法或随机梯度下降的衍生方法。但是这种方法一般适用于小批量（样本数量在32-512之间）的计算。观察数据显示，当大批量计算时（样品数量超过512），如果用泛化能力作为标准的话，模型的计算质量就会下降。Intel与西北大学研究的这篇文章，就这个问题进行了讨论，并提出了大量的证据证明大批量的方法会倾向于将模型和函数归一化，从而导致尖锐收敛，并最终生成了比较差的泛化效果。

论文分析了在小批量情况下结果不同的原因，并提出这种不同来自于在梯度预测时内部噪声的差异。如下图片，在这个案例中，随机的选择一组小批量（SB）和大批量（LB）的最小值，可以发现，LB极小值比SB极小值更加尖锐。因此，泛化能力则更低一些。同时，论文还就减小泛化间隙的问题提出了在大批量计算中适用的几种策略，开放性的预留了未来的讨论点，包括在大批量计算中可进行的尖锐收敛和可能的优化方案。

论文