绘制学习曲线
当只使用 10 个随机选择的样本进行训练时,你可能会不幸碰到特别“糟糕”的训练集,比如含有很模糊的或者误标记的样本。你当然也有可能会幸运地碰到特别“棒”的训练集。训练集的规模较小意味着开发和训练误差将随机波动。
存在训练集噪声致使难以正确理解曲线的变化时,有两种解决方案:
除非你已经尝试过绘制学习曲线,并得出了曲线太过嘈杂且无法看到潜在趋势的结论,否则我将不会考虑使用这两种技术。因为当你的训练集规模很大——比如超过 10000 个样本——而且类分布不是很倾斜时,你可能就不需要这些技巧了。