参数调整注意事项

    本文档试图为 xgboost 中的参数提供一些指导意见。

    xgboost 中的大部分参数都是关于偏差方差的权衡的。最好的模型应该仔细地将模型复杂性与其预测能力进行权衡。 参数文档 会告诉你每个参数是否会使得模型更加 conservative (保守)与否。这可以帮助您在复杂模型和简单模型之间灵活转换。

    通常有两种方法可以控制 xgboost 中的过拟合。

    • 第一个方法是直接控制模型的复杂度
    • 第二种方法是增加随机性,使训练对噪声强健
      • 这包括 , colsample_bytree
      • 你也可以减小步长 eta, 但是当你这么做的时候需要记得增加 。
    • 如果你只关心预测的排名顺序(AUC)
      • 使用 AUC 进行评估
    • 如果你关心预测正确的概率
      • 在这种情况下,您无法重新平衡数据集
      • 在这种情况下,将参数 max_delta_step 设置为有限数字(比如说1)将有助于收敛