评价指标

    分类任务中最常用的是二分类,而多分类任务也可以转化为多个二分类任务的组合,二分类任务常用的评价指标有准确率、正确率、召回率、AUC和平均准确度。

    • 准确率: ,用来衡量二分类中召回真值和召回值的比例。

    API Reference 请参考 Precision

    • 正确率: Accuracy ,用来衡量二分类中召回真值和总样本数的比例。需要注意的是,准确率和正确率的定义是不同的,可以类比于误差分析中的 VarianceBias

    API Reference 请参考

    • AUC: Area Under Curve, 适用于二分类的分类模型评估,用来计算 ROC曲线的累积面积Auc 通过python计算实现,如果关注性能,可以使用 fluid.layers.auc 代替。

    API Reference 请参考

    • 平均准确度: ,常用在Faster R-CNN和SSD等物体检测任务中。在不同召回条件下,计算了准确率的平均值,具体可以参考文档 Average-precision 和 。

    序列标注任务中,token的分组称为语块(chunk),模型会同时将输入的token分组和分类,常用的评估方法是语块评估方法。

    API Reference 请参考 ChunkEvaluator

    • 编辑距离: ,用来衡量两个字符串的相似度。可以参考文档 。

    API Reference 请参考 EditDistance