使用单值评估指标进行优化

    相比之下,查准率(Precision,又译作精度)和查全率(Recall,又译作召回率)的组合并不能作为单值评估指标,因为它给出了两个值来对你的分类器进行评估。多值评估指标提高了在算法之间进行优劣比较的难度,假设你的算法表现如下:

    当你的团队在进行开发时,往往会尝试多种多样的算法架构、模型参数、特征选择,或是一些其它的想法。你可以通过使用单值评估指标(如准确率),根据所有的模型在此指标上的表现,进行排序,从而能够快速确定哪一个模型的性能表现最好。

    如果你认为查准率和查全率指标很关键,可以参照其他人的做法,将这两个值合并为一个值来表示。例如取二者的平均值,或者你可以计算 “F1分数(F1 score)” ,这是一种经过修正的平均值计算方法,比起直接取平均值的效果会好一些。

    综上可知,当你需要在多个分类器之间进行选择时,使用单值评估指标将帮助你更快速地作出决定。它能给出一个清晰明了的分类器性能排名,从而帮助团队明确后续的改进方向。

    最后补充一个例子,假设你在 “美国” 、 “印度” 、 “中国” 和 “其它地区” 这四个关键市场追踪你的猫分类器准确率,并且获得了四个指标。通过对这四个指标取平均值或进行加权平均,你将得到一个单值指标。取平均值或者加权平均值是将多个指标合并为一个指标的最常用方法之一。