常用评价指标

分类、回归、排序

Posted by Jiayue Cai on September 29, 2018

Last updated on 2018-9-29…

原文来自《美团机器学习实践》,Target:使线下指标的变化趋势跟线上指标一致。个人做了一些补充和注解。

这篇有更透彻的理解

分类指标

以二分类为参考的话:

Precision 精确率

表示当模型判断一个点属于该类的情况下,判断结果的可信程度。

Recall 召回率

表示模型能够检测到该类的比率。

对于一个给定类,精度和召回率的不同组合如下:

  • 高精度+高召回率:模型能够很好地检测该类
  • 高精度+低召回率:模型不能很好地检测该类,但是在它检测到这个类时,判断结果是高度可信的
  • 低精度+高召回率:模型能够很好地检测该类,但检测结果中也包含其他类的点
  • 低精度+低召回率:模型不能很好地检测该类

F1-score F1值

F1值是精确率和召回率的调和平均值。

Accuracy 准确率

推广至多分类:

ROC曲线与AUC指标

很多模型输出的是预测概率,而使用精确率、召回率这类指标进行模型评估时,还需要设置分类阈值。这使得模型多了一个超参数,并且这个超参数会影响模型的泛化能力。

假设对于给定点 x,我们的模型输出该点属于类别 C 的概率为:P(C | x)。基于这个概率,我们定义一个决策规则,即当且仅当 P(C | x)≥T 时,x 属于类别 C,其中 T 是定义决策规则的给定阈值。如果 T = 1,则仅当模型 100%可信时,才将该点标注为类别 C。如果 T = 0,则每个点都标注为类别 C。

阈值 T 从 0 到 1 之间的每个值都会生成一个点 (false positive, true positive),ROC 曲线就是当 T 从 1 变化到 0 所产生点的集合所描述的曲线。该曲线从点 (0,0) 开始,在点 (1,1) 处结束,且单调增加。好模型的 ROC 曲线会快速从 0 增加到 1(这意味着必须牺牲一点精度才能获得高召回率)。

logloss 对数损失

回归指标

MAE 平均绝对误差

MAPE 平均绝对百分误差

RMSE 均方根误差

排序指标

MAP 平均准确率

NDCG 归一化贴现累计收益