
首先,我们来探讨一下它们的定义。精确率,如同它的名字所示,衡量的是模型预测为正类的样本中,实际为正类的比例。它用 TP(真正例,即正确预测为正)的数量除以 TP 和 FP(假正例,误将负类预测为正)的总和,精确率就像查准率,关注的是预测结果的准确性。
相反,召回率关注的是模型识别出所有实际正类的能力。它衡量的是 TP(真正例)占实际正类总数的比例。换句话说,召回率就是查全率,着重于找到所有正样本的能力。
以一个简单的例子来说明:假设我们有一个包含60个正样本和40个负样本的数据集,模型预测出50个样本,其中40个是正类,但有20个正样本被误判为负。通过计算,我们得知准确率为 70%(TP+TN/总样本数),精确率为 80%(TP/(TP+FP)),而召回率为 2/3(TP/(TP+FN)),这意味着模型在识别正类时,有大约67%的样本被正确找出。
除了这些基础指标,我们还有 ROC 曲线(接收者操作特性曲线)和 PR 曲线(精确率-召回率曲线),它们提供了更全面的性能评估,尤其是当数据不平衡时,AUC(曲线下面积)则作为综合评价的基准。这些曲线和指标可以帮助我们更深入地理解模型的性能表现。
