评价指标

约 793 字大约 3 分钟

2026-03-30

可以，下面是把你这段内容补充完整并润色后的版本，保持原有结构，同时把最后两种情形解释清楚。

针对二元分类结果，我们常用的评价指标有三个，分别是精确率（Precision）、召回率（Recall）、F1 分数（F-Measure），接下来依次介绍。

在二元分类问题中，常见的四种预测结果如下：

精确率定义为：

Precision=\frac{TP}{TP+FP}

它表示：在所有被模型预测为正类的样本中，实际为正类的比例。

也就是说，Precision 关注的是“预测出来的正类到底有多准”。
如果一个模型的 Precision 很高，说明它一旦判断某个样本为正类，这个判断往往比较可靠，误报较少。

召回率定义为：

Recall=\frac{TP}{TP+FN}

它表示：在所有实际为正类的样本中，被模型成功预测为正类的比例。

也就是说，Recall 关注的是“真正的正类被找回来了多少”。
如果一个模型的 Recall 很高，说明它能找出大部分正类样本，漏报较少。

F1 分数定义为：

F1=\frac{2\times Recall \times Precision}{Recall+Precision}

F1 分数是 Precision 和 Recall 的调和平均值，综合反映了模型在“查准”和“查全”两个方面的表现。

当 F1 值较高时，通常说明模型在 Precision 和 Recall 之间取得了较好的平衡，因此整体分类效果较好。

Precision 高，但 Recall 低
说明模型在判断正类时比较谨慎，只有把握很大时才预测为正类。
这样做的结果是误报少，但也容易漏掉一部分真正的正类，即漏报多。
适用于误报代价较高的场景，例如垃圾邮件过滤、司法判定等。
Precision 低，但 Recall 高
说明模型倾向于把更多样本预测为正类，尽可能不漏掉真正的正类。
这样做的结果是漏报少，但会带来较多误报。
适用于漏报代价较高的场景，例如疾病筛查、异常检测、欺诈检测等。
Precision 和 Recall 都高
说明模型既能较准确地识别正类，又能覆盖大部分真正的正类，是较理想的状态。
Precision 和 Recall 都低
说明模型整体性能较差，既存在较多误报，也存在较多漏报，需要进一步优化。

因此，在评估模型时，不能只看单一指标，而应结合具体任务需求综合判断：