机器学习模型性能的十个指标 _机器学习

尽管大模型非常强大，但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比，解释现实中的物理现象，未必要用到量子力学。有些相对简单的问题，或许一个统计分布就足够了。对机器学习而言，也不用言必深度学习与神经网络，关键在于明确问题的边界。
那么在使用ML解决相对简单问题的时候，如何评估一个机器学习模型的性能呢？这里给出了10个相对常用的评价指标，希望对产研同学有所帮助。
1. 准确率准确率是机器学习领域中的一个基础评价指标，通常用于快速地了解模型的性能。通过简单地计算模型正确预测的实例数量与数据集中总实例数量的比例，准确率提供了一个直观的方式来衡量模型的准确性。

文章插图
图片
然而，准确率作为一个评价指标，在处理不平衡数据集时可能会显得力不从心。不平衡数据集是指某一类别的实例数量明显超过其他类别的数据集。在这种情况下，模型可能会倾向于预测数量较多的类别，从而导致准确率的虚高。
此外，准确率无法提供关于假阳性和假阴性的信息。假阳性是指模型错误地将负类实例预测为正类实例的情况，而假阴性则是指模型错误地将正类实例预测为负类实例的情况。在评估模型性能时，区分假阳性和假阴性是非常重要的，因为它们对模型的性能有着不同的影响。
综上所述，虽然准确率是一个简单易懂的评价指标，但在处理不平衡数据集时，我们需要更加谨慎地解释准确率的结果。
2. 精确度精确度是一个重要的评价指标，它专注于衡量模型对正样本的预测准确性。与准确率不同，精确度计算的是模型预测为正样本的实例中，实际为正样本的比例。换句话说，精确度回答了一个问题：“当模型预测一个实例为正样本时，这个预测有多少概率是准确的？”一个高精确度的模型意味着，当它预测一个实例为正样本时，这个实例很有可能确实是正样本。

文章插图
图片
在某些应用中，如医疗诊断或欺诈检测，模型的精确度尤为重要。在这些场景中，假阳性（即错误地将负样本预测为正样本）的后果可能是非常严重的。例如，在医疗诊断中，一个假阳性的诊断可能导致不必要的治疗或检查，给患者带来不必要的心理和生理压力。在欺诈检测中，假阳性可能会导致无辜的用户被错误地标记为欺诈行为者，从而影响用户体验和公司的声誉。
因此，在这些应用中，确保模型具有高的精确度至关重要。只有通过提高精确度，我们才能降低假阳性的风险，从而减少误判带来的负面影响。
3. 召回率召回率是一个重要的评价指标，用于衡量模型对所有实际正样本的正确预测能力。具体来说，召回率计算的是模型预测为真阳性的实例与实际正样本总数的比率。这个指标回答了一个问题：“在所有实际为正样本的实例中，模型正确预测了多少？”
与精确度不同，召回率关注的是模型对实际正样本的查全能力。即使模型对某个正样本的预测概率较低，只要该样本实际上是正样本，并且被模型正确预测为正样本，那么这个预测就会计入召回率的计算中。因此，召回率更关注模型是否能够找到尽可能多的正样本，而不仅仅是预测概率较高的那些。

文章插图
图片
在某些应用场景中，召回率的重要性尤为突出。比如在疾病检测中，如果模型遗漏了实际患病的患者，可能会导致病情的延误和恶化，给患者带来严重后果。又比如在客户的流失预测中，如果模型没有正确识别出可能流失的客户，企业可能会失去采取挽留措施的机会，从而损失重要客户。
因此，在这些场景中，召回率成为了一个至关重要的指标。一个具有高召回率的模型能够更好地找到实际的正样本，减少遗漏的风险，从而避免可能产生的严重后果。
4. F1 评分F1评分是一个综合性的评价指标，旨在在准确率和召回率之间寻求平衡。它实际上是准确率和召回率的调和平均值，将这两个指标合并为一个单一的分数，从而提供了一种同时考虑假阳性和假阴性的评估方式。