原文
| ||||||||||
| ||||||||||
![]() |
原始链接: https://news.ycombinator.com/item?id=43926029
这篇 Hacker News 讨论串探讨了机器学习中处理数据不平衡的技术,起因是一篇关于类别权重有效性(或无效性)的文章。几位评论者就评估不平衡场景下模型的最佳指标展开了辩论。lamename 建议使用 Matthews 相关系数 (MCC) 作为稳健、平衡的指标。klysm 指出 MCC 也很好地推广到多类别问题。andersource 指出在他们的实验中,MCC 的性能与 F1 分数相似。讨论涉及到不平衡学习的实际考虑,bbstats 强调了预测数据分布变化的重要性。gitroom 指出选择合适的指标和内在权衡的难度。ipunchghosts 总结说,原文发现类别权重和分层抽样对作者的特定问题无效。最后,zai_nabasif1234 简要解释了不平衡学习和类别加权,包括过采样、欠采样和 SMOTE。
| ||||||||||
| ||||||||||
![]() |
I made a quick interactive, graphical exploration to demonstrate this in python [2].
[0]: https://biodatamining.biomedcentral.com/articles/10.1186/s13...
[1]: https://biodatamining.biomedcentral.com/articles/10.1186/s13...
[2]: https://www.glidergrid.xyz/post-archive/understanding-the-ro...
reply