随机森林|决策树VS随机森林——应该使用哪种算法?(附代码&链接)( 五 )

随机森林|决策树VS随机森林——应该使用哪种算法?(附代码&链接)
本文插图

正如你在上图所见 , 决策树模型基于某一个特征集很高的重要性 。 但是随机森林算法在训练过程中随机选择特征 。 因此 , 的确不依赖于任何特定的特征集 。 这是随机森林算法优于bagging算法的一个特殊之处 。 你可以阅读以下文章获取更多bagging算法知识 。
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.BaggingClassifier.html#sklearn.ensemble.BaggingClassifier
因此 , 随机森林可以更好地在数据中心进行泛化 。 随机化特征选择可以使得随机森林比决策树更准确 。
所以你应该选择哪一种算法呢——决策树还是随机森林?
“随机森林适用于拥有大型数据集的情况 , 并且可解释性不是主要考虑因素 。 ”
决策树更容易解释和理解 。 因为随机森林整合了多棵决策树 , 更难以解释 。 但是好消息是——解释随机森林也并非不可能 。 这里有一篇文章讲了如何解释随机森林模型的结果:
https://www.analyticsvidhya.com/blog/2019/08/decoding-black-box-step-by-step-guide-interpretable-machine-learning-models-python/?utm_source=blog&utm_medium=decision-tree-vs-random-forest-algorithm
并且 , 随机森林比起单一决策树需要更长的训练时间 。 你应该把此纳入考虑 , 因为随着决策树数量的增加 , 所需要的训练时间也会越长 。 在你面临着紧张的机器学习项目安排过程中这可能通常是至关重要的 。
但是我要说的是——尽管结果不稳定 , 且依赖于特定的特征集 , 决策树真的很有帮助 , 因为他们更容易去解释、训练更快 。 任何对数据科学缺乏知识的人都可以使用决策树进行快速的数据驱动决策 。
写在最后的话
了解决策树和随机森林之争是非常有必要的 。 在你初入机器学习领域时 , 这可能是一个很棘手的问题 , 但是本文能够为你阐明两者之间的异同 。
原文标题:
Decision Tree vs. Random Forest – Which Algorithm Should you Use?
原文链接:
https://www.analyticsvidhya.com/blog/2020/05/decision-tree-vs-random-forest-algorithm/
编辑:王菁
校对:龚力
译者简介
随机森林|决策树VS随机森林——应该使用哪种算法?(附代码&链接)
本文插图

陈超 , 北京大学应用心理硕士在读 。 本科曾混迹于计算机专业 , 后又在心理学的道路上不懈求索 。 越来越发现数据分析和编程已然成为了两门必修的生存技能 , 因此在日常生活中尽一切努力更好地去接触和了解相关知识 , 但前路漫漫 , 我仍在路上 。
—完—
想要获得更多数据科学领域相关动态 , 诚邀关注清华-青岛数据科学研究院官方微信公众平台“ 数据派THU ” 。


推荐阅读