决策树适合大数据么( 五 )

决策树适合大数据么


如果安装了软件rpart,则prune.rxDTree充当剪枝函数的方法,因此您可以更简单地调用它:
对于符合2倍或更高交叉验证的模型,使用交叉验证标准错误(cptable组件的一部分)作为修剪指南很有用.rpart函数plotcp对此有用:
这产生以下图:

决策树适合大数据么

决策树适合大数据么

?

决策树适合大数据么

决策树适合大数据么

?
在此交互式树中,单击节点将展开并将节点折叠到该分支的最后一个视图。如果使用CTRL +单击,则树仅显示所选节点的子项。如果单击“ALT +单击”,树将显示所选节点下的所有级别。无法扩展称为叶子或终端节点的方形节点。
要获取其他信息,请将鼠标悬停在节点上以显示节点详细信息,例如其名称,下一个拆分变量,其值,N,预测值以及其他详细信息(如丢失或偏差)。
如果使用rxAddInheritance函数提供rpart继承,也可以将rpart plot和text方法与rxDTree对象一起使用:
提供以下图表:

决策树适合大数据么

决策树适合大数据么

?
有问题欢迎下方留言!

■网友
私以为决策树所用的决策数据应该是精简提炼之后、可以用于决策的数据,而不是直接面对大数据提供的原始数据。从这个角度看,决策树的思想可以应用于大数据,传统用于数据处理的很多方法类似,只是先要对海量原始数据进行有效处理;而这个庞大“预处理”过程是大数据时代可能面临的最苛刻的挑战之一。
■网友
大数据分析一般运用机器学习算法,需要用有限的样本对目标函数进行训练和学习。决策树也需要学习,通过学习后,就可以放心地让决策树去完成下面的事情了。所以,从训练决策树的角度来说,不需要很多样本,然后学习后的决策树就可以处理上亿的数据量了。个人看法,坐看高手解答啊


推荐阅读