决策树适合大数据么( 二 )
回想一下我们之前用rxCube拟合这个模型的结论:术后并发症的概率如果开始是颈椎并且手术中涉及更多的椎骨,则脊柱后凸似乎更大类似地,似乎对年龄的依赖是非线性的:它首先随着年龄而增加,峰值在5-9范围内,然后再次减小。
rxDTree模型似乎证实了这些早期的结论 - 对于开始\u0026lt;8.5,19名观察对象中的11名发展为脊柱后凸,而29名受试者中没有一名患者开始\u0026gt; = 14.5。对于剩余的33名受试者,年龄是主要的分裂因素,正如我们之前观察到的,5至9岁的患者发生脊柱后凸的概率最高。
返回的对象kyphTree是类rxDTree的对象该rxDTree类是密切仿照rpart包包类,因此该类的对象rxDTree有一个最重要的组成部分rpart包包对象:框架,cptable,拆分等默认情况下,然而, rxDTree对象不从类继承rpart包包。但是,您可以使用rxAddInheritance函数将软件rpart继承添加到rxDTree对象。
一个简单的回归树作为回归树的一个简单示例,考虑mtcars数据集,并使用置换(DISP)作为预测值来拟合汽油里程(MPG):
#一个简单的回归树 mtcarTree \u0026lt; - rxDTree(mpg~disp,data = https://www.zhihu.com/api/v4/questions/21145016/mtcars) mtcarTree rxDTree(公式= mpg~disp,data = mtcars) 数据:mtcars 有效观察数:32 缺失观察数:0 树表示: n = 32 node),split,n,deviance,yval *表示终端节点 1)root 32 1126.0470 20.09063 2)disp/u0026gt; = 163.5 18 143.5894 15.99444 * 3)disp /u0026lt;163.5 14 292.1343 25.35714 *
大型汽车(发动机排量大于163.5立方英寸)和小型汽车之间存在明显的区别。
一个更大的回归树模型作为一个更复杂的例子,我们返回人口普查员工数据我们使用perwt变量作为概率权重,创建一个回归树,根据年龄,性别和工作周数预测工资收入:
#一个更大的回归树模型 maxDepth = 3,minBucket = 30000,data = https://www.zhihu.com/api/v4/questions/21145016/censusWorkers) incomeTree rxDTree( incwage~年龄+性别+ wkswork1,数据=人口普查工作者, pweights =“perwt”,minBucket = 30000,maxDepth = 3) 文件:C:// Program Files // Microsoft // MRO-for-RRE // 8.0 // R-3.2.2 // library // RevoScaleR // SampleData // CensusWorkers.xdf 有效观察数:351121 缺失观察数:0 树表示: n = 351121 node),split,n,deviance,yval *表示终端节点 1)root 351121 1.177765e + 16 35788.47 2)性别=女161777 2.271425e + 15 26721.09 4)wkswork1 /u0026lt;51.5 56874 5.757587e + 14 19717.74 * 5)wkswork1/u0026gt; = 51.5 104903 1.608813e + 15 30505.87 10)年龄/u0026lt;34.5 31511 2.500078e + 14 25836.32 * 11)年龄/u0026gt; = 34.5 73392 1.338235e + 15 32576.74 * 3)性别=男性189344 9.008506e + 15 43472.71 6)年龄/u0026lt;31.5 48449 6.445334e + 14 27577.80 * 7)年龄/u0026gt; = 31.5 140895 8.010642e + 15 49221.82 14)wkswork1 /u0026lt;51.5 34359 1.550839e + 15 37096.62 * 15)wkswork1/u0026gt; = 51.5 106536 6.326896e + 15 53082.08 *
这里的主要分裂(鉴于我们对教程中的数据集的分析:用RevoScaleR分析美国人口普查数据,这并不奇怪)是性别; 女性平均收入大大低于男性额外的分裂也不足为奇。老年工人的收入高于年轻工人,而那些工作时间更长的人往往比那些工作时间更少的人赚得更多。
推荐阅读
- 适合家养的几款花卉,便宜又好养,阳台变温馨花园
- 喜欢养花必养的3种花,插叶子就能活,适合养花新手
- 最适合客厅摆放的15种大厅绿植,超大气漂亮
- “一部手机读云南”上线力争建成国家方志大数据中心西南中心
- 联合国大数据全球平台中国区域中心在杭州成立
- 银行的数据中心可以跳槽去互联网公司吗
- 全民车市|男子报名考驾照,2月后被驾校劝退,你不适合开车
- |大数据赋力 半个多月前拉客的“黑车”精准落网
- 数据采集终端|
- 关于用phpfsocket 写Post, 模拟http 报文怎样写入要传输的处理数据