吾本轻狂|data,它又有什么好处,R数据分析:何为Tidy
“Happyfamiliesareallalike;everyunhappyfamilyisunhappyinitsownway.”––LeoTolstoy
“Tidydatasetsareallalike,buteverymessydatasetismessyinitsownway.”––HadleyWickham
【吾本轻狂|data,它又有什么好处,R数据分析:何为Tidy】上面两句话摘自《RforDataScience》 , 今天就尝试着给大家写写什么是整齐数据 , 为什么整齐数据很重要 。
整齐数据Tidydata我们接收到的数据很多都是杂乱无章的 , 为了进行数据的预处理 , 我们需要先把数据转换为整齐的数据 。
整齐数据满足的条件有:
每一个变量都有自己独立的一列每一个观测值都有自己独立的一行每一个数据都是独立的单元格
tidy的特征是使用dplyr中mutate,summary等函数的基础整齐数据可以很方便的转化为其他的类型怎么理解第二个优点呢?就是我们可以很方便的将table1(整齐数据)转化为table3 , 代码如下:
table1%>%mutate(rate=cases/population)相应的其他的转化其实也很方便 。 接着看
如何将非整齐数据转化为整齐数据我们拿到的数据很多时候是原始录入的数据 , 为了录入方便 , 很多时候是不整齐的 。
比如下面的table4 , 它的每一行其实代表了2个观测 , 1999年和2000年 , 1999和2000也并非变量而是年份这个变量下面的值 。
table4a#>#Atibble:3x3#>country`1999``2000`#>*#>1Afghanistan7452666#>2Brazil3773780488#>3China212258213766如何将上面的table变为整齐数据呢?
我们需要用到pivot_longer() , 我们需要定义3个参数:
是值而非变量的列 , 本例中:1999and2000容纳原先列名的新变量名 , 本例中:year容纳原先列的值的变量 , 本例中:cases代码如下:
table4a%>%pivot_longer(c(`1999`,`2000`),names_to="year",values_to="cases")#>#Atibble:6x3#>countryyearcases#>#>1Afghanistan1999745#>2Afghanistan20002666#>3Brazil199937737#>4Brazil200080488#>5China1999212258#>6China2000213766看看整个转化过程:
推荐阅读
- 吾本轻狂|微信这些红线不要碰,否则直接“封号”,马化腾正式确认
- 多线通(Dataplugs)|SuperPOD超级计算机,Naver,Link?ping和C-DAC已向订购英伟达的DGX
- 吾本轻狂|台积电不再必需?华为正式发声!网友:干得漂亮
- 多线通(Dataplugs)|爱立信以11亿美元收购无线WAN边缘解决方案公司
- 吾本轻狂|监控摄像头数量全球激增!明年将破10亿支!50%在中国
- 吾本轻狂|不管推什么品牌都不讨好?,为什么手机市场口碑越做越差
- 吾本轻狂|价格不贵且性能不废,这3款新品可参考,9月1500多元预算
- 酷科技kkj|腾讯云发布全链路数据开发平台WeData,持续引领大数据行业发展
- 吾本轻狂|Mobile后,蓝洞子公司将接手后续发行,印度禁止PUBG:
- 吾本轻狂|却引来百度、腾讯合作,最新成果锁定全球目光!,他坚持这一冷门研究