|变量的千层套路:数据科学中最强大的武器( 二 )
本文插图
图源:unsplash
· 次序(Ordinal):这是一个有序的尺度 。 它指示可以按顺序排列的分类变量 。 我们可以用该尺度来确定变量间差异的方向 , 但无法确定差异的大小 。
示例:有一个名为''身高''的变量表示人的身高 , 这又分为矮个子、中等个子和高个子 。 这些值的排序非常容易:高→中等→矮 。 这个顺序能很好地展示差异方向 , 但它不提供用以确定具体身高差的任何线索 。
本文插图
次序尺度的直觉
· 等距(Interval):表示各个级别之间相等间隔并可以表示为实数的变量称为等距尺度 。 它不仅对度量进行分类和排序 , 而且还规定沿低区间到高区间的刻度上每个间隔的距离相等 。
示例:温度是一个变量 , 其中10摄氏度与20摄氏度 , 70摄氏度和80摄氏度之间的间隔相同 。 考试分数 , 高度 , 时间等都可以作为等距尺度的好例子 。
· 等比(Ratio):这具有等距尺度的所有特性 。 它必须满足刻度中的零有意义 。
假设我们正在考虑以°C和°F为单位测量体温 , 发现两个人的体温分别是10°C和20°C或10°F和20°F 。 我们不能说第二个人的体温是第一个人的2倍 。 因为0°C和0°F不是真正的零 , 它们并不意味着没有温度 。 如果要用等比尺度表示温度 , 则必须让开氏标度为0度 , 此时表明不存在温度 。
本文插图
使用Python展示数据
接下来 , 我们将讨论如何使用条形图 , 饼图和帕累托图来展示变量 。
展示分类变量
假设有一个汽车销售市场的数据集 , 我们可以分析“汽车品牌”变量 。 首先计算不同汽车品牌出现的频率 , 就像下图所示:
本文插图
演示汽车品牌频率
让我们将其转换为数据框 。 因为要分析此演示数据来进行图表展示 。 频率代表每个品牌的已售汽车数量 。 你可以对任何数据集执行相同的操作 , 使用pandas数据框转换此图像 。
importpandas as pd import matplotlib.pyplot as plt df=pd.DataFrame({''Brand'':['Audi',''BMW'',''Mercedes''],''Frequency'':[124,98,113]})
本文插图
Pandas数据框
计算相对频率
相对频率以百分比表示单个频率的分布:相对频率(%)=(个体频率/总频率)* 100 。
df['RelativeFrequency(%)']= round((df.Frequency/sum(df.Frequency))*100,2)
我们在主要数据集中添加了一个相对频率列:
本文插图
有相对频率列的数据框
条形图
接下来 , 让我们用频率来绘制条形图 。
import matplotlib.pyplot as pltfig,ax=plt.subplots() var=plt.bar(df.Brand, df.Frequency,, alpha=0.5)#this loop isused to represent frequency on each bar for idx,rect in enumerate(var): height = rect.get_height() ax.text(rect.get_x() +rect.get_width()/2., 1.01*height, df.Frequency[idx], ha='center', va='bottom',rotation=0)#adding labels and title plt.ylabel('Frequency') plt.xlabel('Brand Name') plt.title('Car Sales Statistics')plt.show()
推荐阅读
- 王涛娱乐探|中国芯迎来转机!两大芯片制造设备突破,西方打压套路再次重演?
- 中国网财经|可诺丹婷“套路推销”被曝光 再发声明称“被曝光门店实则是合作店”
- 互联网|1小时破300万、月销售额过亿,拆解新产品增长营销套路
- 北京日报客户端|揭秘直播带货局中局,刷流量带节奏都有哪些套路?
- 界面新闻|消费者报告 | 充值却买成了别家App的会员卡?视频平台广告套路频出
- |凭啥别人的社群转化率那么高?试试这三种套路你也可以
- |连续打卡即可0元入手手机版Kindle,是真实惠还是假套路?
- 智能穿戴|谨防旧套路“换”新外衣!苹果这款产品想“捡漏”还请三思而后行
- 复盘网络|复盘网络"股神"荐股套路:会员费数千元 背后黑产隐现
- 流量|三大运营商套餐“免流量”套路被点名,消费体验亟待提升