|变量的千层套路:数据科学中最强大的武器( 二 )



|变量的千层套路:数据科学中最强大的武器
本文插图

图源:unsplash
· 次序(Ordinal):这是一个有序的尺度 。 它指示可以按顺序排列的分类变量 。 我们可以用该尺度来确定变量间差异的方向 , 但无法确定差异的大小 。
示例:有一个名为''身高''的变量表示人的身高 , 这又分为矮个子、中等个子和高个子 。 这些值的排序非常容易:高→中等→矮 。 这个顺序能很好地展示差异方向 , 但它不提供用以确定具体身高差的任何线索 。

|变量的千层套路:数据科学中最强大的武器
本文插图

次序尺度的直觉
· 等距(Interval):表示各个级别之间相等间隔并可以表示为实数的变量称为等距尺度 。 它不仅对度量进行分类和排序 , 而且还规定沿低区间到高区间的刻度上每个间隔的距离相等 。
示例:温度是一个变量 , 其中10摄氏度与20摄氏度 , 70摄氏度和80摄氏度之间的间隔相同 。 考试分数 , 高度 , 时间等都可以作为等距尺度的好例子 。
· 等比(Ratio):这具有等距尺度的所有特性 。 它必须满足刻度中的零有意义 。
假设我们正在考虑以°C和°F为单位测量体温 , 发现两个人的体温分别是10°C和20°C或10°F和20°F 。 我们不能说第二个人的体温是第一个人的2倍 。 因为0°C和0°F不是真正的零 , 它们并不意味着没有温度 。 如果要用等比尺度表示温度 , 则必须让开氏标度为0度 , 此时表明不存在温度 。

|变量的千层套路:数据科学中最强大的武器
本文插图

使用Python展示数据
接下来 , 我们将讨论如何使用条形图 , 饼图和帕累托图来展示变量 。
展示分类变量
假设有一个汽车销售市场的数据集 , 我们可以分析“汽车品牌”变量 。 首先计算不同汽车品牌出现的频率 , 就像下图所示:

|变量的千层套路:数据科学中最强大的武器
本文插图

演示汽车品牌频率
让我们将其转换为数据框 。 因为要分析此演示数据来进行图表展示 。 频率代表每个品牌的已售汽车数量 。 你可以对任何数据集执行相同的操作 , 使用pandas数据框转换此图像 。
importpandas as pd import matplotlib.pyplot as plt df=pd.DataFrame({''Brand'':['Audi',''BMW'',''Mercedes''],''Frequency'':[124,98,113]})
|变量的千层套路:数据科学中最强大的武器
本文插图

Pandas数据框
计算相对频率
相对频率以百分比表示单个频率的分布:相对频率(%)=(个体频率/总频率)* 100 。
df['RelativeFrequency(%)']= round((df.Frequency/sum(df.Frequency))*100,2)
我们在主要数据集中添加了一个相对频率列:

|变量的千层套路:数据科学中最强大的武器
本文插图

有相对频率列的数据框
条形图
接下来 , 让我们用频率来绘制条形图 。
import matplotlib.pyplot as pltfig,ax=plt.subplots() var=plt.bar(df.Brand, df.Frequency,, alpha=0.5)#this loop isused to represent frequency on each bar for idx,rect in enumerate(var): height = rect.get_height() ax.text(rect.get_x() +rect.get_width()/2., 1.01*height, df.Frequency[idx], ha='center', va='bottom',rotation=0)#adding labels and title plt.ylabel('Frequency') plt.xlabel('Brand Name') plt.title('Car Sales Statistics')plt.show()


推荐阅读