|变量的千层套路:数据科学中最强大的武器


全文共3019字 , 预计学习时长12分钟

|变量的千层套路:数据科学中最强大的武器
本文插图

图源:unsplash
我们无法想象没有数据的现代技术 , 如同现代技术需要石油一般 , 数据是信息时代的原材料 。 数据是我们得到任何事件和空间中信息的源头 。
如果不了解数据 , 那你就太out了 。 首先 , 我们必须熟悉正在探索的数据 。 如果不太了解数据 , 那么在数据之上构建的系统或分析模型最终将毫无用处 。 因此 , 我们需要熟悉数据类型及其展示技术 。
用于保存数据的参数在统计学中称为变量 。 一个数据集可以描述股票市场 , 其他数据集可以描述人口 , 员工数据等 。 这随系统而异 。 取值可以变化的属性就称为变量 。
理解变量是走进数据科学的关键钥匙 , 而变量千变万化 , 用法多样 , 本文就将和大家好好聊聊变量 。

|变量的千层套路:数据科学中最强大的武器
本文插图

变量类型
数据源非常庞大 , 我们可以从不同的数据源中找到不同类型的数据 。 了解数据的特征很重要 , 而数据的特征正是由变量定义 。 通过一些参数 , 我们可以轻松地对变量进行划分或分类 。

|变量的千层套路:数据科学中最强大的武器
本文插图

变量类型
变量本质上有两种类型:数值和分类 。
【|变量的千层套路:数据科学中最强大的武器】
· 数值:以数字表示的所有变量都称为数值变量 , 也被称为定量变量 。 它可以是离散的 , 也可以是连续的 。
离散变量 , 简单来说 , 就是包含可数数据的所有变量 。 例如 , 儿童的数量、SAT 分数、人口等 , 所有这些变量都包含离散数据 。
连续变量即不可数的变量 。 对其计数需要花费无穷无尽的时间 , 计数过程永远不会结束 。
示例:年龄是一个连续变量 。 这是为什么呢?假设 , 你的年龄是25岁 , 2个月 , 10天 , 7小时 , 40秒 , 44毫秒 , 10纳秒 , 99皮秒...等等 。 它永远不会结束 。 再如''平均''变量 。 如平均数字1.232343542543245....永远不会结束 。
· 分类:分类变量也被称为定性变量 , 它表示的数据类型可以分为几组 。 汽车品牌就是一个分类变量 , 其中保存着分类数据 , 如奥迪 , 丰田 , 宝马等 。 答案是一个分类变量 , 它保存着分类数据是/否 。
· 对变量的快速比较:

|变量的千层套路:数据科学中最强大的武器
本文插图

定量vs定性

|变量的千层套路:数据科学中最强大的武器
本文插图

度量水平
维基百科这样说:“度量水平或测量尺度是对分配给变量的值中信息性质进行描述的分类” 。
心理学家斯坦利·史密斯·史蒂文斯提出了最著名的分类 , 其有四个度量层次或尺度:标称、次序、等距、等比 。 标称尺度和次序尺度用于测量定性和分类变量 , 等距尺度和等比尺度用于测量定量和数值变量 。

|变量的千层套路:数据科学中最强大的武器
本文插图

度量水平
标称(Nominal):这是一个表示名称的拉丁语单词 。 标称尺度表示无法按任何顺序排列的类别 。 此尺度仅表示单个类别或名称 。 它只代表质量 , 而不提供有关差异大小的任何信息 。 它使用标称刻度 , 可以通过该变量定义两个人之间的差异 。
示例:假设某变量表示汽车品牌:奥迪、丰田、宝马等 。 我们不能以任何方式对它们进行排序 。 因此 , 这些类型的变量属于标称尺度 。


推荐阅读