数理统计技术 数理统计

数理统计(数理统计技术)
数理统计博大精深 , 可分为频数派和贝叶斯派 。但作为一个面向商业应用的数据科学家 , 对入门级玩家的数理统计要求并不高 , 只要有文科高等数理统计基础即可 , 比如应用广泛的经济数学卷三 , 或者商业统计、社会统计、教育统计等任何一门课程 。
1.2.1描述性统计分析描述性分析是每个人都会用到的方法 。比如新闻联播每次提到人的收入 , 总是报平均值 , 而不是一个一个读出每个人的收入 。企业的年收入和利润总额往往是年度财务报告中提到的 , 而不是每笔交易的数据 。这些平均值和总和是统计数据 。描述性分析是从总数据中提取变量的主要信息 , 即统计量 。日常的经营分析报告是用标准的描述性分析方法完成的 , 其套路性很强 。做这种分析 , 只需要明确主体和可能的影响因素 , 确定能够量化主体和影响因素的指标 。根据这些指标的测量类型 , 选择适用的统计表和图表进行信息展示 。下图显示了统计表的类型和相应的柱形图 。

图1-4描述性统计分析方法
关于描述性统计分析的详细内容 , 可以阅读4.2节关于制作报表和统计制图 。这些内容看起来很无聊 , 也没什么用 , 下面我们用一个例子来展示一下它们的用法 。目前 , 商业智能的概念相当流行 。图1-5是某知名商业智能软件的截图 。看起来很高大上 , 其实是图1-4中方法的应用 。比如最下面的“普通小学基本信息”报表 , 就是“汇总表”的直接应用 。比如左下角的“普通小学专任教师人数”是柱形图的变体 , 用博士帽数代替柱高;在右下角的“各省小学比例”中 , 用气泡的大小来代表各省小学的比例 。

图1-5商业智能软件截图
学习描述性统计分析很简单 , 一个上午就能学会这些知识 , 可以胜任95%以上的经营分析报告写作 。剩下的难点是了解业务和找数据 , 通过多读分析报告来积累业务经验 。
1.2.2统计推断与统计建模推理和统计建模是指在解释变量和被解释变量之间建立一个可解释的、稳定的表达式 , 最好有因果关系 。当模型被应用时 , 解释变量被带入表达式以预测每个个体的解释变量的平均值 。目前 , 关于统计推断有两个误区:
1.统计推断无用论:认为大数据时代只需要描述性分析 , 不需要统计推断 。因为种群有时间和空两个维度 , 所以空之间的种群即使通过大容量高速并行处理也可以得到 。但我们永远无法获得整体时间 , 因为需要预测的总是新客户或新需求 。更重要的是 , 在数据科学体系中 , 统计推断算法往往是复杂数据挖掘和人工智能算法的基础 。例如 , 统计推理算法广泛用于特征工程中的特征创建和特征提取 。
2.学习统计推断的低产出/投入比:深度学习普及的关键点是高产出/投入比 。实践表明 , 有高等数学基础的学生 , 通过两个月的强化训练 , 可以掌握深度学习算法 , 并投入生产 。而训练同样基础的人去开发商业可用的统计模型 , 训练时间至少是半年 。原因是统计推断的算法是根据分析变量的计量类型定制开发的 , 需要分析人员了解各种指标的分布类型 , 合理选择算法 。深度学习算法是通用的 , 可以在一个框架内完成所有任务 。听起来后者的投入产出比更高 。但是 , 效率和风险往往是并存的 。目前 , 来自顶级IA公司的模型开发人员发现了一个问题:解决同一个问题 , 统计模型开发周期长 , 更新频率低;深度学习算法开发周期短 , 优化频率高 。过去深度学习提倡的实时优化 , 造成了企业过多的人员投入 。所以深度学习的综合收益不一定高 , 这本书的目的之一就是降低统计推断学习的成本 。今后 , 读者只需根据分析数据按照下面的图表进行操作 , 将大大减少学习时间 。
表1-2统计推断和建模方法
预测变量y
预测变量x
分类(二分法)
连续不断地
单一变量
分类(二分法)
列联表分析|卡方检验
双样本t检验
分类(多重分类)
列联表分析|卡方检验
单因素方差分析


推荐阅读