|6种数据分析实用方法,终于有人讲明白了


导读:在《终于有人把AI、BI、大数据、数据科学讲明白了》中 , 我们讨论了分析以及相关的一些概念 , 如大数据和数据科学 。 现在我们将注意力转向分析中使用的实用方法 , 包括各种分析工具 。
具体来说 , 在本文中 , 我将概述统计、时间序列分析、自然语言处理、机器学习和运筹学中的方法 。
作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson)
来源:华章科技
|6种数据分析实用方法,终于有人讲明白了
本文插图

01 应用统计与数学
与前面许多已经讨论过的概念一样 , 人们如何定义统计以及统计与一般数学(mathematics)有何不同 , 存在着很大的差异 。
有些人认为统计是数学的一个分支(Merriam-Webster , 2017b) , 而另一些人(如John Tukey(Brillinger , 2002))则认为统计是一门独立的科学 。 大多数人认为 , 就像物理学也使用数学方法但不是数学一样 , 统计学使用数学但它并不是数学(Milley , 2012) 。
统计涉及数据的收集、组织、分析、解释和展示 。 如果使用这个广义的定义 , 它听起来和分析的概念非常像 。 然而 , 分析和数据科学都使用统计学的数量分析基础 , 但它们的关注范围比传统统计更广泛 , 而关于统计与其他学科之间的概念关系有几十个观点 , 我列举了我所看到的这些概念之间的关系 , 如图1-3所示 。
|6种数据分析实用方法,终于有人讲明白了
本文插图

▲图1-3 统计与其他定量学科之间的关系
数学具有一定的绝对和可确定的性质 , 而数学的教学方式(至少在美国学校是如此)灌输了一种以确定性的方式来看待数量世界的思想 。 也就是说 , 我们被教导相信 , 所有的事实和事件都可以被解释清楚 。
但是 , 统计则把量化数据看成概率的或随机的 。 也就是说 , 根据事实可能会推导出普遍正确的结论(除了简单的随机性) , 但必须承认 , 存在一些无法准确预测的随机概率分布或模式 。

  • 拓展学习:想要学习更多的统计学历史及它如何改变科学 , 请阅读David Salsburg的书The Lady Tasting Tea 。
如图1-4所示 , 数学思维是演绎性的(即 , 它通过应用一般定律或原则来推断某一特定实例) , 而统计推理是归纳性的(即 , 它从具体实例中提炼出一般规律) 。
|6种数据分析实用方法,终于有人讲明白了
本文插图

▲图1-4 归纳推理与演绎推理的比较
这种差异在分析的环境下是很重要的 , 因为我们将归纳推理和演绎推理应用于分析解决不同的问题 。 因此 , 将数学和统计都应用到分析领域是适当的和必要的 。 如果开展分析是一种全面的策略 , 那么统计和数学就是在众所周知的分析工具箱中帮助我们实现该策略的两个工具 。
线性规划(linear programming)可用于支持我们分析解决一类特定的优化问题 。 例如 , 迪士尼公司在其数据科学类工作中使用线性、非线性、混合整数和动态规划 , 来解决诸如优化餐厅座位安排、减少公园之间乘车的等待时间、安排工作人员(如演员)时间表等方面的问题 。
请注意 , 为了讨论的方便 , 我在这里不严格区分运筹学(operation research)、数学最优化(mathematical optimization)、决策科学(decision science)或精算科学(actuarial science)之间的区别 , 因为在我看来 , 它们都是我们分析工具箱中众多分析工具的组成部分而已 , 可以根据思考和解决问题的需要而灵活使用 。