数据分析必掌握的统计学知识,为什么数据分析师要学统计学( 二 )


三、归一化
1.标准分数
一个给定分数 距离 平均数 多少个标准差?
标准分数是一种可以看出某分数在分布中相对位置的方法 。
标准分数能够真实的反映一个分数距离平均数的相对标准距离 。

数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
四、正态分布
1.定义:随机变量X服从一个数学期望为μ,方差为σ?2;的正态分布,记为N(μ,σ?2;)
随机取一个样本 , 有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
五、抽样分布
1.中心极限定理
设从均值为μ,方差为σ?2;的任意一个总体中抽取样本量为n的样本 , 当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ?2;/n的正态分布
2.抽样分布
设总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本 。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布 。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布 。数理统计学的相关定理已经证明:在重置抽样时 , 样本均值的方差为总体方差的1/n 。
举个例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本 。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次 。这就是n为5的样本均值抽样 。
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
六、估计
1. 误差界限
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
2. 置信度
We are some % sure the true population parameter falls within a specific range
我们有百分之多少确信总体中的值落在一个特定范围内;
一般情况下 , 取95%的置信度就可以;
3. 置信区间
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
七、假设检验
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
1.问题:什么是显著性水平?
显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
A Type II Error is when you fail to reject the null when it is actually false.
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0
八、T检验
1. 主要用于样本含量较?。ɡ?鏽<30),总体标准差σ未知的正态分布 。
流程如下:
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
一般检验水准α取0.05即可;
计算检验统计量的方法根据样本形式不同;
2. 独立样本T检验:
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
问题:为什么T检验查表时候要n-1?
样本均值替代总体均值损失了一个自由度
3. 配对样本t检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值 , 这里出现了配对
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
样本误差(Standard Error)
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图
4. Pooled variance 合并方差
【数据分析必掌握的统计学知识,为什么数据分析师要学统计学】当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差
不要被公式吓到 , 他的本质是两个样本方差加权平均
数据分析必掌握的统计学知识,为什么数据分析师要学统计学

文章插图


推荐阅读