相关系数r的计算公式是什么?

  • 01相干系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),Cov(X,Y) = E(XY) ? E(X)E(Y) = bσ 。
    【相关系数r的计算公式是什么?】
    相干系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研讨变量之间线性相干水平的量,一般用字母r表现 。由于研讨对象的不同,相干系数有多种定义方法,较为常用的是皮尔逊相干系数 。相干系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),Cov(X,Y) = E(XY) ? E(X)E(Y) = bσ 。
    相干表和相干图可反应两个变量之间的相互关系及其相干方向,但无法确实地表明两个变量之间相干的水平 。相干系数是用以反应变量之间相干关系亲密水平的统计指标 。相干系数是按积差办法盘算,同样以两变量与各自平均值的离差为基本,通过两个离差相乘来反应两变量之间相干水平;侧重研讨线性的单相干系数 。须要解释的是,皮尔逊相干系数并不是唯一的相干系数,但是最常见的相干系数 。
    根据相干现象之间的不同特点,其统计指标的名称有所不同 。如将反应两变量间线性相干关系的统计指标称为相干系数(相干系数的平方称为判定系数);将反应两变量间曲线相干关系的统计指标称为非线性相干系数、非线性判定系数;将反应多元线性相干关系的统计指标称为复相干系数、复判定系数等 。
    相干关系是一种非肯定性的关系,相干系数是研讨变量之间线性相干水平的量 。须要指出的是,相干系数有一个显著的缺陷,即它接近于1的水平与数据组数n相干,这容易给人一种假象 。因为,当n较小时,相干系数的波动较大,对有些样原形关系数的绝对值易接近于1﹔当n较大时,相干系数的绝对值容易偏小 。特殊是当n=2时,相干系数的绝对值总为1 。因此在样本容量n较小时,我们仅凭相干系数较大就判定变量x与y之间有亲密的线性关系是不妥善的 。


    推荐阅读