本文介绍了几种常用统计量,包括方差、标准差、协方差、相关系数,的几何意义。
《趋势性回归分析与相关性回归分析》、《文华商品指数的相关性研究》、《alpha与beta》等文章已在路上,敬请关注。
本文的内容原计划安排在《线性回归分析的几何解释》中。但是,我发现不管怎么安排都会打乱前文的逻辑。所以将这些内容独立成文。
前文并没有对所有的逻辑展开解释。如果有疑惑,在本文中,你一定能找到答案。
二维平面内,两点之间的距离是向量,不能直接相加/减。
两点围成的矩形面积却是二维平面上的标量。
如果用面积表示两点之间的距离,我们就可以获得标量加/减的性质。
这些很好的性质能极大的简化问题的复杂程度。
协方差
( X¡ , Y¡ )是二维平面中的N个点。以中心点 ( E(X¡) , E(Y¡) ) 为原点建立坐标系,如上图。
这N个点分别与中心点 ( E(X¡) , E(Y¡) ) 围成一个矩形,面积为:
1
这N个矩形平均面积就是协方差:
2
协方差反映了点偏离中心点的总程度。
方差
X¡是N个一维数值。令Y¡=X¡,使一维度数据升到二维。如下图:
我们把X¡与自身的协方差称为方差:
3
标准差
虽然方差可以用来衡量一维数值的偏离程度,但它是二维数据。那么如何定义在一维上的偏离程度呢?
方法是开平方。
我们已经知道,方差的几何本质是面积。对面积开平方之后得到的是什么呢?
是这个面积对应正方形的边长。
开平方把二维的面积降到一维边长。
如果这个面积是N个矩形面积的均值,那么开平方后得到的正方形的边长就可以理解为是一种降维平均值。
所以,标准差是一维数据在一维上的平均偏离程度。
4
相关系数
( X¡ , Y¡ )是二维平面中的N个点。
X¡ 和 Y¡ 分别在一维上的平均偏离程度是其标准差。 X¡ 和 Y¡ 标准差的乘积表示二维的平均偏离程度。
5
我们已经知道, X¡ 和 Y¡ 的协方差也表示二维的平均偏离程度。
我们把这两种平均偏离程度的比例定义为 X¡ 与 Y¡ 的相关系数:
6
X¡ 与 Y¡ 线性相关性越高,这两个平均偏离程度越接近。
有兴趣的话,你可以算一下X¡ 与 自身的相关系数。
(正文完)
评论前必须登录!
注册