将技术分析进行到底
提供专业的程序化交易解决方案

线性回归前传:常用统计量的几何解释

本文介绍了几种常用统计量,包括方差、标准差、协方差、相关系数,的几何意义。

《趋势性回归分析与相关性回归分析》、《文华商品指数的相关性研究》、《alpha与beta》等文章已在路上,敬请关注。


本文的内容原计划安排在《线性回归分析的几何解释》中。但是,我发现不管怎么安排都会打乱前文的逻辑。所以将这些内容独立成文。

前文并没有对所有的逻辑展开解释。如果有疑惑,在本文中,你一定能找到答案。


 

二维平面内,两点之间的距离是向量,不能直接相加/减。

两点围成的矩形面积却是二维平面上的标量。

如果用面积表示两点之间的距离,我们就可以获得标量加/减的性质。

这些很好的性质能极大的简化问题的复杂程度。

 

协方差

( X¡ , Y¡ )是二维平面中的N个点。以中心点 ( E(X¡) , E(Y¡) ) 为原点建立坐标系,如上图。

这N个点分别与中心点 ( E(X¡) , E(Y¡) ) 围成一个矩形,面积为:

1

这N个矩形平均面积就是协方差:

2

协方差反映了点偏离中心点的总程度。

 

方差

X¡是N个一维数值。令Y¡=X¡,使一维度数据升到二维。如下图:

我们把X¡与自身的协方差称为方差:

3

 

标准差

虽然方差可以用来衡量一维数值的偏离程度,但它是二维数据。那么如何定义在一维上的偏离程度呢?

方法是开平方。

我们已经知道,方差的几何本质是面积。对面积开平方之后得到的是什么呢?

是这个面积对应正方形的边长。

开平方把二维的面积降到一维边长。

如果这个面积是N个矩形面积的均值,那么开平方后得到的正方形的边长就可以理解为是一种降维平均值。

所以,标准差是一维数据在一维上的平均偏离程度。

4

 

相关系数

( X¡ , Y¡ )是二维平面中的N个点。

X¡ 和 Y¡ 分别在一维上的平均偏离程度是其标准差。 X¡ 和 Y¡ 标准差的乘积表示二维的平均偏离程度。

5

我们已经知道, X¡ 和 Y¡ 的协方差也表示二维的平均偏离程度。

我们把这两种平均偏离程度的比例定义为 X¡ 与 Y¡ 的相关系数:

6

X¡ 与 Y¡ 线性相关性越高,这两个平均偏离程度越接近。

有兴趣的话,你可以算一下X¡ 与 自身的相关系数。

(正文完)

 

 

 

赞(0)
未经允许不得转载:文华程序化 » 线性回归前传:常用统计量的几何解释
分享到: (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

横冲直撞 一直到最远方