将技术分析进行到底
提供专业的程序化交易解决方案

线性回归分析的几何解释

本文从几何的角度介绍回归分析、回归系数、总偏差平方和、回归平方和、残差平方和,以及R^2。

常用统计量的几何解释》、《趋势性回归分析与相关性回归分析》、《文华商品指数的相关性研究》、《alpha与beta》等文章已在路上,敬请关注。


价格以趋势方式波动

价格以趋势方式波动是技术分析的前提假设之一。

一段时间内,如果价值从A上涨到B的路径是单调递增(递减)的,线性或非线性均可,那么它就是上涨(下跌)趋势。如果在这段时间内,价值既没有上涨也没有下跌,那么就没有趋势。

而价格的波动性,决定了价格轨迹与趋势并不重合,但是价格对趋势的偏离程度是稳定的。

现在的问题是,如果确定价值的趋势?

虽然不能明确的计算趋势,技术分析理论发明了趋势通道线这个工具。趋势通道线根据价格轨迹给出了趋势的上下界。

这种方法简单而有效,一直沿用至今。

 

从实践到理论

有没有可能从理论的角度更精确的定义趋势呢?

要解答这个问题,我们需要重新阐述一下问题。

已知价格在一段时间内的轨迹,基于价格围绕价值均匀波动的前提,我们希望确定价值轨迹,使得价格轨迹偏离价值轨迹的程度最小。

价值轨迹在时间上一定是线性的吗?

不一定,我们刚才说了,上涨(下跌)趋势,只要是单调递增(递减)的就可以。

但是,单调递增(递减)的非线性轨迹可以用线性来近似。这种近似可以极大的简化这个问题。

那么到底用什么方法呢?

回归分析(regression analysis)。这是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

这种方法可以在平面中,根据已知轨迹找到一条直线,使得已知轨迹均匀的分布在这条直线附近。

而且,已知轨迹对这条直线的偏离程度比对其他所有可能直线的偏离程度都小。

将该直线的方程记为:

1

其中x被称为自变量,y被称为因变量,b为回归系数。针对于前面提出的问题,x是时间,y是在该时间点上的价值。

那么现在的问题是,如何计算回归系数b。

假设我们已知的价格轨迹为Y¡,价值直线上的点为Y¡′。使得Y¡对Y¡′偏离程度最小的b就是我们需要的。

 

回归系数b的几何意义

假设( X¡,Y¡′ )是平面中在同一条直线y=a+bx上的N个点。

根据《常用统计量的几何解释》一文的逻辑,由于 X¡ 与 Y¡′ 完全线性相关,所以两种方法计算的二维平均偏离中心点 ( E(X¡) , E(Y¡′) ) 程度相等:

2

X¡ 与 Y¡′ 的一维偏离程度的比例就是b:

3

假设另一个序列 Y¡ 与 X¡ 定位的点分布在直线y=a+bx附近。

对于我们在前文提出的问题,Y¡ 与 X¡ 已知,Y¡′未知,要求b。但是,Y¡可以用Y¡′来近似估计。

所以,我们现在的思路是用Y¡′估计公式3中的分子。

( X¡,Y¡′ )的二维偏离程度,也就是( X¡,Y¡′ )与中心点( E(X¡),E(Y¡′) )的矩形面积的总和,近似等于( X¡,Y¡ )的二维偏离程度。

4

所以,Y¡′ 的一维平均偏离程度,也就是公式3的分子,等于:

5

X¡ 和 Y¡ 都是已知的,所以:

6

这里延伸一下,Y¡的一维平均偏离程度与Y¡′的一维平均偏离程度是什么关系?

这要从X¡与Y¡的相关系数入手。X¡与Y¡相关系数r的几何意义是:X¡ 、 Y¡′ 的二维总偏差程度与X¡、Y¡′的一维偏离程度乘积的比例。(参考《常用统计量的几何解释》)

7

由2、4、7可以得到:

8

再把8带入3,可以得到b的另一种计算公式:

9

熟悉资本资产定价模型的朋友可能会知道,这里的b就是我们常说的β。不熟悉的朋友也不用着急,我们以后会在《alpha与beta》一文中讲解。

最后,a也可以很容易得到:

10

 

偏差分析

接下来,我们来评价Y¡对Y¡′拟合度的高低。

11

总偏差平方和(又称总平方和,SST,Sum of Squaresfor Total):每个因变量的实际值(给定点的所有Y)与因变量平均值(给定点的所有Y的平均)的差的平方和,即,反映了因变量取值的总体波动情况。

12

回归平方和(SSR,Sum of Squares forRegression):因变量的回归值(直线上的Y值)与其均值(给定点的Y值平均)的差的平方和,即,它是由于自变量x的变化引起的y的变化,反映了y的总偏差中由于x与y之间的线性关系引起的y的变化部分,是可以由回归直线来解释的。

13

残差平方和(又称误差平方和,SSE,Sum of Squaresfor Error):因变量的各实际观测值(给定点的Y值)与回归值(回归直线上的Y值)的差的平方和,它是除了x对y的线性影响之外的其他因素对y变化的作用,不能由回归直线来解释的。

从面积分析,很容易得到下面的结论:

14

SSE越小,Y¡′对Y¡的拟合度越高,回归直线保留的因变量信息越多。

我们将SSR占SST的百分比定义为R²:

15

容易得出结论,R²∈[0,1]。

一元线性回归的R²就是自变量X与因变量Y的相关系数的平方。这也是很显然的。

(正文完)

 

 

 

赞(0)
未经允许不得转载:文华程序化 » 线性回归分析的几何解释
分享到: (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

横冲直撞 一直到最远方