一、前 言
在多元回归中,若自变量之间相关程度很高,将使最小二乘法失效,使得回归方程中参数变为不确定并无法求得参数的估计值。统计理论将这种现象称为多重共线性。由于多重共线性的存在,会削弱自变量对因变量的单独效应,甚至改变原自变量与因变量的经济关系,出现与实际经济意义不一致的结果,导致预测失败。如何检验及克服多重共线性现象是一件十分棘手的工作。对此曾有过一些报道,但实用性较差,笔者结合实例,运用通径分析方法对此问题得到满意的解决。
二、经济关系的多重共线性现象
经济关系的多重共线性最主要地表现为简单回归系数与偏回归系数符号相反,同时表现出不合实际的回归关系。现有某地区某历史时期某种消费品的销售量 (y) 与居民可支配收入( x 1 )该消费品的价格指数( x 2 ),社会保有量( x 3 ),其他消费的平均价格指数( x 4 )资料。运用通最小二乘法建立多元回归方程:
根据上述资料计算变量两两相关系数,得到相关系数矩阵下表。
表:相关系数矩阵表
|
X 1
|
X 2
|
X 3
|
X 4
|
Y
|
x 1
x 2
x 3
x 4
y
|
1
|
0.980356
1
|
0.988315
0.969962
1
|
0.987666
0.991796
0.969477
1
|
0.997733
0.975480
0.983359
0.988705
1
|
从上表可以看出,各自变量间相关系数都在 0.9 以上,必然导致多重共线性。根据上述五个变量间实际经济关系知道,居民可支配收入( x 1 )是影响销售量( y )的最主要因素;社会保有量( x 3 )应与销售量呈“负”联系,销售量减少一个单位,等于增加一个单位的社会保有量,而在多元回归中呈“正”联系,偏回归系数 b 3=0.015 ,与实际情况不符。
三、经济关系的通径分析
若 y 与 x 1,x 2,x 3,x 4
存在线性关系,回归方程为y=b 0+b 1x 1+b 2x 2+b 3x 3+b 4x 4
对其进行标准化处理,必有:其中 是标准化的因变量 y , 是标准化的自变量 x i, 是标准化的偏回归系数,称为通径系数。 简写成 P i 。 这样把一个多元线性回归方程转化为标准化的多元线性回归方程,它与多元回归相比,偏回归系数变成了不带单位且不改变原自变量与因变量联系的相对数。即通径系数,通径系数表示自变量对因变量的直接作用大小,在数值上可以相互对比,克服了偏回归系数带有名自单位无法对比的缺点。这样原求解偏回归系数方程组
标准化后,变为求解通径系数的方程组
这样可以把某一自变量 x i 与因变量 y 间的相关系数剖分成两部分:
(相关系数) = (直接效应) = (间接效应)
由此可以看出,某一自变量 x i 与因变量 y 间相关性取决于两个方面效应:一方面是通径系数 P i ,表示自变量对因变量的直接作用;另一方面取决于自变量 x i 通过其他自变量 x j 的联合作用,称间接作用。由上式可以解出通径系数。
由此可见,通径系数大小受该自变量与因变量相关系数与其他自变量相关性大小影响。若自变量间相关性很强,必然导致通径系数大小甚至符号发生变化。这就是多重共线性选成的结果。
按照上述理论,我们对上例进行通径分析,求解通径系数如下: P 1=0.821281 , P 2=-0.375785,P 3=0.045159 , P 4=0.506435 。其符号与多元回归中偏回归系数符号一致。由此证明通径分析的结果并没有改变原自变量与因变量的联系方向。同样证明影响销售量大小顺序为 x 1,x 4,x 2,x 3 。根据实际经济关系,社会保有量 x 3 应与销售量存在“负”联系,而却出现“正”的通径系数( P 3=0.045159 ),这与多元回归结论是一致的。现分析如下:
因为的组成是:
上述计算结果证明,造成社会保有量 x3 通径系数出现“正”值原因是 x 3 、 x 2 间相关性过高( r 32=0.969962 ),若 r 32 ≥ 0.6 ,则 P 3 ≤ -0.093831 。这说明 x 3 是引起多重共线性的原因。
四、逐步通径分析
通过以上分析,我们基本上可以判定造成多重共线性的原因是社会保有量 x 3 ,现运用逐步通径分析建立最优回归方程。
1 .计算各自变量标准化回归平方和。
计算公式: ,这样可以计算出 O 级平方和 。相比之下, 为最大,所以 x 1 首先被引入方程。经计算 F=1758.39 ,假设检验达到极显著水平( P<0.01 )。故 x 1 可以作为第一个自变量引入方程,当前方程为 。
2 .决定引入第二个自变量。
若 x 2 作为第二个自变量被引入方程,则 x 1 、 x 2 同时引入方程的标准化回归平方和 ;若 x 3 作为第二个自变量引入方程;则 x 1 、 x 3 同时引入方程的回归平方和 ;若 x 4 作为第二个自变量被引入方程,则 x 1 、 x 4 同时引入方程的回归平方和 。相比之下 为最大,因此决定 x 4 作为第二个自变量被引入方程。经计算 F=850.99 ,达到极显著水平( P<0.01 )。那么,由于 x 4 引入方程对于刚刚引入方程的 x 1 是否有影响?是否会削弱 x 1 对 y 的影响?所以再对 x 1 作检验。 X 1 的偏回归平方和 ,(此时 ),计算 F=31.39 ,达到极显著水平( P<0.01 )。说明对 x 1 影响不大, x 1 仍然可以保留在方程中,当前方程为 。
3 .决定引入第三个自变量。
若 x 2 作为第三个自变量被引入方程,则 x 1 、 x 4 、 x 2 同时引入方程的平方和 ;若 x 3 作为第三个自变量被引入方程, 。相比之下, 较大,因此决定 x 2 作为第三个自变量被引入方程。经计算 F=983.71 ,达到极显著水平( P<0.01 )。同样要检验由于 x 2 的引入是否对刚引入方程的 x 4 有影响 , 对 x 4 的偏回归平方和进行检验。经计算 F=6.85 ,达到显著水平( P<0.05 )。困此 x 2 可以用为第三个自变量引入方程,当前方程为 。
x 1 、 x 4 、 x 2 、 x 3 同时引入方程的回归平方和 。经计算 F=625.63 ,达到极显著水平( P<0.01 )。同样要检验由于 x 3 引入方程后对刚引入方程 x 2 有否影响,检验 x 2 的偏回归平方和。经计算 F=4.86 ,没有达到显著水平( P>0.05 ),这说明 x 3 不能被引入方程。至此逐步通径分析结束。这样就把引起多重共线性变量弃留在回归方程之外。回归方程 。
五、结论
通径系数是介于回归系数与相关系数之间的统计量。标准化后去掉了单位,彼此可以相互比较,以绝对值大小反映各自变量对因变量的影响程度。在此例中,从绝对值上看,居民可支配收入 x 1 是影响销售量的最主要因素,其次是 x 4 ,再次是 x 2 ,实际经济关系也正是如此;通过对经济关系进行通径分析可以把一个自变量与因变量之间关系剖分成两部分。从而找出引起多重共线性的因素,为逐步通径分析决定取舍自变量作了充分的准备。在本例中,通径分析时就发现 x 3 是引起多重共线性的变量,逐步通径分析时正好舍去 x 3 ;用逐步通径分析来选择最优回归方程,删剔造成多重共线性的变量。因此逐步通径分析融合了通径分析与回归分析二者优点。一方面计算了通径系数,确定自变量在回归方程中相对重要性;同时又能查找引起多重共线性的原因;另一方面选择了“最优”回归方程。
发表于《数理统计与管理》增刊一九九一年十一月 第 103 页
|