动物性状多重共线性是指多元回归中自变量间存在着高度相关性。导致自变量与因变量间的回归关系发生改变。失去自变量与因变量间原有的生物学意义。本文选择奶牛 305 天产奶量( y )与最高日产出现天数( X 1 )。最高月产奶量( X 2 )、 90 天产奶量( X 3 )、最高日产奶量( X 4 )及 30 天产奶量( X 5 )六个性状资料。运用通径分析原理与方法阐述动物性状多重共线性的存在及产生的原因。并进行逐步通径分析建立最优回归方程。把引起多重共线性的自变量弃留在回归方程之外。从而达到科学预测之目的。
一、动物性状多重共线性现象
动物性状多重共线性主要表现在简单回归系数和偏回归系数符号相反。同时表现不合实际的回归系数。下面结合实例加以说明。
资料取自辽宁省锦州市种畜场黑白花奶牛产奶记录。对上这六个性状。采用普通最小二乘法建立回归方程。
=-2430.97+31.45X 1-28.23X 2+17.97X 3+484.35X 4-34.48X 5
从上述回归方程可以看出:最高日产奶出现天数( X 1 )增加一个单位。 305 天产奶量( y )增辑 3145 单位。即产奶高峰出现越晚。对 305 天产奶量越有利。最高月产奶量( X 2 )增加一个单位。 305 天产奶量( y )减少 28.23 单位。即最高月产对 305 天产奶量有不利的影响。以上两点与实际情况不符。奶牛实践证明。产奶高峰出现越早越好。希望产奶高峰早日到来,最高月产奶量对 305 天产奶量极为有利,必然表现“正”联系。
二、动物性状多重共线性的剖分
根据通径分析原理。我们可以建立如下正规方程组。
根据原始资料可计算变量间两两简单相关系数列表如下。并代上式求解出各通径系数。
各性状相关矩阵表
性状
|
X 1
|
X 2
|
X 3
|
X 4
|
X 5
|
X 6
|
最高日产出现天数( X 1 )
|
1000000
|
-0.124277
|
-0.165490
|
-0.247799
|
-0.147389
|
-0.156218
|
最高月产级量( X 2 )
|
|
1000000
|
0.974023
|
0.955942
|
0.868542
|
0.725604
|
90 天产奶量( X 3 )
|
|
|
1000000
|
0.948920
|
0.918385
|
0.727383
|
最高日产奶量( X 4 )
|
|
|
|
1000000
|
0.884237
|
0.688403
|
30 天产奶量( X 5 )
|
|
|
|
|
1000000
|
0.556947
|
Py · x 1=0.041534 。 Py · x 2=-0.449499 。 Py · x 3=1.250212 。 Py · x 4=0.620192 。 Py · x 5=-0.725743 。其符号与偏回归系数一致。
我们知道。一个现象原因与结果的关系可以剖分成直接原因与间接原因。即:
所以,必然有:
根据这个原理我们可对上述几个不合理的通径系数其组成加以剖分。
x 1 对 y 的通径系数 Py · x 1=0.041534 的组成。
x 2 对 y 的通径系数 Py · x 2=-0.449449 的组成。
=0.725604-[(-0.124277)×0.041534+0.974023×1.250212+0.955942×0.620192+ 0.868542×(-0.725743)]=-0.449449
以上剖分可以看出。通径系数(或偏回归系数)受两方面因素影响。一是该自变量与因变量间相关系数的大小。一是该自变量与其他自变量相关系数大小。因此,不能孤立看待一个通径系数。 x 对 y 的通径系数 Py · x 1=0.041534 ,而二者相关系数 rx 1y=-0.156218 。一个是“正”值,一个是“负”值。按照过去通径系数理论分析。 x 1 对 y 的直接作用是“正”值。其实这并不够全面。而且与事实相反。造成“正”值通径系数原因是, x 1 与 x 2 。 x 4 存在负相关。原有 x 1y 相关系数量“负”值再减去一个比自己大的“负”数。必然表现为“正”数。 x 1 与 y 间真实关系一定是“负”的, x 2 对 y 的通径系数 Py · x 2=-0.449449 。而 rx 2y=0.725604 同样是一正一负。这是因为 x 2 与 x 3 、 x 4 耻辱在较高正相关( rx 2x 3=0.974023 。 rx 3x 4=0.955942 )。原 x 2y 相关系数的“正”值减去 1 一个比自己大的“正”值必然出现一个“负”数。这种现象称 x 2 与 x 3 。 X 4 存在“共线性”。即是由于多重共线性造成 x 2 对 y 的通径系数 Py · x 2=-0.449449 与实际情况不符的原因。
因为通径系数符号与相应偏回归系数符号一致。所以上述对 Py · x 1 。 Py · x 2 解释同样适合 b 1=31.45 。 b 2=-28.23 。这就是多重共线性造成的结果。
三、逐步通径分析
动物性状中多重共线性解决办法尚未见过报道。这里采用逐步通径分析法加以解决。其步骤如下。
1 .计算各自变量标准化回归平方和
计算公式: 。则 。 。 。 。
2 .挑选平方和最大者引入方程。并作显著性检验。
上述平方和。 为最大。所以 x 2 首先被引入方程。离回归平方和 。进行 F 检验:
因为 F 0.01(1.28)=7.68 < F=31.46 。所以达到极显著水平( P<0.01 )。因此 X 2 可以作为第一个自变量被引入方程此时回归方程为 。
8 .决定引入第二个自变量
若 X 1 作为第二个自变量被引入方程。则 x 1x 2 同时引入方程的标准化回归平方和 ;若 X a 作为第二个自变量被引入方程。则 x 2x 3 同时引入方程的标准化回归平和 若 X 4 作为第二个自变量被引入方程。则 x 3x 4 同时被引入方程的标准化回归平方和 。若 X 5 作为第二个自变量被引入方程。则 X 2X 5 同时被引入方程的标准化回归平方和 相比较之下。 X 2X 5 同时引入方程平方和为最大。所以决定 X 5 应作为第二个自变量被引入方程。现在对 X 3X 5 的回归平方和进行检验。
离回归平方和 。
。因为 F 0.01(22)=5.49 。所以 F 值达到极显著水平( P<0.01 )那么, X 5 作为第二个自变量后,对先引入方程的 X 3 有什么影响?还要检验 X 3 的偏回归平方和: 。 。因为 F 0.05(1 , 27)=4.21 。所以 F 值达到显著水平( P<0.05 )。这说明 X 2 仍然可以保留在方程中。此方程为 。
4 .决定引入第三个自变量
若 x 1 作为第三个自变量被引入方程,则 x 1 、 x 3 、 x 5 同时引入方程的平方和 ;若 X 2 作为第三个自变量被引入方程。则 X 1X 2X 5 同时引入方程的平方和 ;若 X 4 作为第三个自变量被引入方程。则 X 3X 4X 5 同时被引入方程的平方和 。相比之下。 较大。所以决定 X 作为第三个自变量被引入方程。现在对 X 1X 2X 5 同时引入方程平方和作检验。离回归平方和 。 。因为 F 0.01(3.26)=4.64 。所以 F 值达到极显著水平( P<0.01 )。由于 X 作为第三个自变量被引入方程。对先生引入方程 X 3X 5 有可影响?还要检验 X 2X 5 同时引入方程的平方和 。 。这说明 X 1 的引入会削弱 X 3X 5 对 y 的作用。因此 X 1 不能被引入方程。至此逐步通径分析结果。只有 X 3X 5 被引入方程。其它自变量弃留之外。此时回归方程 。
四、讨论
1 .通过分析结果。最高日产量( X 1 )对 y 通径系数 P y · xj =0.041534 其符号与偏回归系数一致( b 1=31.45 )。表明 X 1 与 y 呈现正联系。这是一种表面现象。是因为 x 1 与其它自变量均为负相关造成的。 X 1 与 y 间简单相关系数 r x,y=-0.156218 才是二者真实的关系。这样才与实际情况相吻合。
2 .最高月产( X 2 )与 y 间呈现负相关。完全是由于 X 2 与 X 3 、 X 4 、 X 5 间多重共线性造成的。其简单相关系数 r x,y=0.725604 才是二者真实关系。在逐步通径分析中。 X 2X 3 组成方程求 X 2 对 y 的通径系数 。是因为 X 2X 3 相关性过高( )。在选择变量引入方程时,只能取其之一,先引 X 2 进入方程。 X 3 就得放弃。而先引入了 X 2 则必然放弃 X 3 。这也是逐步通径分析优点之外。
3 . X 3X 4 间相关性也较高( )。同样表现多重共线性。因此在决定引入第二个自变量时同样被舍去。用 X 3 代替了 X 4 。相反 X 4 与 X 5 的相关系数( )在 X 3 与 X 5 。 X 4 、 X 5 相关性之中为最小者。因此第二个被引入方程。并通过显著性检验。这说明 X 2 与 X 4 。 X 4 、 X 5 之间存在着严重的共线性, X 3 与 X 5 之间较轻。
4 .决定第三个自变量被引入方程时。 X 3X 5 可与 X 2 、 X 3X 4 分别组合成三个方程。因 X 2X 5 与 X 4 、 X 2 存在着多重共线性。只有 X 1 此时具备进入方程的条件,但 X 1 对 y 有不那么重要。所以未能通过显著性检验。
5 .在 X 1 、 X 2 、 X 3 、 X 4 、 X 5 五性状只引入 X 3 和 X 5 进入方程。这并不是等于其他自变量不重要。只是因为多重共线性限制才这样做的。当然也可根据研究目的确定自变量的舍取。若研究问题的重点是分析 X 2 、 X 4 与 y 间数量变动规律。同样可以舍去 X 3 和 X 4 而留下 X 2 和 X 4 。这就是说不应该机械应用统计方法。应作到具体问题具体分析。使统计方法为我们服务。
6 . X 5 是一个早期性状,表面上看来 X 5 与 y 是正相关( r x,y=0.556947 )。而在各次通径分析中均为匀为负值。 X 2X 5 组成方程中 ;在 X 3X 5 组成方程中 ,在 X 4X 5 组成方程中 。只有在 X 1X 5 组成方程中 。这是因为 X 1X 5 呈负相关( )。在 X 1X 3X 5 组成方程中 ;在 X 2X 3X 5 组成方程中 ;在 X 3X 4X 5 组成方程中 。通过两个变量逐步通径分析与三个变量通径分析 X 5 均表现负值。表明 X 5 与 y 间真正联系应为“负”值。因此不亦作为选种早期性状。从另一方面考虑。 30 天产奶量。一般还没有达到产奶高峰。不够移定。变异程度较大( 公斤。 C.V=19.63% )。而 90 天产奶量较为稳定( 公斤。 C.V=17.62% )。可作为早期性状进行育种。
7 .为了确切查清各性状之间关系,可作进一步分析,即进行两个自变量间两两分析;三个自变量间分析;四个自变量间分析;五个自变量与因变量间分析等。这样可组成 , 26 个正规方程组。求出若干通径系数,从理论和实际中作出正确判断。
农业部农经学院,河北廊坊市( 105849 )
沈阳农业大学,辽宁沈阳市东陵( 110161 )
发表于《中国畜禽遗传育种进展》第 102 页
|