📄 偏最小二乘回归方法及其应用.htm
字号:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<!-- saved from url=(0047)http://www.sg.pku.edu.cn/yubin/sub/partial.html -->
<HTML><HEAD><TITLE>偏最小二乘回归方法及其应用</TITLE>
<META http-equiv=Content-Type content="text/html; charset=gb_2312-80">
<META content="MSHTML 6.00.2800.1498" name=GENERATOR></HEAD>
<BODY><FONT lang=ZH-CN face=宋体 size=5>
<P align=center>偏最小二乘回归方法及其应用</P></FONT><FONT lang=ZH-CN face=宋体>
<P align=center>王惠文著</P></FONT><FONT lang=ZH-CN face=宋体 size=3>
<P align=center>国防工业出版社</FONT><FONT size=3>1999</FONT><FONT lang=ZH-CN face=宋体
size=3>年版</P>
<P align=center> </P>
<P align=justify>偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析</P></FONT><FONT size=3>
<P align=justify></FONT><FONT lang=ZH-CN face=宋体
size=3>与传统多元线性回归模型相比,偏最小二乘回归的特点是:(</FONT><FONT size=3>1</FONT><FONT lang=ZH-CN
face=宋体 size=3>)能够在自变量存在严重多重相关性的条件下进行回归建模;(</FONT><FONT size=3>2</FONT><FONT
lang=ZH-CN face=宋体 size=3>)允许在样本点个数少于变量个数的条件下进行回归建模;(</FONT><FONT
size=3>3</FONT><FONT lang=ZH-CN face=宋体
size=3>)偏最小二乘回归在最终模型中将包含原有的所有自变量;(</FONT><FONT size=3>4</FONT><FONT lang=ZH-CN
face=宋体 size=3>)偏最小二乘回归模型更易于辨识系统信息与噪声(甚至一些非随机性的噪声);(</FONT><FONT
size=3>5</FONT><FONT lang=ZH-CN face=宋体
size=3>)在偏最小二乘回归模型中,每一个自变量的回归系数将更容易解释。</P>
<P align=justify>在计算方差和协方差时,求和号前面的系数有两种取法:当样本点集合是随机抽取得到时,应该取</FONT><FONT
size=3>1/(n-1)</FONT><FONT lang=ZH-CN face=宋体
size=3>;如果不是随机抽取的,这个系数可取</FONT><FONT size=3>1/n</FONT><FONT lang=ZH-CN face=宋体
size=3>。</P>
<P align=justify> </P></FONT><B><FONT lang=ZH-CN face=宋体>
<P align=justify>多重相关性的诊断</P></FONT><FONT face=Arial size=3>
<P align=justify>1 </FONT><FONT lang=ZH-CN face=黑体
size=3>经验式诊断方法</P></B></FONT><FONT size=3>
<P align=justify>1</FONT><FONT lang=ZH-CN face=宋体
size=3>、在自变量的简单相关系数矩阵中,有某些自变量的相关系数值较大。</P></FONT><FONT size=3>
<P align=justify>2</FONT><FONT lang=ZH-CN face=宋体
size=3>、回归系数的代数符号与专业知识或一般经验相反;或者,它同该自变量与</FONT><FONT size=3>y</FONT><FONT
lang=ZH-CN face=宋体 size=3>的简单相关系数符号相反。</P></FONT><FONT size=3>
<P align=justify>3</FONT><FONT lang=ZH-CN face=宋体
size=3>、对重要自变量的回归系数进行</FONT><FONT size=3>t</FONT><FONT lang=ZH-CN face=宋体
size=3>检验,其结果不显著。</P>
<P align=justify>特别典型的是,当</FONT><FONT size=3>F</FONT><FONT lang=ZH-CN face=宋体
size=3>检验能在高精度下通过,测定系数</FONT><FONT size=3>R<SUP>2</SUP></FONT><FONT lang=ZH-CN
face=宋体 size=3>的值亦很大,但自变量的</FONT><FONT size=3>t</FONT><FONT lang=ZH-CN face=宋体
size=3>检验却全都不显著,这时,多重相关性的可能性将很大。</P></FONT><FONT size=3>
<P align=justify>4</FONT><FONT lang=ZH-CN face=宋体
size=3>、如果增加(或删除)一个变量,或者增加(或删除)一个观测值,回归系数的估计值发生了很大的变化。</P></FONT><FONT size=3>
<P align=justify>5</FONT><FONT lang=ZH-CN face=宋体
size=3>、重要自变量的回归系数置信区间明显过大。</P></FONT><FONT size=3>
<P align=justify>6</FONT><FONT lang=ZH-CN face=宋体
size=3>、在自变量中,某一个自变量是另一部分自变量的完全或近似完全的线性组合。</P></FONT><FONT size=3>
<P align=justify>7</FONT><FONT lang=ZH-CN face=宋体
size=3>、对于一般的观测数据,如果样本点的个数过少,样本数据中的多重相关性是经常存在的。</P>
<P
align=justify>但是,采用经验式方法诊断自变量系统中是否确实存在多重相关性,并不十分可靠,另一种较正规的方法是利用统计检验(</FONT><FONT
lang=ZH-CN face=宋体 color=#0000ff size=3>回归分析</FONT><FONT lang=ZH-CN face=宋体
size=3>),检查每一个自变量相对其它自变量是否存在线性关系。</P></FONT><B><FONT face=Arial size=3>
<P align=justify>2 </FONT><FONT lang=ZH-CN face=黑体
size=3>方差膨胀因子</P></B></FONT><FONT lang=ZH-CN face=宋体 size=3>
<P align=justify>最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量</FONT><B><FONT
size=3>x</B><SUB>j</SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>的方差膨胀因子记为(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>,它的计算方法为</P>
<P align=justify>(</FONT><FONT size=3>4-5</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3> </FONT><FONT lang=ZH-CN face=宋体
size=3>(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUB><FONT size=3>j</SUB> =</FONT><FONT lang=ZH-CN face=宋体
size=3>(</FONT><FONT size=3>1-R<SUB> j</SUB><SUP>2</SUP></FONT><FONT lang=ZH-CN
face=宋体 size=3>)</FONT><SUP><FONT size=3>-1</P></SUP></FONT><FONT lang=ZH-CN
face=宋体 size=3>
<P align=justify>式中,</FONT><FONT size=3>R<SUB> j</SUB><SUP>2</SUP></FONT><FONT
lang=ZH-CN face=宋体 size=3>是以</FONT><B><FONT size=3>x</B><SUB>j</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>为因变量时对其它自变量回归的复测定系数。</P>
<P align=justify>所有</FONT><B><FONT size=3>x</B><SUB>j</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>变量中最大的(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN
face=宋体 size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>通常被用来作为测量多重相关性的指标。一般认为,如果最大的(</FONT><FONT size=3>VIF</FONT><FONT
lang=ZH-CN face=宋体 size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>超过</FONT><FONT size=3>10</FONT><FONT lang=ZH-CN
face=宋体 size=3>,常常表示多重相关性将严重影响最小二乘的估计值。</P>
<P align=justify>(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUB><FONT size=3>j</SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>被称为方差膨胀因子的原因,是由于它还可以度量回归系数的估计方差与自变量线性无关时相比,增加了多少。</P>
<P align=justify>不妨假设</FONT><B><FONT
size=3>x</B><SUB>1</SUB>,<B>x</B><SUB>2</SUB>,…,<B>x</B><SUB>p</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>均是标准化变量。采用最小二乘法得到回归系数向量</FONT><FONT
size=3>B</FONT><FONT lang=ZH-CN face=宋体 size=3>,它的精度是用它的方差来测量的。</FONT><FONT
size=3>B</FONT><FONT lang=ZH-CN face=宋体 size=3>的协方差矩阵为</P></FONT><FONT size=3>
<P align=justify>Cov(<B>B</B>)= </FONT><FONT lang=ZH-CN face=宋体
size=3>σ</FONT><SUP><FONT size=3>2</SUP> (X'X)<SUP>-1</P></SUP></FONT><FONT
lang=ZH-CN face=宋体 size=3>
<P align=justify>式中,σ</FONT><SUP><FONT size=3>2</SUP></FONT><FONT lang=ZH-CN
face=宋体 size=3>是误差项方差。所以,对于回归系数</FONT><FONT size=3>b<SUB> j</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>,有</P></FONT><FONT size=3>
<P align=justify>Var(b<SUB> j</SUB>)= </FONT><FONT lang=ZH-CN face=宋体
size=3>σ</FONT><SUP><FONT size=3>2</SUP>c<SUB>jj</P></SUB>
<P align=justify>c<SUB>jj</SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>是</FONT><FONT size=3>(X'X)<SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋体
size=3>矩阵中第</FONT><FONT size=3>j</FONT><FONT lang=ZH-CN face=宋体
size=3>个对角元素。可以证明,</P></FONT><FONT size=3>
<P align=justify>c<SUB>jj</SUB> =</FONT><FONT lang=ZH-CN face=宋体
size=3>(</FONT><FONT size=3>VIF</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUB><FONT size=3>j</P></SUB></FONT><B><FONT lang=ZH-CN face=宋体>
<P align=justify>岭回归分析</P></FONT><FONT face=Arial size=3>
<P align=justify>1 </FONT><FONT lang=ZH-CN face=黑体
size=3>岭回归估计量</P></B></FONT><FONT lang=ZH-CN face=宋体 size=3>
<P
align=justify>岭回归分析是一种修正的最小二乘估计法,当自变量系统中存在多重相关性时,它可以提供一个比最小二乘法更为稳定的估计,并且回归系数的标准差也比最小二乘估计的要小。</P>
<P
align=justify>根据高斯——马尔科夫定理,多重相关性并不影响最小二乘估计量的无偏性和最小方差性。但是,虽然最小二乘估计量在所有线性无偏估计量中是方差最小的,但是这个方差却不一定小。于是可以找一个有偏估计量,这个估计量虽然有微小的偏差,但它的精度却能够大大高于无偏的估计量。</P>
<P align=justify>在应用岭回归分析时,它的计算大多从标准化数据出发。对于标准化变量,最小二乘的正规方程为</P></FONT><FONT
size=3>
<P
align=justify><B>r</B><SUB>XX</SUB><B>b</B>=<B>r</B><SUB>yX</P></SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>
<P align=justify>式中,</FONT><B><FONT size=3>r</B><SUB>XX</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>是</FONT><B><FONT size=3>X</B></FONT><FONT lang=ZH-CN
face=宋体 size=3>的相关系数矩阵,</FONT><B><FONT size=3>r</B><SUB>yX</SUB></FONT><FONT
lang=ZH-CN face=宋体 size=3>是</FONT><B><FONT size=3>y</B></FONT><FONT lang=ZH-CN
face=宋体 size=3>与所有自变量的相关系数向量。</P>
<P align=justify>岭回归估计量是通过在正规方程中引入有偏常数</FONT><FONT size=3>c</FONT><FONT
lang=ZH-CN face=宋体 size=3>(</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋体
size=3>≥</FONT><FONT size=3>0</FONT><FONT lang=ZH-CN face=宋体
size=3>)而求得的。它的正规方程为</FONT><FONT size=3>+</P></FONT><FONT lang=ZH-CN face=宋体
size=3>
<P align=justify>(</FONT><FONT size=3>4-8</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3> </FONT><FONT lang=ZH-CN face=宋体
size=3>(</FONT><B><FONT size=3>r</B><SUB>XX</SUB>+ c<B>I</B></FONT><FONT
lang=ZH-CN face=宋体 size=3>)</FONT><B><FONT size=3>
b</B><SUP>R</SUP>=<B>r</B><SUB>yX</P></SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>
<P align=justify>所以,在岭回归分析中,标准化回归系数为</P>
<P align=justify>(</FONT><FONT size=3>4-9</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3> <B>b</B><SUP>R</SUP> =</FONT><FONT lang=ZH-CN
face=宋体 size=3>(</FONT><B><FONT size=3>r</B><SUB>XX</SUB>+ c<B>I</B></FONT><FONT
lang=ZH-CN face=宋体 size=3>)</FONT><SUP><FONT size=3>-1</SUP><B>
r</B><SUB>yX</P></SUB></FONT><B><FONT face=Arial size=3>
<P align=justify>2 </FONT><FONT lang=ZH-CN face=黑体
size=3>岭回归估计量的性质</P></B></FONT><FONT size=3>
<P align=justify></FONT><FONT lang=ZH-CN face=宋体 size=3>(</FONT><FONT
size=3>1</FONT><FONT lang=ZH-CN face=宋体 size=3>)岭回归系数是一般最小二乘准则下回归系数的线性组合,即</P>
<P align=justify>(</FONT><FONT size=3>4-10</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3> <B>b</B><SUP>R</SUP> =</FONT><FONT lang=ZH-CN
face=宋体 size=3>(</FONT><B><FONT size=3>I</B>+
c<B>r</B><SUB>XX</SUB><SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUP><FONT size=3>-1</SUP><B>b</P></B></FONT><FONT lang=ZH-CN
face=宋体 size=3>
<P align=justify>(</FONT><FONT size=3>2</FONT><FONT lang=ZH-CN face=宋体
size=3>)记<B>β</B>是总体参数的理论值。当<B>β≠</B></FONT><FONT size=3>0</FONT><FONT
lang=ZH-CN face=宋体 size=3>时,可以证明一定存在一个正数</FONT><FONT
size=3>c<SUB>0</SUB></FONT><FONT lang=ZH-CN face=宋体 size=3>,使得当</FONT><FONT
size=3>0< c< c<SUB>0</SUB></FONT><FONT lang=ZH-CN face=宋体
size=3>时,一致地有</P>
<P align=justify>(</FONT><FONT size=3>4-11</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3> E||<B> b</B><SUP>R</SUP><B> -</FONT><FONT
lang=ZH-CN face=宋体 size=3>β</B></FONT><FONT size=3>||<SUP>2</SUP></FONT><FONT
lang=ZH-CN face=宋体 size=3>≤</FONT><FONT size=3> E||<B> b -</FONT><FONT
lang=ZH-CN face=宋体 size=3>β</B></FONT><FONT size=3>||<SUP>2</P></SUP>
<P align=justify></FONT><FONT lang=ZH-CN face=宋体 size=3>(</FONT><FONT
size=3>3</FONT><FONT lang=ZH-CN face=宋体 size=3>)岭回归估计量的绝对值常比普通最小二乘估计量的绝对值小,即</P>
<P align=justify>(</FONT><FONT size=3>4-12</FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3> ||<B> b</B><SUP>R</SUP><B> </B>||<||<B> b
</B>||</P></FONT><FONT lang=ZH-CN face=宋体 size=3>
<P align=justify>岭回归估计量的质量取决于偏倚系数</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN
face=宋体 size=3>的选取。</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋体
size=3>的选取不宜过大,因为</P></FONT><FONT size=3>
<P align=justify>E</FONT><FONT lang=ZH-CN face=宋体 size=3>(</FONT><B><FONT
size=3>b</B><SUP>R</SUP></FONT><FONT lang=ZH-CN face=宋体 size=3>)</FONT><FONT
size=3>=</FONT><FONT lang=ZH-CN face=宋体 size=3>(</FONT><B><FONT size=3>I</B>+
c<B>r</B><SUB>XX</SUB><SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUP><FONT size=3>-1</SUP> E<B> </B></FONT><FONT lang=ZH-CN
face=宋体 size=3>(</FONT><B><FONT size=3>b</B></FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><FONT size=3>=</FONT><FONT lang=ZH-CN face=宋体
size=3>(</FONT><B><FONT size=3>I</B>+
c<B>r</B><SUB>XX</SUB><SUP>-1</SUP></FONT><FONT lang=ZH-CN face=宋体
size=3>)</FONT><SUP><FONT size=3>-1</SUP></FONT><B><FONT lang=ZH-CN face=宋体
size=3>β</P></B>
<P align=justify>关于偏倚系数</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋体
size=3>的选取尚没有正规的决策准则,目前主要以岭迹和方差膨胀因子为依据。<B>岭迹</B>是指</FONT><FONT
size=3>p-1</FONT><FONT lang=ZH-CN face=宋体 size=3>个岭回归系数估计量对不同的</FONT><FONT
size=3>c</FONT><FONT lang=ZH-CN face=宋体 size=3>值所描绘的曲线(</FONT><FONT
size=3>c</FONT><FONT lang=ZH-CN face=宋体 size=3>值一般在</FONT><FONT
size=3>0~1</FONT><FONT lang=ZH-CN face=宋体
size=3>之间)。在通过检查岭迹和方差膨胀因子来选择</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋体
size=3>值时,其判断方法是选择一个尽可能小的</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋体
size=3>值,在这个较小的</FONT><FONT size=3>c</FONT><FONT lang=ZH-CN face=宋体
⌨️ 快捷键说明
复制代码
Ctrl + C
搜索代码
Ctrl + F
全屏模式
F11
切换主题
Ctrl + Shift + D
显示快捷键
?
增大字号
Ctrl + =
减小字号
Ctrl + -