第三章多元线性回归模型_应用计量经济学-QQ阅读女频现言网

上QQ阅读APP看书，第一时间看更新

第三章多元线性回归模型

在现实经济问题的讨论中，只有少数被解释变量能被一个解释变量很好地解释。例如：一个人的体重，不仅受到身高的影响，骨骼结构、人体脂肪含量、锻炼习惯以及饮食习惯等对体重均有影响，那它们对体重的影响又如何呢？在研究体重问题时，补充更多的解释变量能更好地解释体重的变化规律。同样，在经济领域中，一个变量如商品的需求数量受价格的影响，但不是全部，其他诸如广告支出、人们的收入水平以及相关商品的价格、偏好和预期等都很重要。因此，我们有必要从简单线性回归到多变量回归模型，采用多个解释变量分析我们感兴趣的经济问题是十分必要的。

第一节使用多元回归的动因

我们先用几个简单的例子来说明，如何用多元回归分析来解决简单回归所不能解决的问题。

先看一个小时工资的例子，我们引入教育对工资的影响建立了简单线性回归模型

参数β1 度量了在其他条件不变的条件下，教育对工资的影响。但在简单回归中我们把非显性影响因素放入了随机误差项中，并作出假定。事实上，工作经历也会影响工资水平，我们在简单回归分析中，把该影响放在随机误差项中；并且工作经历和受教育水平无关，即随机误差项与解释变量无关，这是一个很脆弱的假定，从而对导致用OLS法估计出来的参数有误。

第二个例子考虑高中阶段每个学生的平均开支对考试成绩的影响。建立简单线性回归模型如下：

我们关心系数β1，它说明了在其他条件不变的情况下，平均支出对考试成绩的影响。其他影响考试成绩的因素被包含在随机误差项中，例如学校的奖学金、平均家庭收入等因素。而平均家庭收入与平均支出很大程度上相关，从而使该模型不符合经典假设条件，用OLS法估计出来的参数值有偏误，失去意义。

在前面的两个例子中，我们已经说明如果想把其他可测因素也包括在回归模型中。含有两个自变量的模型写成：

式中，β0 为截距；β1 度量了在其他条件不变情况下Y 相对X1 的变化；β2 则度量了在其他不变的情况下Y相对X2 的变化。

一旦开始多元回归，就没有必要局限于两个自变量。多元回归分析允许多个可观测因素影响Y。在上述工资例子中，还可以包括在职培训的数量、现任工作的任职、个人能力的某种度量，甚至是兄弟姐妹的个数或母亲受教育程度等人口变量。在学校基金的例子中，额外的变量可能包括对教师质量和学校规模的某种度量。

一一般多元线性回归模型系数的含义

一般的多元线性回归模型在总体中可以写成

式中，β0 为截距；β1 为与X1 相联系的参数；β2 为与X2 相联系的参数，等等。由于有k个自变量和一个截距项，所以方程包含了k+1（未知的）个总体参数。Y是应变量，Xi是解释变量，μi是随机误差项，βi为偏回归系数。

偏回归系数的含义：β1 度量了在保持其他解释变量不变的情况下，X1 每变化一个单位时，Y的条件均值的变化。

例3-1：大学GPA的决定因素（选自《计量经济学导论：现代观点》）

样本是从一所规模较大的大学选取的141名学生的大学平均成绩（colGPA）、高中的平均成绩（hsGPA）和大学能力测试分数（ACT）；大学和高中的GPA都采用四分制。我们得到如下的OLS法估计的回归模型：

我们该如何解释这个方程呢？

首先，截距项为1.29，表示在hsGPA和ACT成绩都为零时预测大学GPA为1.29，其实该项没有什么意义。

colGPA的系数表示，保持ACT不变，如果hsGPA提高1分，则大学GPA会提高0.453分。换句话说，如果我们选择A和B同学，其ACT成绩相同，但A的hsGPA比学生B高出1分，那么，我们预计A的大学GPA将比学生B高0.453分。

ACT的系数表示，在保持hsGPA不变时，ACT分数变化10分，对colGPA的影响还不到1/10分。这个影响很小，在以后讨论统计检验后，我们将证明，ACT的系数在统计上不显著。

二受控实验：保持其他因素不变，单个变量对因变量的影响

多元回归分析能使我们在非实验环境中去做自然科学家在受控实验中所能做的事情：保持其他因素不变。

在GPA的例子中，ACT的系数所度量的是在保持hsGPA不变的情况下，预期ACT对colGPA的影响。多元回归所得到的解释变量的系数可以做其他条件不变的解释，在经济学研究中，很难获得其他变量不变时某些变量的数据，或者说在大学抽样时我们几乎不可能获得hsGPA受限制的随机样本。如果能搜集到hsGPA相同的样本，就可以对这个观测数据做一个colGPA对ACT的简单回归分析。事实上，数据来自一所大学的随机样本，在获得数据过程中，对hsGPA和ACT都没有施加任何限制。多元线性回归可以有效模拟对自变量的值限制的分析。

三多个自变量同时改变对因变量的影响

有时预测一个以上自变量同时变化，对因变量的影响。

例3-2：小时工资方程（选自《计量经济学导论：现代观点》）

对工人的526个观测数据，在解释工资（wage）变异的方程中包括了educ（受教育年限）、exper（在劳动市场上的工作经历）和tenure（现职的任期）。估计的方程为：

在讨论一个人在同一企业多待一年，即工作经历exper和工作年数tenure都增加一年，估计对工资的影响时（保持educ不变的情况下），总影响是0.0041+0.022 ＝0.0261或2.6%，由于exper和tenure都增加一年，所以只要把它们的系数相加并乘以100（对于对数模型来说，系数可作百分比解释），就得到了总影响的百分数。

四简单回归与多元回归估计值的比较

如果将Y对X1 的简单回归和Y对X1 和X2 作多元回归写作：

在两种特殊情况下，Y对X1 的简单回归所得到的回归估计值，等于将Y对X1 和X2 作多元回归时所得到的X1 的偏回归估计值。

（1）样本中X2 对Y的局部影响为零，即；

（2）样本中X1 和X2 不相关。

一般情况下，我们看下面的例子对比简单回归与多元回归估计值。

例3-3: 401养老金方案的参与（选自《计量经济学导论：现代观点》）

参与率（prate）是有资格拥有一个401账户的工人中参与此方案的百分比；贡献率（mrate）是指企业对一个工人所贡献的1美元向工人养老基金贡献的数量；年岁（age）是401养老金的年岁。估计贡献率（match rate）对参与率（participation）的影响。数据集中有1534个，将prate对mrate和age回归，得到：

如果我们去掉age做prate对mrate的简单回归得到：

对比我们发现多元回归估计值和简单回归估计值明显不同，但相差不大。（简单回归值只比多元回归估计值大6.2%。）这种情况属于上面两种特殊情况的哪一种呢？

由于age对prate的影响并不是无关紧要，不属于第一种情况；进一步分析mrate和age的相关程度为0.12，说明两个变量之间相关度低，可以用第二种情况解释。

另外两个多元回归模型中的问题：在回归模型中包含了无关变量或遗漏了相关变量。

对于这两个问题将在以后的学习中详细讨论。

第二节经典多元线性回归模型

我们继续引入经典线性回归模型（CLRM）：（1）μi有零均值，或：

对给定自变量的任何值，误差μ的期望值为零。该假设可能不成立的情况之一是，方程中被解释变量和解释变量之间的函数关系被错误地设定。例如：我们在估计消费模型时，在消费函数设定中遗漏了二次项。另外一种函数形式误设的情况是，当一个变量在总体中应该以对数出现时我们却采用了其水平值，或者相反。例如：如果真正的模型以log（wage）作为应变量，但在回归分析中以 wage 作为应变量，那么估计值就是有偏的。

漏掉一个与解释变量中任何一个相关的重要因素也可能导致该假设不成立。使用多元回归分析，方程中包含解释变量中的许多因素，漏掉一些变量在多元回归分析中发生的可能性比简单线性回归分析中要小的多。尽管如此，由于数据的局限性等其他原因，在任何一个应用研究中，总有一些因素我们不能包括进来。如果我们漏掉了这些因素且它们与解释变量相关，被包含在随机误差项里，这样就会违背该假定。随机误差项还可能以其他方式与解释变量相关。

（2）无序列相关，或：

即误差项是相互独立的，如果误差项的两个观测值相关，则通过普通最小二乘法得到的回归洗刷标准差的精确估计值会变得更加困难。在经济应用中，这个假设对时间序列模型尤其重要，该假设指某误差项的当前取值如果增加（如随机冲击）不会以任何方式影响其他观测期的取值。不过，这个假设在有些情况下不现实，因为随机冲击的影响会持续一段时间。例如，若发生了飓风灾害，这个随机事件发生后的很长一段时间内，对受灾地区会造成负面影响。

（3）同方差性，或：

即随机误差项具有同方差，给定X条件下，误差项的观测值具有相同的离散度；另一种情形是误差项的离散度会随解释变量的变化而变化，方差不是一个常数。如果误差项的方差随某解释变量观测值的增加而增加，这就违背了该假设。尽管误差项的真实值不能直接观测到，但因误差项不满足同方差性，会使普通最小二乘估计量不精确。

在经济应用中，截面数据通常不能满足该假定。例如，我们研究中国31个省市教育支出的问题。因为北京、上海比其他省会城市都大，人口密度较高，所以像北京这样的大城市、比较小的西宁等城市的误差项的方差要大，使得教育支出中不能被解释的部分变化也更大。异方差的问题将在后面的章节中单独讲述。

（4）μi与每一X变量之间都有零协方差，或：

所有解释变量与误差项都不相关，即假定各解释变量的观测值独立于误差项。如果一个解释变量与误差项相关，普通最小二乘估计量可能会把一些实际由误差项所引起的Y的变异归因于解释变量X。例如，误差项如果和X正相关，则参数估计值可能比没有正相关时要大。

违背该假设的可能性之一，通常是遗漏某个重要的解释变量导致的。如果遗漏了某个重要的解释变量，它被包含在误差项中，误差项的观测值会因该变量的变化而变化，进一步考虑该遗漏变量若与包含在方程中的某个解释变量相关（经济学中经常会出现），则误差项自然也就与方程中的变量相关。

（5）无设定偏误，或：模型设定正确。

（6）X变量之间无完全共线性，或：解释变量之间无完全的线性关系。

任何一个解释变量都不是其他解释变量的完全线性函数。两个变量存在完全共线性，事实上意味着它们是相同的变量，或者其中一个是另一个变量的倍数，或者这两个变量之间仅差一个常数。也就是说，一个解释变量发生变动时，另一个解释变量会成倍地变化。因此，普通最小二乘估计无法区别两个变量，导致参数估计值的偏误。

例如：建立某个城市轮胎销售商店的利润模型，以各商店的年度销售额（单位：元）和年度营业税作为该模型的解释变量。因为所有商店在同一城市，所以税率相同，即商店的营业税占总销售额的百分比是一个常数。如果营业税率是17%，那么商店缴纳的营业税额都是其销售额的17%。因此，营业税是销售额的完全线性函数，模型存在多重共线性。

第三节多元回归模型的参数估计

为了估计多元回归模型的参数，我们以3变量回归模型为例，介绍普通最小二乘法（OLS）。

一最小二乘估计量的推导

一个多元变量的样本回归函数

其中ei是残差，是总体回归函数随机误差项μi的估计值。

在第二章讨论过，OLS方法是选择一组待估参数值，使残差平方和最小，用符号表示：

引用微积分极值定理，对待估4个参数分别求一阶偏导，并令它们的一阶偏导同时为零，然后解这个联立方程组，得到下面的正规方程：

由正规方程组可导出如下公式：

小写字母表示为样本均值的离差，2个以上变量的情形是双变量情形的推广。

二最小二乘估计量的性质

当给定一个样本（yt, xt1, xt2, …, xtk－1）, t ＝1, 2, …, T 时，上述模型表示为

几何意义：yt 表示一个多维平面。

此时yt 与xti已知，βj与ut 未知。

假定（1）随机误差项ut 是非自相关的，每一误差项都满足均值为零，方差σ2 相同且为有限值，即

假定（2）解释变量与误差项相互独立，即

假定（3）解释变量之间线性无关，

其中rk（·）表示矩阵的秩。

假定（4）解释变量是非随机的，且当T→∞时

其中Q是一个有限值的非退化矩阵。

为保证得到最优估计量，回归模型应满足如下假定条件。

（1）具有线性性。

最小二乘（OLS）法的原理是求残差（误差项的估计值）平方和最小。代数上是求极值问题。

因为是一个标量，所以有，根据一阶条件：

化简得

因为（X′X）是一个非退化矩阵（见假定），所以有

因为X的元素是非随机的，（X′X）－1X是一个常数矩阵，则是Y的线性组合，为线性估计量。

（2）具有无偏性。

求出估计的回归模型写为

其中是β的估计值列向量，

称为残差列向量。因为

所以也是Y的线性组合。的期望和方差是

（3）具有最小方差特性。

残差的方差

s2 是σ2的无偏估计量，E（s2）＝σ2。的估计的方差协方差矩阵是

高斯－马尔可夫定理：前述假定条件成立，OLS估计量是最优估计量，即最佳线性无偏估计量。

三评价多元回归方程的质量

调整后的可决系数：

在多元回归模型中，由各个解释变量联合解释了的Y 的变差，在Y的总变差中占的比重，用表示与简单线性回归中可决系数R2 的区别只是不同，多元回归中：

调整后的可决系数也可表示为

可以证明：

从式（3-34）看，可决系数是模型中解释变量个数的不减函数；随着解释变量的个数增多，可决系数的分子项数增加，分子的值增大。换句话说，多一个解释变量，必然不会减少R2 的值。这就会给模型的诊断带来可能的误导，即研究同一变量的变化，但解释变量个数不同的两个回归，观察可决系数时，会出现变量多的回归模型的可决系数值高，由此我们判定其拟合优度是有偏误的。因为可决系数值较大的原因是模型解释变量的个数增加，这给对比不同样本回归模型与样本点拟合优度的判定带来缺陷，所以需要修正。

如果考虑另一个判定系数，这个问题就容易处理了：

如此定义的可决系数，称为调整后的可决系数。

可决系数与调整后的可决系数关系如下：

从式（3-36）可看出：对于k＞1，。这意味着随着X变量个数的增加，调整后的可决系数比未调整的增加得慢。

考虑下面的模型，理解相关概念

菲利普斯曲线：1979-1982年数据

式中，Yi是真实通货膨胀率（%）; X1 为失业率（%）; X2 是期望或预期通胀率（%）。此模型被称为“期望菲利普斯曲线”。

根据宏观经济理论，预期β1 是负的，并且预期β2 是正的。为了检验该模型，数据如下：

表3-1 1970-1982年美国真实通货膨胀率Y，失业率X1及预期通胀率X2

资料来源：古扎拉蒂：《计量经济学》。

根据这些数据，估计模型如下：

其中括号内的数字是估计的标准误。对此回归的解释如下：在样本时期内，如果把X1和X2都固定在零水平上，则平均真实通货膨胀率约为7.19%。但这种解释，是一种机械式的解释。偏回归系数－1.3925的含义是，在保持X3（期望通货膨胀率）不变时，在1970-1982年，失业率每减少（增加）一单位（这里是一个百分点）真实通货膨胀率的增加（减少）1.4%。同理，在保持失业率不变时，系数1.4700意味着，在同时期，预期或期望通货膨胀率每增加1个百分点，真实通货膨胀率平均月增加1.47%。R2＝0.88是说，两个解释变量合并起来，能说明真实通货膨胀率的变异88%，这是一个非常高的解释能力了，因为拟合优度最多是1。

第四节多元线性回归模型实例

为了强化对回归分析基本步骤的理解，我们来看一个完整的回归分析实例，即确定Woody's餐厅下一个连锁店的最佳位置（选自A. H. Studenmund著《应用计量经济学》）。Woody's是一个价格适中，24小时营业的家庭式连锁餐厅，下一个连锁店的最佳位置，有研究者决定建立回归模型来描述各个连锁店的总销售量。每家连锁店的总销售量都是地理位置的函数，如果可以找到描述这种关系的合理方程，那么，就可以用这个方程帮助餐厅选址。只有给出有关土地成本、建设成本及当地建筑和餐厅法规的数据，Woody's餐厅的老板就可以做出理性的决定。

表3-2 Woody's餐厅案例数据

资料来源：美国南加利福尼亚州33家Woody's餐厅的样本。

一查阅文献，建立理论模型

阅读有关餐饮业的文献，但主要还是和公司里的专家交谈。他们会给出餐厅理想地址的属性。另外，Woody's餐厅战略规划部的人提出的观点也值得重视，他们认为位置的独特性更重要。这点引起了研究者的注意，因为最初考虑变量（总销售额）会受地方价格的影响，事实上，公司会控制价格。研究数据来自最近几年Woody's餐厅开出的账单和发票。

二设定模型：确定解释变量及函数形式

经过上面的准备，可能会归纳出若干可供选择的解释变量。仔细分析发现，实际上只有三个主要因素决定销售量。分别是：人口密度、收入水平和竞争对手的数量。另外，还有两个潜在的解释变量：一是每天经过的车辆数，二是连锁店的营业时间。经过认真考虑，决定舍弃最后两个变量，原因是各个连锁店都已经有足够长的营业时间，从而有稳定的顾客；另外搜集各个地方车辆数数据的成本较高，数据不易获得。

最终确定的解释变量：

N——竞争，当地Woody's连锁店2英里内的直接竞争对手数量；

P——人口，当地Woody's连锁店方圆3英里内的居住人口数；

I——收入，变量P度量的居住人口的平均收入水平。三假设参数预期符号

当决定应该包括哪些变量后，假设参数的符号就变得容易了。其中两个变量的符号很容易确定。一是竞争越大，顾客越少（假设其他两个变量不变的条件下）；二是居住在该地区的人口越密集，顾客越多（其他两个量不变的条件下）；第三个变量，考虑Woody's餐厅是家庭式餐厅而非高级餐厅，属于正常商品，收入水平和就餐次数正相关。综合上述考虑，确定了各参数的预期符号。

式中，每个系数表示在其他解释变量不变的情况下，该解释变量对被解释变量预期的影响。

四搜集、整理数据

本研究覆盖了Woody's餐厅的每家连锁店，得到了33个位置的被解释变量与解释变量。首先，对数据检查，有三个原因对数据的质量抱有信心：同一个变量在不同的餐厅测量口径相同，样本包括了所有连锁店，所有数据来自同一个年度。在计算机运行EViews软件，输入样本数据后回归结果如下：

五方程的评价

数据集录入计算机后，用OLS法进行回归分析。在开始计算前，要再次检查模型是否存在理论错误，直到自己认为没有问题为止。从短期看，方程中参数值的符号与预期相同。调整后的拟合优度为0.579，拟合优度并不高，说明选取的两个解释变量对餐厅销售量的影响为57.9%。（其他检验和评价我们会边学边应用进去。）

六报告结果

在EViews回归结果中，找到所有需要报告的数据，在日后的章节中我们会慢慢学习和掌握报表中反映的信息。

第五节实验

一实验目的

多元线性回归模型是计量经济学最基本的模型之一，用途广泛。本次实验在于学习并使用EViews软件进行多元线性回归分析，使学生掌握计量经济建模与分析的基本方法和步骤。具体包括：

（1）建立新的工作簿、输入数据、数据初步分析；

（2）多元线性回归分析。

二实验内容

影响中国税收收入增长的因素很多，主要的因素可能有：（1）经济整体增长是税收增长的基本源泉。（2）公共财政的需求。（3）物价水平。（4）税收政策因素。可以从以上几个方面，分析各种因素对中国税收增长的具体影响。建立计量经济模型，研究影响中国税收收入增长的主要原因，分析中央和地方税收收入的增长规律，预测中国税收未来的增长趋势。所需数据如表3-3所示。

表3-3 1978-2012我国税收及影响因素数据

资料来源：《中国统计年鉴2013年》。

建立影响中国税收收入增长的线性回归模型：

Yi＝β0 +β1 X1i+β2 X2i +β3 X3i +μi

三实验步骤

STEP1：建立工作文件。

启动EViews，点击File ＝〉 New ＝〉 Workfile，在对话框“Workfile Range”。在“Workfile frequency”中选择“Annual”（年度），并在“Start date”中输入开始时间“1978”，在“end date”中输入最后时间“2012”，点击“ok”，出现“Workfile UNTITLED”工作框。其中已有变量：“c”-截距项“resid”-剩余项。在“Objects”菜单中点击“New Objects”，在“New Objects”对话框中选“Group”，并在“Name for Objects”上定义文件名，点击“OK”出现数据编辑窗口。

STEP2：输入数据。

点击“Quik”下拉菜单中的“Empty Group”，出现“Group”窗口数据编辑框，点第一列与“obs”对应的格，在命令栏输入“Y”，点下行键“↓”，即将该序列命名为Y，并依此输入Y的数据。用同样方法在对应的列命名X3、X4，并输入相应的数据。或者在EViews命令框直接键入“data Y X2X3X4…”，回车出现“Group”窗口数据编辑框，在对应的Y、X2、X3、X4下输入响应的数据，如图3-1所示。

图3-1 新建工作簿

STEP3：估计参数。

点击“Procs”下拉菜单中的“Make Equation”，在出现的对话框的“Equation Specification”栏中键入“Y C X2X3X4”，在“Estimation Settings”栏中选择“Least Sqares”（最小二乘法），点“ok”，即出现回归结果如图3-2所示。

图3-2 回归结果

根据图3-2中数据，模型估计的结果为：

模型估计结果说明：在假定其他变量不变的情况下，当年GDP每增长1亿元，税收收入就会增长0.0537752099507亿元；在假定其他变量不变的情况下，当年财政支出每增长1亿元，税收收入会增长0.584002400731亿元；在假定其他变量不变的情况下，当年零售商品物价指数上涨一个百分点，税收收入就会增长45.812997914亿元。这与理论分析和经验判断相一致。

四实验小结

线性回归模型是计量经济学中最基本的模型之一，用途广泛。本节实验在于学习并使用EViews软件进行多元线性回归分析，具体包括建立文件，输入数据，多元线性回归参数的普通最小二乘估计，调整后的拟合优度评价模型。

五备择实验

表3-4是某公司1996-2005年在某市场所派出的推销员人数（X1）、产品所支付的广告费（X2）和产品销售额（Y）的资料，假定各年的其他条件相同。

表3-4 某公司1996-2005年在某市场派出的推销员人数、产品所支付广告费和产品销售额

（1）建立产品销售额Y对推销人员人数X1和广告费X2的线性回归模型；

（2）解释偏回归系数的含义；

（3）说明回归方程的拟合优度。

本章小结

1．本章介绍的是多元线性回归模型。默认，“线性”一词是指参数为线性，变量不一定是线性。

2．虽然多元回归模型在很多方面都是简单线性回归模型的推广，却涉及一些新的概念，如偏回归系数、偏相关系数、调整后的可决系数。

3．本章推导的过程代数运算较复杂，用矩阵代数可简化，但考虑到学习范围，省略了该过程。

复习题

一、名词解释

1．多元线性回归模型

2．偏回归系数

3．调整后的可决系数

4．偏相关系数

二、简答题

1．给定二元回归模型：yt ＝b0 +b1 x1t +b2 x2t +ut，请叙述模型的古典假定。

2．在多元线性回归分析中，为什么用修正的决定系数衡量估计模型对样本观测值的拟合优度？

3．修正的决定系数及其作用。

三、计算与分析题

1．假设要求你建立一个计量经济模型来说明在学校跑道上慢跑一英里或一英里以上的人数，以便决定是否修建第二条跑道以满足所有的锻炼者。你通过整个学年收集数据，得到两个可能的解释性方程：

方程

式中：Y——某天慢跑者的人数；

X1——该天降雨的英寸数；

X2——该天日照的小时数；

X3——该天的最高温度（按华氏温度）；

X4——第二天需交学期论文的班级数。

请回答下列问题：

（1）这两个方程你认为哪个更合理些，为什么？

（2）为什么用相同的数据去估计相同变量的系数得到不同的符号？

2．下面数据是依据10组X和Y的观察值得到的：

假定满足所有经典线性回归模型的假设，求β0, β1 的估计值。