应用计量经济学
上QQ阅读APP看书,第一时间看更新

第二章 简单线性回归模型

简单线性回归模型就是一元线性回归模型或者称为双变量线性模型。

例如,一个简单的工资方程。经济学家试图找到一个人的工资水平与他的教育水平及其他因素之间的关系,我们可以构造如下的方程:

其中,wage表示每小时美元数;educ是受教育年数;β2 度量了在其他条件不变的情况下,每增加一年教育所获得的小时工资增长量。μ是其他因素,包括劳动力的经验、天生的素质、在现在雇主之下供职的时间、工作道德以及无数的其他因素。

第一节 回归分析概述

回归一词最先由F.加尔顿(Francis Galton)引入。在一篇著名的论文中,加尔顿发现,“虽然有一个趋势,父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向或者回归到全体人口的平均身高”Francis Galton, “Family Likeness in Stature(家庭身材相似性)”, Proceedings of Royal Society, London, Vol.40, 1886, pp.42-72.。加尔顿的回归定律还被他的朋友K.皮尔逊(Kard Pearson)证实,皮尔逊曾收集过一些家庭群体的1000多名成员的身高记录。他发现,“对于一个高的群体,儿辈的平均身高低于他们父辈的身高,而对于一个父亲矮的群体,儿辈的平均身高则高于其父辈的身高。这样就把高的和矮的儿辈一同 ‘回归’到所有男子的平均身高”。K. Pearson and A. Lee, “On the Laws of Inheritance(论遗传定律)”, Biometrika, Vol.2, 1993, pp.357-462.

一 “回归”一词的含义

回归,是指研究一个随机变量Y对另一个(X)或一组(X1, X2, …,Xk)变量的相依关系的统计分析方法。研究一个或多个随机变量 Y1,Y2, …, Yi与另一些变量X1, X2, …, Xk之间的关系的统计方法。又称多重回归分析。通常称Y1, Y2, …, Yi为因变量,X1、X2, …, Xk为自变量。回归分析是一类数学模型,特别当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫作一元线性回归,即模型为Y=a+bX+ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0,方差为σ2σ2 0), σ2X的值无关。若进一步假定随机误差遵从正态分布,就叫作正态线性模型。一般的情形,若有k个自变量和一个因变量,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。当函数形式为未知参数的线性函数时,称线性回归分析模型;当函数形式为未知参数的非线性函数时,称为非线性回归分析模型。当自变量的个数大于1时称为多元回归,当因变量个数大于1时称为多重回归。

二 回归分析的主要内容

(1)从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。

(2)对这些关系式的可信程度进行检验。

(3)在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。

(4)利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。

三 经济学中的例子

(1)经济学家想研究个人消费支出对税后或可支配实际收入的依赖关系。这种分析有助于估计边际消费倾向(MPC),就是实际收入变化引起消费支出的平均变化。

(2)垄断厂商想知道产品需求对价格变化的实际反应。通过定价模型,能估计出产品需求的价格弹性,从而确定实现利润最大化的价格。

(3)劳动经济学家想研究货币工资变化率对失业率的关系。借助把货币工资变化同失业率联系起来的菲利普斯曲线,根据菲利普斯模型能预测给定某个失业率,货币工资的平均变化。

(4)货币经济学家得知,其他条件不变,通胀率越高,人们越愿意保存货币。对这两个量回归,给定各种通胀率可以预测人们保存货币的比率。

(5)公司的销售部想知道消费者对产品需求与广告支出的关系。回归分析有助于算出广告支出的需求弹性,即广告费每变化百分之一,需求的变化率,这将会对公司制定广告费预算提供有意义的参考。

(6)农业经济学家想研究农作物收成对气温、降雨量、阳光量和施肥量的依赖关系。回归分析能根据给定的解释变量的值预测农作物的平均收成。

回归分析就是研究变量之间的依赖关系。

四 回归与依赖关系

在现实世界中,我们常与各种变量打交道,在解决实际问题过程中,我们常常会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约。常见的关系有两种:一种为“确定的关系”即变量间有确定性关系,其关系可用函数表达式表示。例如:对路程S、时间t与速度v之间有关系式:S=vt;圆的面积S与半径r之间有关系式S=πr2

另外还有一种一些变量之间也有一定的关系,然而这种关系并不完全确定,不能用函数的形式来表达,这种关系往往表现为统计依赖关系。例如:人的身高与体重有一定的关系,一般来讲身高高的人体重相对大一些,但是它们之间不能用一个确定的函数关系表示出来。又如农作物产量Y与施肥量X之间的关系。一般来说,农作物的产量Y随着施肥量X的变化而变化。随着 X 的增加,Y也增加。但给定一个X的值,与之相关的Y的值不确定。因为,除了施肥量,还有其他因素如阳光、气温、降雨等都在影响农作物的产量。这时,我们无法建立农作物产量Y与施肥量X之间确定的函数关系。这个性质的意义在于:这些解释变量固然都重要,但不能使农业经济学家准确地预测农作物的收成。一是测量误差的存在,二是还有一些影响收成的因素,我们很难一一找出。因此,无论我们考虑了多少变量,却无法完全解释农作物收成这个应变量,它的值不是确定性的而具有随机性。这样,农作物的产量Y与施肥量 X 之间的关系就只有统计依赖关系,变量Y是一个随机变量。

在本书中,我们不去研究确定性现象。在回归分析中,我们主要处理的是随机变量,也就是有着概率分布的变量。

五 回归与因果关系

虽然回归分析是研究一个变量对另一个(些)变量的依赖关系,但回归分析后显示具有依赖关系并不意味着具有因果关系。例如,根据经济理论,收入与消费之间存在一定的因果关系,对它们进一步作回归分析,说明收入差异对消费的影响究竟是多大,通过回归分析研究收入对消费的依赖程度。如果两个变量没有因果关系,例如,上海的消费与天津的疾病率,实际上并无直接联系,如果我们用两个变量的数据,使用回归分析后结果显示有线性关系,统计上显示具有依赖关系,并不能说明它们具有因果关系。

 

一个统计关系式,不管多强也不管多么有启发性,却永远不能确立因果方面的联系:对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。

——肯达尔(Kendall)·斯图亚提(Stuart)

 

在我们引用的农作物收成与降雨量的例子中,我们把农作物收成看作依赖于降雨量等的应变量,是普通常识提示了我们如何确定它们之间的关系。因为经验和常识告诉我们,降雨量的多少影响农作物的收成,而不是农作物的收成改变降雨量的多少。

要点:从逻辑上说,显示具有统计依赖关系的变量不意味着它们具有任何因果关系。要确定变量之间的因果关系,必须要有先验的或理论上的支持。计量经济学利用回归分析研究具有因果关系的变量之间的依赖程度。

六 回归与相关关系

与回归分析密切相关而在概念上不同的,是相关分析。回归分析——并不主要对这种度量感兴趣,是试图根据其他变量的设定值来估计或预测某一变量的平均值。相关分析——以测度两个变量之间的线性关联力度为其主要目的。相关系数就是用来测度这种(线性)关联强度的。相关分析研究诸如吸烟与肺癌、统计学考分与数学考分、中学成绩与大学成绩之间的相关(系数);数学考分与统计学考分的相关系数就说明两门课考分之间的相关性、关联度,对称地对待两个变量,不区分应变量与解释变量。与之不同的回归分析,是我们想知道能否从一个学生的数学考分,去预测他的统计学的平均考分;我们给定一个年龄变量的值,能否预测平均身高。

基本分歧:回归分析——对应变量和解释变量的处理方法存在着不对称性。应变量被当作统计的,随机的;解释变量则被看作取固定值。相关分析——对称地对待任何(两个)变量,应变量与解释变量之间不加区别。

要点:回归分析是研究具有因果关系的变量之间的依赖关系,即一个随机应变量对另一个(些)解释变量的依赖关系。其目的在于通过解释变量的已知或给定值,估计或预测应变量的平均值。回归分析的内容包括:(1)根据样本数据估计计量经济学模型参数,得到回归方程;(2)对回归方程、参数估计值进行假设检验;(3)利用回归方程分析变量之间的关系、评价政策的效果及预测应变量的变化。

第二节 简单线性回归模型

上一节,我们概括地讨论了回归分析的概念,这节我们将比较正式地探讨这个问题。

一 一个例子

购买住房可能是一个人一生中最重要的决策,而影响决策最重要的因素之一是房地产的价格。如果高估了房价,那么可能会带来很大的损失;如果低估了价格,那么住房很有可能被出价更高的人买走。接下来我们看一个房地产定价模型,房地产的估价就成为是否买房的重要因素,许多房地产估价师运用回归分析来开展工作。

假如你打算在北京买一套住房,但你觉得房主要价太高,房主认为230万元的要价是合理的,因为大约一年前隔壁一套稍大点的住房就卖了这个价格。你不能确定两套住房的面积,并进行比较;而且这是上年的价格,你如何才能决定是否支付230万元呢?

你决定搜集过去几周在当地出售所有住房的数据,并建立一个以房价为被解释变量、住房面积为解释变量的回归模型。这个数据是截面数据,因为所有的观测值都来自一个时间点。理论模型为:

式中,price代表住房的价格;size代表住房的面积;μ代表影响价格的其他因素。你搜集了最近几周的房地产交易后,共有43套住房售出,于是,你采用43个样本的观测值估计出了回归方程(模型中参数的值是如何估计出来的、利用43个样本的观测值所得的参数值是否可靠等问题,在后面的内容中将详细说明):

你怎么运用估计出来的回归方程帮助你预测160平方米的房子价格,然后比较预测值与要价230万元呢?当我们把160代入方程(2-3)中,得到

对比房主的要价,这套房子的价格还比较合理,你开始认为房价过高,是个总体的想法,对这一套房子来说,价格并不高。

其实,影响房价的因素不仅是面积,还有其他因素,这些就是多变量(元)模型探讨的问题,将会在后面的章节中详细讨论。

二 简单线性回归模型

式中,YiXi表示因变量(被解释变量)和自变量(解释变量)的第i个观测值(i=1, …, n);和β0β1 为待估参数(回归系数); μi为随机误差项,是随机变量,随机误差项的相关性质后面的章节中将详细讨论。

简单线性回归模型是指只有一个解释变量X的模型。在下一章我们将涉及多个解释变量的问题,即多元线性回归模型。

误差项(随机干扰项)μi产生的原因如下:

(一)省略的其他解释变量

理论的含糊性,即使研究Y的行为有理论可依,但常常是不完全的;我们知道收入X影响消费支出Y,但还有什么其他因素影响Y的变化就不能确定了。例如,我们在讨论房地产定价问题时,只使用了居住面积作为解释变量,省略了其他诸如卧室和浴室、交通等影响。因为我们主要想研究住房面积对房价的影响,虽然我们认识到还有其他变量的影响,而且其数据也是可以搜集到的,但忽略其他变量对房价的影响,考虑到模型的简洁性,建模时省略这些变量,随机误差项中包括了这些潜在变量对房价的影响。

(二)模型形式设定的偏误

由于经济现象的复杂性,即使我们有了解释一种经济现象的理论,并且获得了数据,我们却常常不知道回归关系式是什么形式。变量之间的真实关系往往是未知的,因此,模型的设定可能和真实情况有偏误。例如,如果真实模型是Yi=β0 1 Xi2 X2i+vi,而我们设定的模型是Yi=β0 1 Xii,则X2i的影响将包括在随机误差项中。在简单(一元)线性回归模型中,人们往往能从散点图来判断函数关系式,而在多元线性回归模型中,无法从图形中建立多维散点图,要确定正确的模型形式就不是那么容易的。

(三)度量的误差

X和Y的度量误差也往往归入随机误差项。例如,假设Yi为新建筑的价值,我们使用估计函数Yi=α+βri+vi,式中ri为建筑贷款的利率;但在实际估计中则使用模型Yi=α+βXii,式中Xi为银行最低贷款利率。用银行最低贷款利率Xi替代建筑贷款的利率ri的误差包括在随机误差项中。

(四)不可预测的影响因素

不管计量经济学模型的设计有多么具体,总会存在一些无法预测的随机影响因素。由于人类行为的随机性,即使我们成功地把有关的变量都引入模型中,个别Y的变化仍不免有一些随机性影响它的值,且无法解释,这些影响被包括在随机误差项中。

三 总体回归模型

上面的介绍中指出,回归分析是要根据解释变量的已知或给定的值,去估计和(或)预测应变量的(总体)均值。

下面看一个例子说明总体回归模型的含义。

假如一个班级总共60人,我们要研究每月每人消费支出Y与每月可支配收入X的关系。说得更具体些,知道了某个人的每月收入,要预测出在这个收入水平的每月消费支出的(总体)平均水平(因为个体的消费水平除了受收入的影响之外还受其他因素如偏好等因素的影响,我们无法预测出个人的实际消费水平,只能试图预测平均消费水平)。为达到这个目的,将60名学生划分为组内收入差不多的10组,分析每一收入组的消费支出情况。表2-1给出了一个假想的数据。

表2-1 假想总体中每一个收入水平X对应消费Y的条件分布

表2-1的解释为,对于每月收入800元的5名同学的每月消费支出为550-750元不等。当X=2400元,6名学生的每月消费支出为1370-1890元。换句话说,表2-1中每列给出的是对应于一定收入水平X的消费支出Y的分布;也就是说,它给出了以X为确定值为条件的Y的条件分布。

注意,表2-1的数据是假想的一个总体,我们获得了这个总体的信息,容易算出每一个给定XY的概率分布 pY|X),即Y的条件概率。

X=800元时,有5名学生,他们的消费支出Y的值分别是:550元、600元、650元、700元和750元。因此,给定X=800,得到这组的每个学生消费支出的概率是1/5,可以记为:PY=550 | X=800)15。同理,PY=650|X=1000) 16,等等。表2-2给出各个收入水平下消费支出的条件概率。

表2-2 假想总体的各个收入水平下消费支出的条件概率与条件期望

资料来源:虚构数据,仅用作图表示例。

现在对每一个给定收入水平X条件下,我们能算出消费支出Y的均值,称为条件均值或条件期望(值),记作:EY| X=Xi),读为“在X的值为xiY的均值(期望值)”。有时我们简单记作EY| Xi)。计算如下,将表2-1中的Y值乘以相应的条件概率,然后求和。例如,收入水平X=800时,消费支出 Y 的条件均值(期望值)是:550 × 15 +600 × 15 +650 × 15 +700 × 15 +750 × 15 650,即收入水平X=800的学生的组内消费水平Y的平均值为650元。同理,可计算出每个收入水平X下的消费支出Y的条件均值(期望值),结果见表2-2的末行。

接下来,让我们看看表2-1数据的散点图,见图2-2。从图中可看出,散点表明了不同收入水平下消费支出的分布状况,即对应于各个X值,Y的分布状况。虽然每个学生的消费支出各异,但我们可以清楚地看出:随着收入水平X的增加,不同收入水平下组内消费水平的均值在增加;或者说,随着收入的增加,虽然同组内个体的消费水平有差异,但消费支出平均值在增加。换句话说,Y的条件均值随X增加而增加。

图2-2 对不同收入水平的消费支出及条件期望

从图2-2中可以看出,给定收入水平X下的Y的条件均值EY|Xi)落在一条向上倾斜的直线上,这条直线叫作总体回归线;也就是说,解释变量X的值确定的条件下,应变量Y的条件均值(期望值)的轨迹称为总体回归线。回归直线或回归曲线是穿过这些条件均值(期望值)的线。从图2-3中可看出,每一个条件均值EY| Xi)都是Xi的一个函数,这条线的函数表达式为

图2-3 总体回归线

其中,fXi)表示解释变量Xi的某个函数。方程(2-5)称为总体回归函数(PRF),它表示在给定XiY的分布的(总体)均值与Xi有函数关系。换句话说,方程(2-5)或总体回归函数说明了应变量Y的均值是怎样随解释变量X的变化而变化的。

函数fXi)的具体形式如何确定呢?这是个重要的问题,因为在实际研究经济问题时,我们不可能得到全部总体的数据作分析,PRF的函数形式理论和经验可以给我们参考。例如,理论经济学家提出消费支出与收入有线性关系(凯恩斯绝对收入理论),据这个假设,我们知道消费支出的条件均值EY| Xi)是收入Xi的线性函数,其形式如下:

其中β0β1 为待估参数,称为回归系数;方程(2-6)称为线性总体回归函数。线性函数是最简单的形式,在回归分析中,我们的兴趣在于估计PRF;就是说,根据YX 的观测值估计未知参数 β0β1 的值。(这个问题在后面的内容中将详细说明)

从上面的例子中,我们可以看到,随着收入增加,消费支出的条件均值也在增加。但对某一位学生来说,消费支出与他的收入水平的关系是如何的呢?从表2-1和图2-1中,我们都可以清楚地看出,某一位学生的消费支出不一定随收入的增加而增加。例如,从表2-1中对于每月1000元收入的两位同学的消费支出可以看到,一位是650元,少于每月收入800元两位同学的消费支出(700元和750元),也低于收入水平为1000元的条件均值770元。但比较给定收入水平的平均消费支出水平,可以看到,每月收入为1000元的平均消费支出(770元)比每月收入为800元的平均消费支出(650元)高。

图2-1 变量之间的关系

那么,个体消费支出与平均消费水平之间的关系如何呢?我们从图2-1中看到,当收入水平给定时,各个学生的消费支出聚集在消费支出的条件均值周围。我们可以把给定消费水平Xi的每个个值Yi与条件均值EY| Xi)的关系表示如下:

个值Yi与均值EY| Xi)的离差为

离差μi值是不确定的,或者说,离差是一个随机变量,是一个可正可负的变量。我们把μi称为随机干扰项或随机误差项。

图2-4 随机误差

假定EY| Xi)与Xi是线性关系,方程(2-8)就可以写成

我们可以这样解释方程(2-9),即个体消费支出的多少受两部分的影响:(1)相同收入水平下的平均消费支出EYXi)的影响(这部分称为系统性或确定性部分);(2)μi为随机或非系统性成分。

例如,给定收入水平X=800,在此收入水平下,个体消费支出由两部分组成:(1)该收入水平下的平均消费支出(条件期望),即β1 2(800);(2)其他因素μi(随机或非确定性部分)。

Y1 550=β1 2(800)2

Y2 600=β1 2(800)2

Y3 650=β1 2(800)3

……

四 样本回归模型

现实中,总体的信息无法得到,在实际经济问题的研究中,我们往往抽取一个样本并对其特征进行度量,进而推导出样本回归函数,并在拥有样本信息的基础上估计PRF。

假如我们不知道总体的数据,我们仅有的信息是给出一个X的值随机抽样得到一个Y的值(见表2-3)。它和假设的总体数据2-1不同,对应于给定的每一个X的值只有一个Y的值,而且都是随机抽取的。

表2-3 总体的一个随机样本

图2-5 总体回归线与样本回归线的关系

问题是:我们能否从样本预测整个总体中给定每个X条件下Y的平均消费支出水平?换句话说,可否根据样本信息估计总体回归函数PRF?我们设想从总体中再随机抽取一组样本(如表2-4)。

表2-4 总体的另一个样本

将表2-3和表2-4的数据绘制成散点图。画两根样本回归线:SRF1和SRF2。哪一条与真实的总体回归线更接近呢?如果我们无法得到PRF的图形,我们就无从比较图2-6中的哪一条线接近总体回归线。这两条回归线称样本回归线SRF。有N个样本,就会得到N条样本回归线,这N条样本回归线一般情况下位置各异。

图2-6 一个样本的回归线

由样本数据得到的回归线的函数表达式为:

称为样本回归函数,记作SRF(sample regression function)。其中Y 读作“Y-帽”。

图2-7 两个样本的回归线

——条件均值EYXi)的(样本)估计值;

——总体回归系数β1 的(样本)估计值;

——总体回归系数β2 的(样本)估计值。

所抽取样本的个值可表示为:

我们称方程(2-11)为样本回归函数的随机形式,其中ei表示(样本)残差,表明样本点与回归线上的点的偏离,可把它看作总体回归函数随机误差项μi的估计值。

总的来说,由于我们无法真正得到研究变量的总体信息,更多的时候我们对变量变化的分析仅仅依据随机抽取的一个样本,而不是多个样本。所以,回归分析的主要目的就是根据SRF来估计PRF。然而,我们根据SRF仅仅能得到PRF的近似值,由于抽样的波动,可能高估也可能低估。

这样我们将面临一个非常重要的问题就是:既然我们认识到SRF仅仅是PRF的一个近似估计,能不能设计一种方法,使得用这种方法得到的SRF能尽可能地接近PRF呢?具体地说,即:是否可以构造一种方法,给定一个样本数据,能使计算得到的尽可能地“接近”总体回归参数β1尽可能地“接近”β2,尽管总体回归参数β1β2 的真实值永远无法得到。

第三节 简单回归模型的参数估计

在回归分析中有许多计算SRF参数值的方法,而最广泛使用的一种是普通最小二乘法(method of ordinary least squares),简记为OLS。这节首先给出普通最小二乘法的原理和推导过程。在实际应用中,这一原理已被编写成程序,通常通过计算机软件(EViews)来完成具体计算,所以这节的重点是理解普通最小二乘的原理,以及如何在计算机上完成参数估计。

一 普通最小二乘法估计参数的原理

参数是如何估计出来的呢?下面给大家介绍经典估计方法——普通最小二乘法(OLS)。普通最小二乘法归功于德国数学家高斯。为了说明这个方法,我们先解释最小二乘原理。

我们来看一个简单线性回归模型PRF

Yiβ1+β2Xi+μi

在前面我们不止一次地提到:总体回归函数不是直接可以得到的,实际研究中我们通过抽样估计出SRF近似替代PRF。

其中,是通过抽样所得数据计算出来的样本回归的系数,是总体回归系数β1β2 的估计值;既是个值Yi的估计值也是条件均值EY| Xi)的估计值,双重身份;称ei为残差项,它表明个值Yi与估计值的偏差,是随机误差项的估计量。

问题进一步转化为:对于随机抽取的样本,给定 XY 的观测值,如何计算得到SRF使得它尽可能地靠近真实的Y值?

为了说明这个问题,我们先看下面的一个假想的实验。

对于给定的YX的观测值(如表2-5),利用表中第一列和第二列的数据,假设有两位同学分别采取了两种不同的方法估计SRF的系数。

表2-5 SRF如何决定的实验

注:数据为假想数据。

第一位同学通过计算后得到(暂时不考虑这两个数值是怎样算出来的),得到SRF1的方程为:将表中第二列X的数值代入该方程中计算出的估计值,记作对应于表中的第三列。

第二位同学通过另一种方法计算得到得到SRF2的方程为:将表中第二列X的数值代入SRF2中计算出Yi 的估计值,记作对应于表中的第六列。

由于两位同学计算的参数值不同,所得到的回归方程不同,估计值与真值之间的残差也不同,分别计算残差e1ie2i,对应于表中的第四列和第七列;残差的平方对应于表中的第五列与第八列。两位同学所得到的回归函数图形如图2-8所示。

图2-8 两个样本回归线的比较

那么我们应该选择哪位同学计算所得的参数值呢?对于给定的 YX的观测值,我们希望这样决定SRF,使得它尽可能地接近实际的Y

为回答这个问题,我们可以采用如下准则:

1.残差和最小,即尽可能小。这乍看有说服力,但不是一个很好的准则。我们可以从图2-9中一个人为的散点图看出。

图2-9 样本回归线与残差

如果采纳残差和∑ei最小的准则,很可能点离开SRF很远,ei的分布很远,但其代数和却很小(甚至为零)。假如图2-9中e1e2e3e4分别取值10、2、+2和-10;比较发现,e1 +e4 0, e2 +e3 0;显然,e1e4 分布离SRF远得多。如果我们将残差平方后或者取绝对值后取和,就可以避免这种问题。

2.残差平方和最小(最小二乘准则),即

尽可能地小。该方法通过对残差的平方,避免了前面所说的问题。在第一种方法下,虽然样本点在SRF周围散布得很远,但残差和可能很小(甚至为零)。而在最小二乘准则下,这是不可能的,因为样本点离SRF越远,其平方和也越大。

当给定YX的观测值:

就是说,残差平方和是参数估计量的函数,不同的的值将得到不同的SRF,从而得到不同的残差值,进而有不同的残差平方和的值。

我们现在回到前面的问题,该选择哪位同学计算的SRF呢?或者说哪位同学的回归结果更好呢?比较两位同学估计结果的残差平方和,列(5)为12.214,列(8)为14, 12.214小于14,因此第一位同学的参数值“最优”。

要点:由最小二乘原理或方法选出来的将使得对于给定的样本或一组数据,残差平方和尽可能小。换言之,对于给定的样本,最小二乘法为我们提供估计参数值的思路。即取什么值时,使得二元函数值最小。

二 普通最小二乘参数估计量的推导

关于函数的极值或者最值的讨论,微积分提供了很好的方法。下面我们通过微分法,计算能使残差平方和最小的

根据微积分极值的讨论中一阶偏导定理,函数(2-7)中Q

的一阶偏导为0时,Q达到最小,即:

当函数分别对求一阶偏导,并令其为零,可推得下列方程组(推导过程省略):

解这个关于的二元方程组,得:

若我们定义,用小写字母表示样本值对均值的离差。参数估计量(2-15)可以写成:

这样,如果我们要用计算器解一个涉及一小组数据的回归问题的话,就可以减轻计算上的负担。

三 应用普通最小二乘法估计参数的例子

在家庭可支配收入与消费的例子中,对于给定的一个样本,参数的估计可通过表2-6得到:

表2-6 收入与消费的一个样本

注:数据为假想的数据。

由该样本估计的回归方程为:

上面得到的估计量是从最小二乘原理演算得到的,所以叫作最小二乘(OLS)估计量。稍后,我们将考虑OLS估计量的统计性质。

四 普通最小二乘法估计的经典假定

为了使普通最小二乘估计量成为最优估计量,必须满足所有的经典假定。后面部分章节将讨论违背这些假定的情况,同时介绍更适用的估计参数方法。

如果我们的目的是估计,那么上节所讨论的OLS法就解决了如何估计样本回归函数参数值的问题。但我们在回归分析中最终目的是对总体回归函数真实的β1、β2 的推断。我们随机抽取一个样本数据,可以用OLS算出参数β1、β2 的估计值,但我们更想知道参数估计值离它们的总体真值有多近?离总体条件期望值E(Y| Xi)有多近?能否用SRF替代PRF,进而说明Y的条件均值E(Y| Xi)随着解释变量X的变化规律?

为了解决以上的问题,我们首先回顾一下PRF: Yi=β1 2 Xii,它表示被解释变量Yi的变化依赖于Xiμi。因此,只有当我们明确Xiμi后,才能对Yi的值作出统计推断。也就是说,为了有效解释回归结果,对Xiμi需要作一些限定。

经典的(又称高斯或者标准)线性回归模型(CLRM)。这已成为大部分计量经济学的奠基石,它有10个假定。我们先讨论简单线性(一元)回归模型来说明这些假定,在后面的章节中我们会将这些假定推广到多变量(多元)线性回归模型。

假定1:参数的线性性。回归模型中参数是线性的,变量YX的关系可以是非线性的。

假定2:随机抽样时,X的值是确定的。在抽样时,解释变量X的值被认为是给定的观测值,是固定的,或者说是非随机的。

例如,我们在研究居民消费问题时,先固定收入X的值,再抽取X值分别为800、1100等条件下Y的数据。

假定3:随机误差项 μi的均值为零。对给定的 X 值,随机误差项(干扰项)的均值或期望值为零,或者说μi的条件均值为零,记为:

Eμi| Xi0

其几何意义见图2-10。图中描绘了给定每一个X的值,对应一个Y的总体值。如图,给定X的每一个总体Y都是围绕其条件均值(圆圈)而分布;一些Y位于均值之上,另一些位于均值之下。Y与其条件均值的偏离距离就是μi。假定3要求,对应于给定的X, μi的均值等于零。

图2-10 均值为零

这个假定是说,凡是模型不显含的因素,归于μi,对Y的均值没有系统的影响,正的干扰与负的干扰互相抵消,以至于这些不显含的影响对被解释变量Y的影响为零。

假定4:随机误差项μi的方差相等或同方差。给定X值,对所有的观测值Y, Y与其条件均值EY| Xi)偏离距离μi的方差都是相同的。就是说,不同的X值对应的Y与其条件均值的分散程度都是相同的。用符号表示为:

其中var表示方差。

为了更好地理解同方差的含义,我们看一个例子。令Y为平均工资,X为受教育水平,图2-11和2-12都表示随着受教育水平的增加,平均工资也在增加。但在图2-11中,平均工资的差异在所有受教育水平上都保持不变,而在图2-12中,这个方差随受教育水平的增加而增加;换句话说,接受了更多教育的人比受教育水平较低的人的平均工资差异大。后一种情况更符合实际,因为接受了更多教育的人可能有更多的就业机会,这就导致了更高教育会产生更大的工资差异;而教育水平低的人工作机会少,而其只能拿到最低工资,这就使得教育水平较低的人工资差异小。

图2-11 同方差

图2-12 异方差

图2-11是说,对于每个μi的条件方差都是等于某个正的常数σ2。同方差性代表分散度相同或者方差相同。与此相对照的图2-12, Y的条件方差随X值的不同而不同,这种分布称为异方差,或者说分散度不同或方差不相同。

假定5:各个随机误差(干扰)项无自相关。给定任意两个X的值:XiXiij), μiμj之间不相关,或者说相关为零。用符号表示:

其中,ij为给定两个不同的X对应的观测值,cov表示协方差。

这个假定是说,给定任意两个X的值抽取两个Y值,Y对各自条件均值的偏离为μiμj;我们把影响Yi偏离的非显性因素归于μi,影响Yj偏离的非显性因素归于μj。设定μiμj 不相关,是指这些干扰之间不存在交互影响,即零相关。在后面的章节中我们会详细讨论如果干扰项之间存在交互相关性的后果。

假定6: μiYi的协方差为零,或EμiXi0。用符号表示:

这个假定是说,Y变化受两部分的影响,解释变量X和归于随机干扰项μi的非显性因素;干扰项和解释变量之间不相关。如Xμ相关,我们就无法估计它们对Y的独立影响,例如:Xμ正相关,当X增大时μ的值也增大,而当X减小时,μ的值也减小;若Xμ负相关,则表现为,当X增大时,μ减小,X减小时,μ增大。无论哪一种情况发生,我们都无法分开XμY的影响,进而无法得到YX之间独立的定量关系。

假定7:观测次数n必须大于待估参数的个数。或者说观测次数n必须大于解释变量的个数。

假定8: X的值要有变异。在一个给定的样本中,X的值不能是同一个值。例如,消费支出主要受收入的影响,如果收入水平很少变动,我们就无法观测消费支出变动的规律,要研究YX之间的回归分析,变量必须是变动的。

假定9:正确地设定了回归模型。在经济分析中所用的模型没有设定的偏误。

一项经济学问题研究的开始,要对我们感兴趣的经济现象设定计量经济模型。在模型设定中一些重要的问题包括(1)模型应该包括哪些变量?(2)模型的函数关系如何?是不是对参数和变量是线性关系?(3)对模型的概率假定?

这些都很重要,如果模型遗漏了重要变量,或选择了错误的函数形式(如非线性关系设定成线性关系),或对所含的变量作出了错误的假定,那么回归结果的有效解释大有问题。

假定10:没有完全的多重共线性。多元线性回归模型中各解释变量之间没有线性关系。

关于多重共线性的问题我们将在后面的章节中详细介绍。

五 普通最小二乘估计量的性质:高斯 马尔可夫定理

估计量分布的理想性质是,它的均值等于总体参数的真实值。为了检验参数估计量的可靠性和显著性,有必要讨论参数估计量的统计性质,即从数理统计的角度衡量参数估计量的优劣,衡量的标准主要是线性、无偏性和有效性。这些性质包含在著名的高斯-马尔可夫定理中,即估计量是最佳线性无偏(best linear unbiasedness property)。在给定经典线性回归模型的假定条件下,最小二乘估计量具有最优(BLUE)的性质。

这里只是对衡量最佳线性无偏估计量的标准做一个说明性的解释。

(一)参数估计量是线性的

即它是一个随机变量,与回归模型中应变量Y是线性函数关系。

(二)参数估计值是无偏的

即每次抽样得到的样本用OLS法可以计算得到两个参数的估计值,若干次抽样所得到的参数估计量的均值或期望值等于它的真值。用符号表示:

虽然在一次抽样计算得到的β i 可能不等于真值β i,但我们如果多次重复抽样,并每次都计算回归参数,这些估计量的平均值就会等于真值,就是无偏性。无偏性的要求:分布的均值等于真值。

对无偏性的进一步解释:

假设建立一个关于某学校去年毕业生的初始工作和他们在校取得的GPA分数的函数,即:

首先,重点讨论参数估计量的分布。

假设选择了第1组25个同学构成样本,并获得了他们拿到的工资和成绩的数据。那么,就可以通过普通最小二乘法估计方程中参数的估计值;如果我们再选择第2组学生样本并作同样的估计,你能得到相同的参数估计值吗?答案是:不大可能。很明显,参数估计值取决于所选取的样本观测值。可是说,如果不同的样本包含的学生情况不同,得到的参数估计值也不同。事实上,经过多次的抽样,参数估计值会有一个分布。如果选择了5组样本,就可能得到:

每个样本都得到一个真实总体参数的估计值,假如抽上千个样本,将

得到上千个估计值,所有样本估计值的分布有均值和方差。所谓“好”的估计是指抽样分布的均值应该等于总体的真值β,即满足无偏性。

(三)有效性,它在所有无偏估计量中,方差最小。

我们知道随机变量的方差主要用于度量其在均值周围的分散情况。方差较小意味着平均来说该随机变量的值更接近均值。如果两个估计量都是无偏估计量,我们可以通过比较它们的方差作为选择方式,方差较小的估计量由于平均起来更接近真值,所以最优,这就是有效的概念。

为了更清楚地理解这一点。比较图2-13中的分布A和分布B,假设它们都是β的无偏估计量。分布A的方差大于分布B。为了比较,再引入一个有偏的分布C,有偏指分布C的均值位于真值β的左边或者右边。

图2-13 无偏的最小方差

当简单线性回归模型满足最小二乘法的基本假设条件时,我们利用OLS和给定的样本观测值,可以求出两个回归系数的估计量。由于样本是随机抽取的,不同的样本得到不同的估计量,所以的值会随样本数值的不同而不同,也就是说是随机变量,具有它的概率分布。

高斯-马尔可夫证明了在给定的经典线性回归模型的假定条件下,OLS估计量满足上述三个性质,即OLS估计量是BLUE。这就是著名的高斯-马尔可夫定理,其精髓可叙述如下:

高斯-马尔科夫定理:在给定经典线性回归模型的假定条件下,最小二乘估计量,在无偏线性估计量一类中,有最小方差,就是说,它们是BLUE。

这一定理的证明过程省略,这里强调指出,该定理在计量经济学理论和实际上都具有重要的意义,随着后面的学习,该定理的意义将渐渐显现。

第四节 评价回归方程的质量

如果回归分析的基础是普通最小二乘法,那么计量经济学的核心是判断OLS估计值的质量。许多计量经济学的初学者倾向于直接接受电脑求得的回归估计值,而不考虑这些估计值的含义或合理性。计量经济学的主要工作是在接受一个回归结果之前,从基本理论到数据质量的各个方面,仔细地考察和评价所估计的方程。实际上,大多数优秀的计量经济学家在估计方程之前会花大量时间来思考从方程中能得到的结果。

一旦电脑生成估计值后,就要注意以下一些问题:

(1)方程是否有可靠的理论支持?

(2)回归估计拟合样本数据的程度如何?

(3)数据集是否足够大而准确?

(4)普通最小二乘法是用于这个方程的最优估计方法吗?

(5)估计参数是否符合研究者收集数据前的预期?

(6)方程中是否包括了所有重要的变量?

(7)是否采用了理论上逻辑严密的函数形式?

(8)回归是否通过了统计检验和避免了计量经济学的主要问题?

判定系数R2: “拟合优度”的一个度量

现在我们考虑对一组数据所估计的回归线的“拟合优度”。也就是说,样本回归线对数据拟合得有多么好。围绕着这些回归线的残差尽可能地小,如果全部观测点都落在样本回归线上,就得到一个“完美”的拟合。判定系数R2 是度量样本回归线对数据拟合程度的统计量。

计算步骤如下:

写成离差形式:

两边平方并对样本求和,得到:对于所有的样本点,出现在式(2-22)中的平方和,可以描述成:总离差平方和(TSS),实测的样本值Y与其均值的总变异:

回归平方和(ESS),或称为解释平方和,估计值Y围绕其均值的变异,可由回归方程解释的Y的变化:

残差平方和(RSS),残差或未解释的围绕回归线Y值的变异。

这样,式(2.5.3)就可以表示成:

式(2-25)说明,Y的观测值围绕其均值的总变异(离差)可分解成两部分:一部分来自样本回归线;另一部分来自随机干扰项(非显性影响因素)。

观测值Y的变异可分解成两个部分。

根据上述关系,可以用

检验样本回归线的拟合优度。称R2为可决系数(Coefficient of determination)。

观察(2-26)式,回归平方和所占的比重越大,相应的残差平方和的比重越小,样本回归线的解释能力越强,对样本点的拟合越好。如果“完全”拟合,则R2=1,该统计量的值越接近于1,样本回归线对样本点的拟合优度越高。

实际计算可决系数时,在参数值已经估计出后,一个较为简单的计算公式为:

第五节 实例

例2-1:美国的咖啡消费:1970-1980年

由微观经济理论可知,一种商品的需求量,依赖于该商品的价格、其他互补品或替代品的价格或消费者的收入、预期及偏好。把所有这些变量都选取为解释变量,假定数据可得,就是多变量模型。对此,我们还没有涉及如何求多变量回归模型的参数的内容。因此,我们所能做的就是假定其他条件不变,仅观察需求量和自身价格的关系。然后,我们根据所给的数据用OLS法计算回归参数估计值。这个过程可以用EViews软件实现,回归结果如下:

现对估计得到的回归模型解释如下:如果咖啡每磅零售价上涨1美元,咖啡的销售量平均每日减少约半杯。假如咖啡的价格降到零,则平均每人日咖啡消费量约2.67杯。当然,我们常常不能对截距项给出任何有意义的解释。

例2-2:选举结果和竞选支出

根据1988年美国众议院173次两党竞争的选举结果和竞选支出的数据(略)。当然竞选结果并不唯一受竞选支出多少的影响,还有其他因素影响着竞选结果(如候选人的素质等)。我们为了说明简单线性回归模型,仅选取竞选支出为解释变量,来看看花费更多的钱是否能得到更多的选票。假如每次竞选有两名候选人,Y为A候选人所得票数的百分比,X为A候选人在竞选支出中所占的百分比。我们将173组数据带入EViews中用OLS法回归结果如下:

这意味着,如果A候选人的开支在总花费中的比例增加一个百分点,候选人就能够多得到几乎1/3个百分点的总票数。

这两个例子是按一个样本数据拟合的模型真实性如何?因为该模型为包含所有的有关变量,我们不能称之为一个完整的模型。因为教学的需要,选择了两个简单的例子。在后面的章节中我们会详细介绍如何检验模型的可靠性和真实性。

例2-3: CEO的薪水和净资产的回报率

在CEO薪水的回归中,为了解可决系数,回归线的函数形式和观测次数如下:

我们利用该方程的R-平方,可以看到薪水的变异有多少由资产回报率解释。在这209位CEO的例子中,该公司的净资产回报率仅仅解释了薪水变化的1.3%。这意味着:还有其他影响薪水变异的因素,且它们的影响率达98.7%,如个人特点等因素。这些因素被包括在随机误差项中。

要点:在社会科学中,回归方程中的R-平方过低是正常的。一个显著低的R-平方值并不意味着OLS回归方程没有用。有的时候,解释变量是能够解释因变量的样本变异中非常实在的部分。

第六节 实验:简单线性回归模型参数估计

一 实验目的

本章实验在于通过实际案例对EViews软件的基本操作进行详细介绍,使学生了解和掌握EViews软件的常用操作,具体内容包括:

(1)EViews工作文件的创建、存储、调用;序列对象的基本操作;数据文件预处理的常用操作,如新序列的建立、图像、表格等。

(2)建立新文件、输入数据、扩展工作区间、数据初步分析和简单线性回归分析。

二 实验内容与步骤

我们通过一个简单的回归分析例子来显示一个EViews过程,不对EViews的详细功能展开讨论,目的是使学生先对EViews有个概括了解。

例2-4:某省人均可支配收入与人均年消费支出的数量关系分析。

STEP1:双击桌面上EViews快捷图标,打开EViews。

图2-14 新建工作簿窗口

STEP2:点击Eviews主画面顶部按钮File/New/Workfile(如图2-15),弹出workfile range对话框(图2-16)。在workfile frequency中选择Annual,在start date和end date中分别输入1991和2012,点击“OK”,出现图2-17画面,Workfile定义完毕。

图2-15 工作簿范围窗口

图2-16 新工作簿窗口

图2-17 建立新变量窗口

STEP3:点击Eviews主画面顶部按钮Objects/New Objects,弹出New Objects对话框(图2-18),在Type of object中选择Group,并给New Objects一个名字g1,然后点击“OK”,弹出一个表格Group对话框,(图2-19),在该对话框中即可输入变量及变量值。

图2-18 录入数据窗口

图2-19 数据组窗口

STEP4:点击图2-19表格中第一列顶部的灰色条,该列全部变蓝,输入变量名Y(人均年消费支出),然后在该列中即可输入变量Y的各年观测值;同理可定义第二列为变量X(人均可支配收入),并输入各年人均可支配收入的数值。这样XY两个变量被定义,结果如图2-20。

图2-20 X、Y线性图

STEP5:点击图2-20Group对话框中的View/Graph按钮,出现一个下拉菜单,出现图2-21画面。选择line,即可看见序列XY的线性图(图2-21)。

图2-21 冻结的线性图

STEP6:点击图2-20窗口中Freeze按钮,得到图的copy(图2-21),点击图2-21顶部的name,给其一个名字Graph01,这样就将图2-22保存在workfile中。图2-20与图2-21不同在于,图2-22是一个Graph类型的object,该线性图不随YX数据变化而变化,是独立的,可以对其进行编辑;而图2-21是Group类型的object,仅仅是YX数据的一种图形浏览形式,它随着YX数据变化而变化。

STEP7:点击Eviews主画面上的quick/estima equation,弹出Equation specification框(图2-22),在Equation specification下的空框中输入Y C

图2-22 普通最小二乘估计对话框

X,点击“OK”,得到YX回归模型估计结果(图2-24),该模型说明人均可支配收入X对人均消费支出Y具有较强的解释能力。

图2-23 回归结果

图2-24 新建工作簿选择窗口

例2-5:研究2012年中国各地区城市居民人均年消费支出和可支配收入之间的关系,做以人均年消费支出为因变量、以人均可支配收入为自变量的回归,估计。

Yi=β0 1 Xii

表2-7 2012年中国各地区城市居民人均年消费支出和可支配收入

资料来源:《中国统计年鉴2013》。

实验步骤:

STEP1:建立工作文件。首先,双击EViews图标,进入EViews主页。在菜单依次点击File\ New\ Workfile,出现对话框“Workfile Create”。在“Workfile frequency”中选择数据频率:Annual(年度), Weekly(周数据), Quartrly(季度), Daily-5 day week(每周), Semi Annual(半年)Daily-7 day week(每周)Monthly(月度)Undated or irreqular(未注明日期或不规则的)。

在本例中是截面数据,选择“Undated or irreqular”,如图2-25所示。并在“Data range”中输入Observations的数量,如“31”点击“ok”出现“Workfile UNTITLED”工作框。其中已有变量:“c”-截距项“resid”-剩余项。

图2-25 建立新变量窗口

STEP2:在“Objects”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,如图2-26所示,点击“OK”出现数据编辑窗口。若要将工作文件存盘,点击窗口上方“Save”,在“Save As”对话框中给定路径和文件名,再点击“ok”,文件即被保存。

图2-26 回归结果

STEP3:输入数据。

在数据编辑窗口中,首先按上行键“↑”,这时对应的“obs”字样的空格会自动上跳,在对应列的第二个“obs”有边框的空格键入变量名,如“Y”,再按下行键“↓”,对因变量名下的列出现“NA”字样,即可依顺序输入响应的数据。其他变量的数据也可用类似方法输入。

若要对数据存盘,点击“fire/Save As”,出现“Save As”对话框,在“Drives”点所要存的盘,在“Directories”点存入的路径(文件名),在“Fire Name”对所存文件命名,或点已存的文件名,再点“ok”。若要读取已存盘数据,点击“fire/Open”,在对话框的“Drives”点所存的磁盘名,在“Directories”点文件路径,在“Fire Name”点文件名,点击“ok”即可。

STEP4:在EViews主页界面点击“Quick”菜单,点击“Estimate Equation”,出现“Equation specification”对话框,选OLS估计,即选击“Least Squares”,键入“Y C X”,点击“ok”或按回车,即出现如图2-26那样的回归结果。也可以在EViews命令框中直接键入“LS Y C X”,按回车,即出现回归结果。

在本例中,参数估计的结果为:

STEP5:若要显示回归结果的图形,在“Equation”框中,点击“Resids”,即出现剩余项(Residual)、实际值(Actual)、拟合值(Fitted)的图形,如图2-27所示。

图2-27 拟合值、预测值与残差

三 实验小结

本章实验主要介绍一元线性回归模型的建模思路、方法及在EViews中的实现过程。运用一个实际案例详细的演示和说明了计量分析的基本操作步骤。通过学习可对EViews软件的基本操作有一个初步的了解,同时会发现,计量经济模型的复杂性和数据运算的烦琐都可以用EViews软件迎刃而解。

四 备择实验

表2-8是我国1985-2004年的财政收入Y(亿元)和国内生产总值X(亿元)的数据,试根据数据建立以收入为因变量,国内生产总值为自变量的简单线性回归模型,并解释回归系数的经济意义。

表2-8 我国1985-2004年财政收入和国内生产总值

本章小结

1.古典假设表述为:回归模型是线性的模型设定无误且含有误差项,误差项总体均值为0;所有解释变量与误差项都不相关;误差项观测值互不相关;误差项具有同方差;任何一个解释变量都不是其他解释变量的完全线性函数;误差项服从正态分布(不要求)。

2.估计量的两个最重要的性质是无偏性和最小方差性。无偏估计量是指被估计参数的均值(期望)与真实值相等。在给定的一类估计量(如无偏估计量),如估计值分布的方差在所有估计量中最小,则满足最小方差性。

3.在古典假设下,最小二乘估计量被证明具有最小方差性、线性和无偏性(或称BLUE,即最优线性无偏估计量),被命名为高斯-马尔科夫定理。当一个或多个古典假设不成立时(正态分布假设除外),在某些时候,随后章节将讨论,尽管最小二乘估计量仍然能够估计出参数估计量,但最小二乘估计量不再具有最小方差性(有效性)、线性和无偏性。

复习题

一、名词解释

1.总体回归函数

2.样本回归函数

3.随机干扰项

4.残差项

5.回归系数

6.最小二乘法

7.总离差平方和

8.回归平方和

9.残差平方和

10.拟合优度

二、简答题

1.在计量经济模型中,为什么会存在随机误差项?

2.总体回归模型与样本回归模型的区别与联系。

3.试述回归分析与相关分析的联系和区别。

4.最小二乘法的基本原理是什么?

5.参数估计量的无偏性和有效性的含义是什么?

6.简单线性回归模型的经典假设主要有哪些?违背这些经典假设的计量经济学模型是否就不能进行估计?

三、计算与分析题

1.已知一模型的最小二乘的回归结果如下:

标准差(45.2)(1.53)n=30 R2=0.31

其中,Y:政府债券价格(百美元), X:利率(%)。

回答以下问题:

(1)系数的符号是否正确,并说明理由;

(2)该模型参数的经济意义是什么。

2.有关某类居民的日收入X(元)与日消费Y(元)的10组观测资料如下:

据此可计算得:

建立消费(Y)对收入(X)的回归直线。