3.5 平滑散点图
平滑散点图是一种揭示大数据中去除云团的数据关系的较好的图示方法。平滑是一种去除异常点的方法,通过对相似数据求平均值保留了可预测的数据间的关系(平滑)。平滑一个X-Y散点图包括对目标(因)变量Y和连续预测(自)变量X求平均值[2]。下面是平滑散点图的六步法:
1)在X-Y坐标图上画出(Xi,Yi)数据点。
2)对于连续变量X,将X轴分成几个没有重叠的相邻区间(片),一个常用的做法是将X轴分成相等大小的10份(也称作十分位),加在一起正好等于整个样本[3-5],每一份占样本的10%。对于一个类别变量X,这样的分片是无法进行的。类别标签(水平)定义了单点分片(single-point slice),每一份代表占样本的百分比,它取决于样本中的类别水平的分布情况。
3)在每一个片内计算X的平均水平,要么是均值,要么是中位数。这个值称作平滑X值,记作sm_X。
4)在每个片内计算Y的平均水平。
a.对于连续型Y,均值或中位数都可以作为平均水平。
b.对于类别型Y,只有两种水平,通常设定为数值0和1。显然,只有均值可以算出来,得出的是Y的比例或Y的比率。
c.如果Y超过2个水平,比如k个,显然此时无法计算出平均水平。(特定水平的比例是可以计算出来的,但这超出了本书的范畴。)
i.适当的程序,包括绘制所有任意两个水平的散点图,都很烦琐而且很少有人这么做。
ii.我们在18.5节讨论最常用到的程序,该程序易用且高效。
d.平滑Y值记为sm_Y。
5)画出平滑点对(平滑Y值,平滑X值),绘制平滑散点图。
6)将这些平滑点对联结起来,从左边第一个平滑点对开始,联结到右边最后一个平滑点对。这条光滑的曲线揭示了X和Y的关系。
第44章提供了绘制平滑散点图的子程序。
现在我们回到示例3.1和示例3.2。HI数据被分在10个同等大小的片中,总计有10 200个观察值。片(从0到9)内HI和TC、RS的均值(平滑点对)分别见表3.3和表3.4。这些平滑点对被连成一条曲线。
表3.3 平滑点对:长途电话费TC和家庭收入HI
表3.4 平滑点对:回应RS和家庭收入HI
图3.4的TC平滑曲线清晰地展示了线性关系。所以,rTC,HI的值0.09是表明TC和HI具有弱的正线性关系的一个可靠指标。进一步,在TC模型中纳入HI(不做重述)是可行的,而且我们推荐这样做。注意,小r值并不妨碍将HI纳入模型进行检验。相关讨论见6.5.1节。
图3.4 TC和HI的平滑散点图
图3.5的RS平滑曲线表明RS和HI之间不是线性关系。所以,rRS,HI值0.01是没有意义的。非线性引发了下面这个问题:是RS平滑曲线表明存在RS和HI之间的一般关联性,隐含一种非线性关系,还是RS平滑曲线展示的是一幅随机散布,意味着RS和HI之间不存在任何关系?这个答案在图形化非参数一般关联性检验里[5]。
图3.5 RS和HI的平滑散点图