![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
6.5.1 示例1
我们看看第4章讨论的来自真实例子的两个变量HI_BALANCE(个人信用卡交易最高余额)和RECENCY_MOS(上次购买至今间隔的月数)。SRD数据挖掘流程包括以下两步:
1)将变量HI_BALANCE和RECENCY_MOS的值分别排序,并分别用于定义排序值变量rHI_BALANCE和rRECENCY_MOS。可以由大到小,也可以由小到大。
2)对这两个已经排序的变量进行对称处理。
这一步采用SAS程序RANK,如下。这个程序用来创建排序值变量rHI_BALANCE和rRECENCY_MOS。选项“normal=TUKEY”用于进行对称化处理。输入数据是DTReg,输出数据(如,对称的排序数据)是DTReg_NORMAL。SAS程序如下:
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/069-2-i.jpg?sign=1738828068-ToPklNxtkUUgbdmJKAmaAtfBXsbuZ1hn-0-e0e35c5b6d8c4b34445c587d066cff80)
示例1的讨论
1)图6.2和图6.3分别是HI_BALANCE和rHI_BALANCE的茎叶图和箱线图。HI_BALANCE和rHI_BALANCE的偏度值分别是1.0888和0.0098。
2)图6.4和图6.5分别是RECENCY_MOS和rRECENCY_MOS的茎叶图和箱线图。RECENCY_MOS和rRECENCY_MOS的偏度值分别是0.0621和-0.0001。
3)注意:茎叶图变成了直方图,这是因为样本量很大,有2000个。这个图形提供了分布形状的细节特征。
我承认自己有点犹豫,为了推进SRD方法,我只选择了对顺序数据进行处理,把重新编码的数值当成区间数据。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a2.jpg?sign=1738828068-3iXwaNRLkybNUPMt848RV4Ksgh1EYxNg-0-345eec411536c94fa63f658cc5d61c58)
图6.2 HI_BALANCE的茎叶图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a3.jpg?sign=1738828068-V2rmCGBsXEO0ZF8vj9Cws71kHMVhvO5k-0-a0d84293a33fdf39f1deced32f110c11)
图6.3 rHI_BALANCE的直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a4.jpg?sign=1738828068-GxQ8nCAC60NlUVT0dyjinqEbM89Fb8Ks-0-3514520b58232e739c72e28e22a72b11)
图6.4 RECENCY_MOS的直方图和箱线图
对数据进行对称化处理确实有助于校直数据。在无散点图的情况下,两对变量(HI_BALANCE和RECENCY_MOS以及用SRD法重新表述的变量rHI_BALANCE和rRECENCY_MOS)的相关系数分别为-0.6412和-0.100 63(见表6.1和表6.2)。所以说,SRD法改善了两个原始变量的预测关系,改善程度达到56.9%(=abs(-0.100 63)-abs(-0.064 12))/abs(-0.064 21)),其中abs=绝对值,即省去负号。总之,变量对(rHI_BALANCE,rRECENCY_MOS)比原来的那对变量具有更高的预测能力,为建模过程提供了更大空间。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a5.jpg?sign=1738828068-xPBtxlrayegl7ZJjTvQ0el0JtTuhaXf1-0-4b56a2f3f94f933a26ab422418171a01)
图6.5 rRECENCY_MOS的直方图和箱线图
表6.1 HI_BALANCE和RECENCY_MOS的相关系数
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b1.jpg?sign=1738828068-uL9qWAgfsGzzkf2O5i2DWSWbqzpWyJRB-0-1a5843ac4c0b6fac82f7d73079c4146f)
表6.2 rHI_BALANCE,rRECENCY_MOS的相关系数
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b2.jpg?sign=1738828068-tLnZXs0vlxJrwRF8tX02kaJZngLQKgsB-0-77ba116486370287e250e9fab3a21e4e)