1.5 分类变量和定序变量的基本操作_Stata统计分析从入门到精通-QQ阅读中文短篇网

上QQ阅读APP看书，第一时间看更新

Stata统计分析从入门到精通

1.5　分类变量和定序变量的基本操作

下载资源：\video\第1章\…

下载资源：\sample\第1章\数据1A

在很多情况下，我们会用到分类变量（虚拟变量）的概念，分类变量的用途是通过定义值的方式对观测样本进行分类。例如，根据数据某一变量特征的不同把观测样本分为4类，就需要建立4个分类变量A、B、C、D，如果观测样本属于A类，其对应的分类变量A的值就为1，对应的分类变量B、C和D的值就为0。定序变量的用途是根据数据的数值大小将数据分到几个确定的区间，其在广义上也是一种分类。下面我们就用示例来讲解一下分类变量和定序变量的基本操作。

“数据1A”数据文件中有3个变量，分别是place、amount、grade。在命令窗口中输入命令：

tabulate grade,generate（grade）（本命令的含义是生成新的分类变量）

随后可以看到如图1.39所示的生成的新分类变量，在数据编辑器界面可以看到如图1.40所示的生成的分类数据grade1和grade2。

图1.39　生成的新分类变量

图1.40　生成的分类数据grade1和grade2

然后输入命令：

generate amount1=autocode（amount,3,1,25）（本命令的含义是生成新的定序变量进行定序，分到3个标志区间）

sort amount1（本命令的含义是对amount进行排序）

在数据编辑器界面可以看到如图1.41所示的生成的变量amount1数据。该变量将amount的取值区间划分成等宽的3组。

图1.41　进行排序

最后输入命令：

generate amount2=group（4）（本命令的含义是生成新的分类变量按数值大小进行4类定序）

输出结果如图1.42所示，系统生成了变量amount2，该变量将amount的取值按大小分成了4个序列。

图1.42　进行4类定序