1.7 本章回顾与习题
1.7.1 本章回顾
本章主要介绍了Stata概述、Stata基本操作及数据处理,包括Stata 16.0窗口说明及基本设置、Stata 16.0命令的语法格式、Stata 16.0运算符与函数、分类变量和定序变量的基本操作、常用的几种处理数据的操作等。
1.Stata 16.0窗口说明及基本设置
1)Stata 16.0有菜单栏、工具栏,主界面包括5个区域:History、Variables、Command、Results、Properties。
2)Stata 16.0的MP版本可以允许用户设定自己偏好的界面语言。
3)选择菜单“数据”|“数据编辑器”|“数据编辑器(编辑)”命令,或者直接在“命令窗口”中输入“edit”命令,即可新建或编辑样本观测值、变量。也可以通过在命令窗口中输入命令“input”的方式来输入数据。
4)打开现有的Stata文件有3种方式:
· 一是直接双击该数据文件即可打开,前提是文件默认打开程序已设置为Stata。
· 二是在Stata主界面菜单栏选择“文件”|“打开”命令,找到文件后打开即可。
· 三是在主界面的命令窗口中使用use命令。
5)在Stata主界面选择“文件|导入”命令,可导入Excel电子表格、文本数据、SPSS数据等其他格式的数据。
2.Stata 16.0命令的语法格式
Stata命令的语法格式为:
[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]
· []表示可以省略或者根据需要使用的选项,只有command是必不可少的,对于其他各个组成部分,用户都可以根据自身研究的需要合理选用。
· command为命令中的命令名称。
· varlist为命令中的变量列表,可以设置一个或者多个变量,多个变量之间要用空格分隔开。
· by varlist是按照变量值分类操作的命令,表示对变量分类的子集分别执行相应的操作。
· =exp用来统一改变原有变量的值或生成新变量替换原变量,主要包括 generate和 replace两个命令。
· if exp(条件表达式)用于对样本集进行筛选,只对符合相关条件的样本子集执行相应的操作。
· in range同样用于对样本集进行筛选,与条件表达式的区别在于不依赖变量是否符合某一条件,而是直接使用范围内的样本观测值,对筛选出的样本执行相应的操作。
· weight的作用在于对样本观测值进行加权,通常用于加权最小二乘回归分析。
· options可以在很多命令中使用,不同命令之间的差异比较大。
3.Stata 16.0运算符与函数
在Stata 16.0中,我们可以使用算术运算符、关系运算符和逻辑运算符。
函数用于表达式中,表达式在命令中缩写为exp,可以在任何表达式中调用函数。函数的参数可以是包括其他函数在内的任何表达式。函数的参数用圆括号括起来,如果有多个参数,则参数之间用逗号分隔开。Stata 16.0共有9大类函数,分别是日期和时间函数、数学函数、矩阵函数、编程函数、随机数函数、时间序列函数、统计函数、字符串函数、三角函数。
4.分类变量和定序变量的基本操作
常用命令包括tabulate、generate、sort。
5.常用的几种处理数据的操作
在Stata 16.0中,数据类型主要包括3种,分别是数值型数据、字符型数据和日期型数据。数值型数据由数字、正负号和小数点所组成,包括5个子类,默认类型为float型。字符型数据可由字母、特殊符号和数字所组成,一般会被保存为str#格式,str后面的数字代表最大字符长度,如str8表示可容纳最大长度为8个字符的字符型变量。字符型数据一般用英文状态下的引号""进行标注,且引号一般不被视为字符型变量的一部分。日期型数据有多种表达方式,例如2019年6月25日,可以写为20190625,也可以写为25062019等。
· 对数据进行长短变换的命令:reshape。
· 对数据进行类型变换的命令:encode、decode、destring、tostring。
· 生成随机数的命令:set obs、generate。
· 数据压缩的命令:compress。
· 按变量合并或拆分数据文件的命令:merge、drop。
· 按样本观测值合并或拆分数据文件的命令:append、drop。
· 添加标签的命令:label。
· 对数据进行排序的命令:sort gsort。
1.7.2 本章习题
1.打开Stata程序,依次进行以下操作:
1)将Excel电子表格格式的数据文件“习题1”导入Stata并保存。
2)为变量“year”“profit”“invest”“labor”“rd”分别添加相应的变量标签“年份”“营业利润水平”“固定资产投资”“平均职工人数”“研究开发支出”。
3)将数据文件中的样本观测值按变量“profit”从小到大排列。
4)将数据文件中的样本观测值按变量“year”从大到小排列。
5)将变量“profit”从数值变量转换成字符串变量。
6)基于上一步操作,再将变量“profit”从字符串变量转换成数值变量。
2.将TXT文本数据文件“习题1A”导入Stata并保存。
3.打开Stata程序,依次进行以下操作:
1)在Stata中设置一个包含25个样本的数据集,里面包含[13,18]区间的25个随机数据。
2)在Stata中设置一个包含25个样本的数据集,里面包含[1,18]区间的25个随机数据,且取值为整数。
3)对生成的数据文件进行压缩。