1.7 本章回顾与习题_Stata统计分析从入门到精通-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

Stata统计分析从入门到精通

1.7　本章回顾与习题

1.7.1　本章回顾

本章主要介绍了Stata概述、Stata基本操作及数据处理，包括Stata 16.0窗口说明及基本设置、Stata 16.0命令的语法格式、Stata 16.0运算符与函数、分类变量和定序变量的基本操作、常用的几种处理数据的操作等。

1．Stata 16.0窗口说明及基本设置

1）Stata 16.0有菜单栏、工具栏，主界面包括5个区域：History、Variables、Command、Results、Properties。

2）Stata 16.0的MP版本可以允许用户设定自己偏好的界面语言。

3）选择菜单“数据”|“数据编辑器”|“数据编辑器（编辑）”命令，或者直接在“命令窗口”中输入“edit”命令，即可新建或编辑样本观测值、变量。也可以通过在命令窗口中输入命令“input”的方式来输入数据。

4）打开现有的Stata文件有3种方式：

·　一是直接双击该数据文件即可打开，前提是文件默认打开程序已设置为Stata。

·　二是在Stata主界面菜单栏选择“文件”|“打开”命令，找到文件后打开即可。

·　三是在主界面的命令窗口中使用use命令。

5）在Stata主界面选择“文件|导入”命令，可导入Excel电子表格、文本数据、SPSS数据等其他格式的数据。

2．Stata 16.0命令的语法格式

Stata命令的语法格式为：

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [,options]

·　[]表示可以省略或者根据需要使用的选项，只有command是必不可少的，对于其他各个组成部分，用户都可以根据自身研究的需要合理选用。

·　command为命令中的命令名称。

·　varlist为命令中的变量列表，可以设置一个或者多个变量，多个变量之间要用空格分隔开。

·　by varlist是按照变量值分类操作的命令，表示对变量分类的子集分别执行相应的操作。

·　=exp用来统一改变原有变量的值或生成新变量替换原变量，主要包括 generate和 replace两个命令。

·　if exp（条件表达式）用于对样本集进行筛选，只对符合相关条件的样本子集执行相应的操作。

·　in range同样用于对样本集进行筛选，与条件表达式的区别在于不依赖变量是否符合某一条件，而是直接使用范围内的样本观测值，对筛选出的样本执行相应的操作。

·　weight的作用在于对样本观测值进行加权，通常用于加权最小二乘回归分析。

·　options可以在很多命令中使用，不同命令之间的差异比较大。

3．Stata 16.0运算符与函数

在Stata 16.0中，我们可以使用算术运算符、关系运算符和逻辑运算符。

函数用于表达式中，表达式在命令中缩写为exp，可以在任何表达式中调用函数。函数的参数可以是包括其他函数在内的任何表达式。函数的参数用圆括号括起来，如果有多个参数，则参数之间用逗号分隔开。Stata 16.0共有9大类函数，分别是日期和时间函数、数学函数、矩阵函数、编程函数、随机数函数、时间序列函数、统计函数、字符串函数、三角函数。

4．分类变量和定序变量的基本操作

常用命令包括tabulate、generate、sort。

5．常用的几种处理数据的操作

在Stata 16.0中，数据类型主要包括3种，分别是数值型数据、字符型数据和日期型数据。数值型数据由数字、正负号和小数点所组成，包括5个子类，默认类型为float型。字符型数据可由字母、特殊符号和数字所组成，一般会被保存为str#格式，str后面的数字代表最大字符长度，如str8表示可容纳最大长度为8个字符的字符型变量。字符型数据一般用英文状态下的引号""进行标注，且引号一般不被视为字符型变量的一部分。日期型数据有多种表达方式，例如2019年6月25日，可以写为20190625，也可以写为25062019等。

·　对数据进行长短变换的命令：reshape。

·　对数据进行类型变换的命令：encode、decode、destring、tostring。

·　生成随机数的命令：set obs、generate。

·　数据压缩的命令：compress。

·　按变量合并或拆分数据文件的命令：merge、drop。

·　按样本观测值合并或拆分数据文件的命令：append、drop。

·　添加标签的命令：label。

·　对数据进行排序的命令：sort gsort。

1.7.2　本章习题

1．打开Stata程序，依次进行以下操作：

1）将Excel电子表格格式的数据文件“习题1”导入Stata并保存。

2）为变量“year”“profit”“invest”“labor”“rd”分别添加相应的变量标签“年份”“营业利润水平”“固定资产投资”“平均职工人数”“研究开发支出”。

3）将数据文件中的样本观测值按变量“profit”从小到大排列。

4）将数据文件中的样本观测值按变量“year”从大到小排列。

5）将变量“profit”从数值变量转换成字符串变量。

6）基于上一步操作，再将变量“profit”从字符串变量转换成数值变量。

2．将TXT文本数据文件“习题1A”导入Stata并保存。

3．打开Stata程序，依次进行以下操作：

1）在Stata中设置一个包含25个样本的数据集，里面包含[13,18]区间的25个随机数据。

2）在Stata中设置一个包含25个样本的数据集，里面包含[1,18]区间的25个随机数据，且取值为整数。

3）对生成的数据文件进行压缩。

1.7 本章回顾与习题

1.7.1 本章回顾