1.2 类型结构特征_数据科学与机器学习：数学与统计方法-QQ阅读男生武侠网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.2 类型结构特征

我们一般将特征分为定量特征和定性特征。定量特征具有“数值量”，如身高、年龄、出生人数等，它可以是连续的，也可以是离散的。连续的定量特征在可能的连续范围内取值，如身高、电压或农作物产量，这种特征体现了总是可以进行更精确测量的思想。离散的定量特征具有可数的可能性，如计数。

与此相反，定性特征没有数值含义，但它们可能的取值可以划分成固定数量的类别，如{M,F}表示性别，{蓝色，黑色，棕色，绿色}表示眼睛的颜色。因此，这样的特征也称为分类特征。一个简单的经验法则是，如果对数据进行平均没有意义，那么它就是分类特征。例如，对眼睛颜色进行平均是没有意义的。当然，我们仍然可以用数字来表示分类数据，比如，1表示蓝色，2表示黑色，3表示棕色，但是这样的数字没有量化意义。分类特征通常称为因子（factor）。

在操作、汇总和显示数据时，正确指定变量（特征）的类型十分重要。我们使用文献[73]提供的nutrition_elderly数据集来说明这一点，该数据集是有关老人营养的研究结果，它包含226名老人（行）的13个特征（列）的营养测量数据。该数据集可以通过网址http://www.biostatisticien.eu/springeR/nutrition_elderly.xls获得。

Excel文件可以通过read_excel方法直接读入pandas：