上QQ阅读APP看书,第一时间看更新
1.4.2 特征工程的主要内容
特征工程的主要内容包括特征选择、特征处理、特征提取等。针对这些概念,具体说明如下:
1.特征选择
特征选择是指从搜集的众多原始特征中选择强相关特征、排除弱相关特征及冗余特征的过程。针对具体业务问题,我们通常由相关业务领域的业务专家基于业务经验给出与预测目标相关的一系列特征,构成备选特征集,然后通过特征选择筛选出构建模型所需要的特征。特征选择的方法包括过滤式方法(Filter)、嵌入式方法(Embedded)和包裹式方法(Wrapper),本书将在第4章中详细讲解。
2.特征处理
特征处理是指对搜集整理的原始特征变量数据进行必要加工处理的过程,使得特征变量的数据能够更好地满足统计分析或机器学习需求,能够更好地契合统计分析方法或机器学习算法的适用条件或假设条件。特征处理包括特征归一化、特征标准化、特征分箱(离散化)等,本书将在第5章中详细讲解。
3.特征提取
特征提取也称降维,其基本思想是将原始的特征变量映射到维度更低的特征空间中,是有别于特征选择的另外一种实现特征变量数量减少的有效方式。常用的特征提取方式有两种:一种是主成分分析(PCA),属于无监督降维技术;另一种是线性判别分析(LDA),属于有监督降维技术,本书将在第6章中详细讲解。