机器学习算法(原书第2版)
上QQ阅读APP看书,第一时间看更新

第3章 特征选择与特征工程

特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到负面影响。此外,数据很少是各向同性的,通常有一些特征可以确定样本的一般行为,而相关的其他特征则不提供任何额外的信息。因此,重要的是要清楚地观察数据集,并且了解用于减少特征数量或仅选择最佳特征的最常用算法。

本章将讨论以下主题:

如何使用scikit-learn内置数据集并将其拆分为训练集和测试集

如何管理缺失和分类功能

如何根据不同条件筛选和选择要素

如何规范、缩放和白化数据集

如何使用主成分分析(PCA)降低数据集的维度

如何在非线性数据集上执行PCA

如何提取独立组件并创建原子词典

如何使用t-SNE算法可视化高维数据集