Python数据挖掘入门与实践
上QQ阅读APP看书,第一时间看更新

第2章 用scikit-learn估计器分类

用Python语言编写的scikit-learn库,实现了一系列数据挖掘算法,提供通用编程接口、标准化的测试和调参工具,便于用户尝试不同算法对其进行充分测试和查找最优参数值。有大量使用scikit-learn库的算法和工具。

本章讲解数据挖掘通用框架的搭建方法。有了这样一个框架,后续章节就可以把讲解重点放到数据挖掘应用和技术上面。

本章主要介绍如下几个概念。

估计器(Estimator):用于分类、聚类和回归分析。

转换器(Transformer):用于数据预处理和数据转换。

流水线(Pipeline):组合数据挖掘流程,便于再次使用。