3.1 scikit-learn的toy数据集_机器学习算法（原书第2版）-QQ阅读中文科幻网

上QQ阅读APP看书，第一时间看更新

3.1 scikit-learn的toy数据集

scikit-learn提供了一些用于测试的内置数据集，这些数据集包含在sklearn.datasets中，且具有通用的结构：数据实例变量包含整个输入集X，而目标包含用于分类的标签或用于回归的目标值。例如，考虑如下波士顿房价的数据集（用于回归问题的测试）：

这个数据集包含506个样本、13个特征和1个目标值。在本书中，我们将使用该数据集用于回归问题的测试，将MNIST手写数字数据集（load_digits（））用于分类问题的测试。scikit-learn还提供从头开始创建用户自己的特定数据集的功能，相关命令分别是make_classification（）、make_regression（）和make_blobs（），最后一条命令特别适用于测试聚类算法。这些数据集易于使用，在许多情况下，是测试模型而不加载更复杂数据集的最佳选择。

访问http://scikit-learn.org/stable/datasets/以了解更多信息。显然，由scikit-learn提供的MNIST数据集中的数据是十分有限的。如果想要尝试使用原始的数据集，请参阅http://yann.lecun.com/exdb/mnist/。在这里，你可以下载该数据集的完整版本，其中包含已经被分为训练集和测试集的总共70000个手写数字。