机器学习算法(原书第2版)
上QQ阅读APP看书,第一时间看更新

3.1 scikit-learn的toy数据集

scikit-learn提供了一些用于测试的内置数据集,这些数据集包含在sklearn.datasets中,且具有通用的结构:数据实例变量包含整个输入集X,而目标包含用于分类的标签或用于回归的目标值。例如,考虑如下波士顿房价的数据集(用于回归问题的测试):

这个数据集包含506个样本、13个特征和1个目标值。在本书中,我们将使用该数据集用于回归问题的测试,将MNIST手写数字数据集(load_digits())用于分类问题的测试。scikit-learn还提供从头开始创建用户自己的特定数据集的功能,相关命令分别是make_classification()、make_regression()和make_blobs(),最后一条命令特别适用于测试聚类算法。这些数据集易于使用,在许多情况下,是测试模型而不加载更复杂数据集的最佳选择。

访问http://scikit-learn.org/stable/datasets/以了解更多信息。显然,由scikit-learn提供的MNIST数据集中的数据是十分有限的。如果想要尝试使用原始的数据集,请参阅http://yann.lecun.com/exdb/mnist/。在这里,你可以下载该数据集的完整版本,其中包含已经被分为训练集和测试集的总共70000个手写数字。