机器学习实战:基于Scikit-Learn、Keras和TensorFlow(原书第3版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 使用真实数据

当你学习机器学习时,最好使用真实世界的数据而不是人工数据集进行实验。幸运的是,现在有数以千计的开放数据集可供你选择,涵盖各个领域。你可以从以下几个地方获取数据:

· 流行的开放数据存储库:

  ◆ OpenML.org(https://openml.org

  ◆ Kaggle.com(https://kaggle.com/datasets

  ◆ PapersWithCode.com(https://paperswithcode.com/datasets

  ◆ UC Irvine Machine Learning Respository(https://archive.ics.uci.edu/ml

  ◆ 亚马逊的AWS数据集(https://registry.opendata.aws

  ◆ TensorFlow数据集(https://tensorflow.org/datasets

· Meta portals(它们列出了开放数据存储库):

  ◆ DataPortals.org(https://dataportals.org

  ◆ OpenDataMonitor.eu(https://opendatamonitor.eu

· 列出许多流行的开放数据存储库的其他页面:

  ◆ 维基百科的机器学习数据集列表(https://homl.info/9

  ◆ Quora.com(https://homl.info/10

  ◆ subreddit数据集(https://reddit.com/r/datasets

在本章中,我们将使用来自StatLib存储库的加州房价数据集(见图2-1)[1]。该数据集基于1990年加州人口普查的数据。它并不是最新的数据(当时你还能负担得起一个湾区的好房子),但它有很多可以学习的特性,所以我们假设它是最新的数据。出于教学目的,我添加了一个分类属性并删除了一些特征。

图2-1:加州房价