2.1 使用真实数据_机器学习实战：基于Scikit-Learn、Keras和TensorFlow（原书第3版）-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

当你学习机器学习时，最好使用真实世界的数据而不是人工数据集进行实验。幸运的是，现在有数以千计的开放数据集可供你选择，涵盖各个领域。你可以从以下几个地方获取数据：

· 流行的开放数据存储库：

　　◆ OpenML.org（https://openml.org）

　　◆ Kaggle.com（https://kaggle.com/datasets）

　　◆ PapersWithCode.com（https://paperswithcode.com/datasets）

　　◆ UC Irvine Machine Learning Respository（https://archive.ics.uci.edu/ml）

　　◆ 亚马逊的AWS数据集（https://registry.opendata.aws）

　　◆ TensorFlow数据集（https://tensorflow.org/datasets）

· Meta portals（它们列出了开放数据存储库）：

　　◆ DataPortals.org（https://dataportals.org）

　　◆ OpenDataMonitor.eu（https://opendatamonitor.eu）

· 列出许多流行的开放数据存储库的其他页面：

　　◆ 维基百科的机器学习数据集列表（https://homl.info/9）

　　◆ Quora.com（https://homl.info/10）

　　◆ subreddit数据集（https://reddit.com/r/datasets）

在本章中，我们将使用来自StatLib存储库的加州房价数据集（见图2-1）[1]。该数据集基于1990年加州人口普查的数据。它并不是最新的数据（当时你还能负担得起一个湾区的好房子），但它有很多可以学习的特性，所以我们假设它是最新的数据。出于教学目的，我添加了一个分类属性并删除了一些特征。

图2-1：加州房价