2.1 使用真实数据
当你学习机器学习时,最好使用真实世界的数据而不是人工数据集进行实验。幸运的是,现在有数以千计的开放数据集可供你选择,涵盖各个领域。你可以从以下几个地方获取数据:
· 流行的开放数据存储库:
◆ OpenML.org(https://openml.org)
◆ Kaggle.com(https://kaggle.com/datasets)
◆ PapersWithCode.com(https://paperswithcode.com/datasets)
◆ UC Irvine Machine Learning Respository(https://archive.ics.uci.edu/ml)
◆ 亚马逊的AWS数据集(https://registry.opendata.aws)
◆ TensorFlow数据集(https://tensorflow.org/datasets)
· Meta portals(它们列出了开放数据存储库):
◆ DataPortals.org(https://dataportals.org)
◆ OpenDataMonitor.eu(https://opendatamonitor.eu)
· 列出许多流行的开放数据存储库的其他页面:
◆ 维基百科的机器学习数据集列表(https://homl.info/9)
◆ Quora.com(https://homl.info/10)
◆ subreddit数据集(https://reddit.com/r/datasets)
在本章中,我们将使用来自StatLib存储库的加州房价数据集(见图2-1)[1]。该数据集基于1990年加州人口普查的数据。它并不是最新的数据(当时你还能负担得起一个湾区的好房子),但它有很多可以学习的特性,所以我们假设它是最新的数据。出于教学目的,我添加了一个分类属性并删除了一些特征。
图2-1:加州房价