上QQ阅读APP看书,第一时间看更新
3.5 线性回归的应用
使用模拟数据运行线性回归就像买了一辆新车却从来不开。这种强劲的能力需要在现实世界中得到展示。幸运的是,线上有许多可用的数据集可以测试你新获得的回归知识:
- 马萨诸塞大学阿默斯特分校在https://scholarworks.umass.edu/data提供各种类型的小型数据集。
- Kaggle在https://www.kaggle.com/datasets上为机器学习比赛提供各种类型的大规模数据集。
- Data.gov(https://catalog.data.gov)是一个由美国政府发起的开放数据项目,包含了许多有趣和实际的数据集。
大量的数据包含日期。例如。你可以通过https://www.dropbox.com/s/naw774olqkve7sc/311.csv?dl=0得到加利福尼亚州洛杉矶市拨打311非紧急电话的所有呼叫数据集。一个很好的追踪特征是每天、每周或者每月的呼叫频率。为了方便起见,清单3.6允许你获取数据的周频率计数。
清单3.6 解析原始CSV数据集
这段代码为你提供了线性回归的训练数据。变量freg
是一个字典类型,记录一个周期(例如每周)和对应的计数。一年有52周,所以当bucket
=7
时你将得到52条数据。
现在有了数据样本,你就有了必要的输入输出数据来运用本章学习的知识拟合一个回归模型了。另外,你可以使用学习的模型来插值或外推频率计数。