Spark机器学习进阶实战
上QQ阅读APP看书,第一时间看更新

第二篇 算法篇

第3章 构建分类模型

巧者劳而知者忧,无能者无所求。

——《庄子·列御寇》

灵巧的人多劳累而聪慧的人多忧患,没有能耐的人也就没有什么追求。

庄子把人分为灵巧的人、聪慧的人、没有能耐的人,体现了简单的分类思想。分类是依据历史数据形成刻画事物特征的类识别,进而预测未来数据的归类情况。比如庄子根据前人经验,得出灵巧的人、智慧的人、没有能耐的人的特征,然后根据这些特征对人群进行识别,确定人群分类情况。

本章重点讲解分类模型的常用算法,包括逻辑回归、朴素贝叶斯、SVM模型、决策树模型、K-近邻等,以及如何对分类模型进行效果评估,并使用分类模型进行App数据的分类实现。