上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.2 逻辑回归
根据上一节对数据集的描述,可知本章的实验是一个二分类的模型训练,即对乳腺癌数据集中恶性肿瘤M(1)和良性肿瘤B(0)的分类。逻辑回归(Logistic Regression)是当前最常用的二分类模型,属于广义线性模型(Generalized Linear Model)家族,因其模型简单且效果较好被广泛使用。本章采用逻辑回归作为实验模型。
我们先简要回顾线性回归的定义。线性回归模型是通过对特征值x=(x1,x2,· · ·,xn)进行线性组合来预测标签值y,即满足:
通常使用向量的形式简化表示为
其中W=(w1;w2;· · ·;wn),X=(x1,x2,· · ·,xn)。
利用式(5.2)得到的y值是一个连续值,而二元分类的输出是一个只包含0和1的离散值,为此,我们可以在式(5.2)连续值输出的基础上,再进行非线性的映射,即寻找一个可微的非线性函数f将离散标签值y与线性回归的预测连续值联系起来:
在逻辑回归中,我们使用逻辑斯蒂函数来充当这个非线性映射的角色,逻辑斯蒂函数的表示形式为
其函数图像如图5-2所示。
图5-2 逻辑斯蒂函数
可以看出,利用逻辑回归进行分类预测时,当线性回归预测值WT+b≥0时,则判断为正例,输出为1;否则,判断为负例,输出0。