5.2 逻辑回归_联邦学习实战-QQ阅读男生历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

5.2 逻辑回归

根据上一节对数据集的描述，可知本章的实验是一个二分类的模型训练，即对乳腺癌数据集中恶性肿瘤M（1）和良性肿瘤B（0）的分类。逻辑回归（Logistic Regression）是当前最常用的二分类模型，属于广义线性模型（Generalized Linear Model）家族，因其模型简单且效果较好被广泛使用。本章采用逻辑回归作为实验模型。

我们先简要回顾线性回归的定义。线性回归模型是通过对特征值x=（x₁，x₂，· · ·，x_n）进行线性组合来预测标签值y，即满足：

通常使用向量的形式简化表示为

其中W=（w₁；w₂；· · ·；w_n），X=（x₁，x₂，· · ·，x_n）。

利用式（5.2）得到的y值是一个连续值，而二元分类的输出是一个只包含0和1的离散值，为此，我们可以在式（5.2）连续值输出的基础上，再进行非线性的映射，即寻找一个可微的非线性函数f将离散标签值y与线性回归的预测连续值联系起来：

在逻辑回归中，我们使用逻辑斯蒂函数来充当这个非线性映射的角色，逻辑斯蒂函数的表示形式为

其函数图像如图5-2所示。

图5-2 逻辑斯蒂函数

可以看出，利用逻辑回归进行分类预测时，当线性回归预测值W^T+b≥0时，则判断为正例，输出为1；否则，判断为负例，输出0。