3.3.1 无监督学习
无监督学习(Unsupervised Learning)是机器学习的一个分支,主要解决训练样本在标签缺乏情况下的模式识别问题,这类算法主动学习的特性能够很好地满足互联网金融机构对于反欺诈场景的业务需求。聚类(Clustering)是无监督学习中应用最广的一种算法,它的学习目标是将样本集划分为若干个不相交的簇,每一个簇都具备特定的规律。在聚类的时候,我们希望簇内相似度高,并且簇间相似度低,这样才能使聚类后的结果区分度最优。聚类有多种方式,可以基于距离、概率、密度等给出不同的计算结果。在反欺诈场景中,建模人员既可以观察聚类结果,直接找出异常簇作为疑似欺诈客群,又可以利用簇内相似性的原理,将与欺诈客群处于同一个簇的其他样本打标,扩充标签数据后训练分类模型。
孤立森林(Isolation Forest)是另一种在反欺诈场景中被尝试过的无监督算法,于2008年被周志华教授团队首先提出。与聚类算法通过距离、密度等量化指标识别异常样本不同,孤立森林基于二叉搜索树原理,利用多棵树的随机划分,找出最容易被孤立出来的样本作为异常样本。异常样本到根节点的平均路径长度,则可以看作是该样本的异常程度,平均路径长度越短,异常程度越高。由于原理不同,孤立森林可以与聚类相融合,从不同角度量化样本的异常程度,从而提高召回样本的准确性。
在深度学习中也有一种无监督学习算法,自编码器(Autoencoder)。它通过神经网络结构将原始样本从高维空间压缩到低维空间,从而最大化保留样本的信息量。自编码器分为两部分:第一部分是编码器(Encoder),它的作用是将样本集通过多层网络映射到一个低维空间;第二部分是解码器(Decoder),在训练时通过反向传播不断优化网络参数,使得模型的损失函数最小。编码器留下信息量最大的维度,同时解码器将低维空间还原到样本集原始的高维空间,其中与原始分布差异较大的样本,可以看作异常样本。
自编码器对于训练样本的数量和维度有一定要求,在样本量足够大的情况下可以尝试这种深度学习方法,找出疑似异常客户。