蛋白质结合位点预测及辅助分子对接
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.5.2 使用随机森林方法进行蛋白质结合位点的预测

与蛋白质-小分子配体结合位点相比,蛋白质-蛋白质分子的结合表面较为平坦;虽然有疏水性区域,但其聚集程度较低,在几何特征及物理化学性质方面,它也不像蛋白质-小分子配体结合位点那样具有突出、易于区分的特征。所以蛋白质-蛋白质结合位点预测的难度更大一些。

随机森林是一个包含多个决策树的分类器,并且其输出的类别是由森林中每棵树输出的类别的众数而定。作为一种机器学习算法,它具有诸多优点。比如,对于多种数据资料,可以产生高准确度的分类器;能处理大量的输入变量,并且能评估变量的重要性;对于不平衡数据,能平衡误差等等。

我们提出了一个基于单块的残基属性定义模型用来描述残基特征,即把目标残基周围的9个残基组成的块的属性作为它的属性。把这些属性作为输入特征向量,用随机森林构建预测器。对于配体结合位点数据集,这个预测器表现良好。但是这个基于单块的模型用于蛋白质-蛋白质结合位点数据集时,未能取得理想的准确率。

考虑到蛋白质-蛋白质结合位点特征不明显,对残基的定义,增加了属性的数量,同时考虑目标残基周围远近范围残基分布的特点。这样,我们设计了一个基于多块的残基属性定义模型用来描述残基特征。对于蛋白质-蛋白质结合位点数据集,与最近发表的方法比较,由基于多块的模型训练得到的随机森林预测器取得了较好的结果。