蛋白质结合位点预测及辅助分子对接
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4.3 蛋白质-蛋白质结合位点预测

蛋白质-蛋白质复合体的实验鉴定是一个昂贵的和耗费时间的过程,且很难应用于短暂型复合体,而同源模建进行复合体的预测只有在相对少数情况是适用的。除同源模建外,另一个预测途径是蛋白质-蛋白质对接[68]。 对接程序基于形状互补和静电作用的互相影响进行预测,通过交互面将两个或更多已知的结构或可靠的3D立体结构模型契合在一起。虽然在该领域中已经取得了一些成功和进展[6970],但这些方法因为蛋白质-蛋白质结合中相互作用力及其构象变化的复杂性等问题所困扰。

随着结构已知蛋白质数目的增长,更多研究小组已经开始提取相互作用蛋白质复合体的基本特征,如形状互补[5171~76],化学互补[7778]以及两者的结合[79~81]

对蛋白质-蛋白质相互作用中扮演重要角色的特定氨基酸的预测是实现破译蛋白质的功能机制的重要步骤。蛋白质相互作用表面的残基信息有各种重要的应用,如相互作用实验确认中的突变设计、理解分子识别机制和蛋白质-蛋白质相互作用的药物开发、了解分子识别的机制预测复合体结构和构建详细的代谢变化路径图等。涉及相互作用的残基预测已经成为一个热门研究课题。

许多研究者尝试描述蛋白质-蛋白质相互作用面上的残基特征[2082~85]。早期工作受蛋白质数据库PDB中寡聚蛋白质的有限子集规模所限制[86],近期已经能够依据相互作用强弱和复合体是否同源来对寡聚体做进一步的区分[84-85]。这些研究揭示结合面上相互作用的残基在每个子集中是不同的,如同源二聚体界面比异源二聚体有更多疏水残基,而且,结合力强的短暂型复合体倾向于包含具有较大个头的单体,其结合界面相对不平并且常常比结合力弱的短暂型复合体疏水性更强[84]。基于这些结论,相互作用残基预测可能只能依赖序列数据[85]

最近的研究表明,蛋白质表面热点(这些残基如果突变成丙氨酸将引起结合能大幅下降)有可能用于预测其物理化学性质[8788]。热点也被应用于在蛋白质结合位点中发现保守残基,热点残基能被用来预测蛋白质-蛋白质结合位点[89~91]

尽管结合表面和非结合表面存在这些不同之处,但诸多研究工作得出的一致结论是:这些不同之处并非是使蛋白质相互作用位点能够被简单预测的关键特征。 基于结构[92~106]或序列[107~110]信息,许多研究小组已经为结合残基预测开发了相应的计算方法。大多数的预测方法使用的特征比较集中,比如考察疏水性特征且设计预测模式、利用蛋白质表面残基的形状和电荷,以及使用机器学习方法来预测结合残基。这些方法也都得到了相似的预测正确率。

1.4.3.1 结合残基的特性

结合位点预测依赖于蛋白质复合体结合面上残基的特性,比较结合面和非结合面部分的特性大体上拓宽而且加强了我们对蛋白质的理解。其中最显著的特性包括:

(1)序列保守性 结合残基比非结合残基相对要保守得多[97]。一般认为,保守性可能是生物进化过程中保持蛋白质特定功能或结构的需要[34]

(2)氨基酸组成 在蛋白质-蛋白质结合位点中,疏水的(和芳香的)残基和精氨酸富集,然而其他的带电残基很少[2097]。这些氨基酸的聚集已经被归因于一种存在于阳离子和芳香性体系之间的相互作用,即阳离子相互作用[111]。相对于非结合残基,结合位点中的疏水残基有更强的聚集趋势[112]

(3)二级结构 结合位点似乎倾向于β-折叠而非α-螺旋,结合位点中的肽链环状结构也倾向于更大[112]

(4)溶剂可及性 结合残基比非结合残基有更大的溶剂可及性[83104]。后者在蛋白质复合体形成时不发生分子间相互作用,这样就倾向于最大化分子内相互作用以减少它们的溶剂可及性。溶剂可及性能从蛋白质序列预测,这些方法一般使用结合残基表示不是十分精确的数据集来训练,一般会低估结合残基的溶剂可及性。有研究发现,溶剂可及性的预测值和实际值之差比单纯的溶剂可及性有更强的区分残基的能力[95]。对于每种氨基酸,参照二级结构分类,对溶剂可及性进行进一步的分类可能会提高溶剂可及性的区分能力。

(5)侧链构象熵 结合残基中很少能够采集到种类多样的旋转异构体,这可能是为了在形成蛋白质复合体时付出最小化的熵代价。

(6)温度因子(B因子) 结合位点上的残基柔性比蛋白质表面的其他部分小[113],这也表明结合残基在结合过程中具有较少的侧链构象熵损失。Chung等[102]把归一化的B因子作为保守分值,即减少柔性区域残基的保守分值和增加刚性区域残基的保守分值。当使用源自复合体的结构预测结合残基时,包含B因子会提高其准确性,但是当单独使用解析的非结合蛋白时准确性就小得多。

(7)静电势 静电作用能够驱动很多复合体的形成,而最后取向的特异性可能是由更特异的相互作用来驱动的,比如氢键、盐键和疏水区域的相互作用[20114]。诸多研究工作有一个重要的共同发现:在蛋白质-蛋白质结合位点上存在着带电和极性残基聚集[20115~118],这些聚集具有一定的功能意义,它们也帮助提高了预测器的性能。

1.4.3.2 结合位点预测方法

一般说来,目前相关方法所使用的特征结合残基识别能力还是相当弱的。识别过程中,来自多个残基的多种类型的数据都需要用来把蛋白质单个表面残基区分成结合或非结合残基。典型的,多个残基即指残基及其空间邻居[97],这是因为一个结合位点就是由空间相邻的残基所构成的,但也有方法仅仅使用蛋白质序列[98]。从计算方法角度讲,结合位点预测方法能被分为基于数值优化和概率统计的方法,两类方法都依赖于数据集的训练。总之,识别过程中仅仅表面残基被考虑用于结合位点预测。

在第一类方法中,一个残基i的预测值用下面公式来表示:

Sif(xixjnc)

式中,xi为残基i的输入数据;xjn为残基i的相邻残基的对应输入数据;c为通过训练所决定的一组系数。

残基i的状态可能是I,即结合残基;也可能是N,即非结合残基。这个残基的最后状态是由预测值Si来决定的。而训练的目的就是最小化训练数据集中预测值与实际值间的差距。已经发展出一些基于数值优化的方法,简述如下。

(1)线性回归[106119] 这种方法中,上面计算公式中的Si是输入数据的线性函数,比如溶剂可及性,c作为系数。这种方法的优势在于简单实用。但一般来讲,线性回归在性能上落后于其他方法。

(2)打分函数[9194103120~122] 打分函数是在有了经验能量函数后建立起来的,它由包括不同贡献的数据项组成。这些单个数据项的函数形式通常比线性回归要复杂得多,也有更好的区分能力。但所引入的数据项需要有明确的物理学意义。

(3)支持向量机[6493100102110123~125] 这类方法中,输入数据被非线性地映射到一个特征空间,然后得到一个超平面,它可以最优地方式把I状态和N状态对应的数据点分离开。这类方法在性能上优于线性回归,属于黑箱类方法。

(4)神经网络[92959798104] 典型的神经网络有一个由中间节点组成的隐层,它的输入数据被线性组合到节点上,输出数据反馈到最终的输出节点,通过训练数据的预测值与实际值差的最小化得到节点输入数据线性组合的系数或者权重。也就是说,这是一种性能和算法透明性之间的平衡。

(5)随机森林[126127] 随机森林(random forest,RF)是一种基于决策树的分类器,首先,通过自助法从总样本集中提取样本子集从而构建分类树,然后,利用投票(voting)机制综合各分类树的结果得到最终分类结果。在构建分类树时,未被选中的样本组成袋外(out-of-bag,OOB)数据集,用袋外数据进行测试得到袋外误差(out-of-bag error,OOB Err)。随机森林操作方便、结果可靠,还具有特征数据不需要预处理、能方便地处理多类问题、适用于变量数目远大于样本数目的问题、不易过拟合(overfitting)、分类结果稳定等特点。

概率方法的目标是发现条件概率p(s|x1,…,xk),这里sI或者Nx1xk是待预测残基的输入数据,当p(s|x1,…,xk)大于一个阈值时结合残基被预测。这类方法简述如下。

(1)朴素贝叶斯方法[112]假定不同的输入数据x1xk是独立的,导出:

p(s|x1,…,xk)=p(s)

式中,p(s)为训练数据集中状态s的比例;p(xl)为整个数据集中输入数据xl的概率密度;p(xl|s)为状态为s的数据子集中输入数据xl的概率密度。

(2)贝叶斯网络[99] 当两个输入数据x1x2已知不是相互独立时,它们对p(s|x1,…,xk)的贡献就不再是p(x1|s)p(x2|s),而是联合概率p(x1x2|s)。

(3)隐马尔科夫模型 这类方法包含一个状态链,如“多序列比对中与I位置匹配”“多序列比对中与N位置匹配”、插入和删除。每个状态都能从20种氨基酸中释放出一种或者保持沉默(就像处于删除状态)。状态链是隐藏的,但氨基酸链即蛋白质序列是可观察的。隐马尔科夫模型能给出概率值p(siI|a),即蛋白质序列a中残基i是结合残基的概率。

(4)条件概率场[105] 这类方法中,沿着蛋白质序列上每个位置都被赋予一个状态标识,即I或者N。给定蛋白质序列a,状态标识序列是s的概率,采取下面形式:

p(s|a)∝exp[λlfl(si1sia)+μlgl(sia)]

式中,fl为序列a中被标识为si的残基i的贡献分;gl为序列a中被标识为si1的残基i-1的贡献分;λlμl为系数或权重。

训练以后,权重λlgl值固定,可以把状态标识序列预测为使p(s|a)最大的标识序列。一个聚类过程经常被用来筛选表现出强烈结合位点标识的残基。这也可用来去除离散的残基,从而选择最优可能的残基聚类作为最后的预测。

1.4.3.3 面临的挑战

在过去几年里,结合位点预测方法有了很大的进步。目前,对于来自蛋白质结构数据库PDB的复合体形式的蛋白质,已经可以达到令人满意的预测效果。但是,从应用角度讲,预测精度仍然不能满足目前的需要。另外还有如下几个挑战性问题存在。

(1)大规模构象变化 对于结合位点预测,大规模构象变化如结构域-结构域重排,可能是非常不利的。这种情况下,原来在复合体中的结合残基可能因为其在非结合结构中是分散的而被聚类过程去除。

(2)一个蛋白,很多配体 如果一个蛋白质和很多配体蛋白结合,并在其表面的不同部位形成结合面。这可能使不同的位点同时被预测到,然而究竟配体结合于蛋白质上哪个位置,仍需要生物化学数据进一步分析。

(3)多体复合体 对于由两个或两个以上蛋白组成的超大复合体,其可被看做逐次增加一个蛋白而形成。这种情况下,结合位点可以被依次顺序预测。但是,这种模式是否是广适的,是否还存在着其他的结合模式,仍需要进一步探讨。

所有这些存在的问题,都亟需新的模型、理论和方法来解析,以进一步提高结合位点的预测能力。