1.4.2 蛋白质-配体结合位点预测
几种类型的算法已发展用来预测配体结合位点。一些算法主要分析蛋白质表面的口袋。许多研究表明,结合位点通常位于最大口袋。一种算法分析放置在蛋白质周围的网格上探针的结合能,探针聚类和能量轮廓分析可以用来预测配体结合位点。另外,更复杂的模拟方法也可用于预测结合位点,例如用分子动力学模拟来识别配体结合位点,重要残基往往位于静电不利的位置。
一系列功能比较工具也可用来识别结合位点,包括3D模板[29,30]、图论[31,32]、模糊模式匹配[33]和进化跟踪方法[34]。这些工具可用于为新解析的蛋白质结构进行功能注释,通常不用在基于结构的药物设计(structure-based drug design,SBDD)结合位点的预测研究,它们更经常被用来为来自结构基因组学项目的新解析蛋白质结构注释功能。其他方法包括结合位点上氨基酸在进化过程中发生同步变异(相关突变),已应用于蛋白质-蛋白质结合位点预测[35]。也有人指出,脯氨酸残基往往存在于蛋白质-蛋白质结合位点中[36]。应当指出的是,蛋白质-蛋白质结合位点预测通常需要不同的计算方法,后续将讨论这一内容。
预测配体结合位点存在着许多问题。一个主要的问题是诱导契合。配体结合时,结合位点可以显著改变形状。另一个问题是配体结合位点会位于亚基界面之间。有些算法只测试过单亚基,已被证明在复合体数据集测试时较差。第三个问题是存在着配体的绝对多样性,以及相应多样的结合位点,很难设计一个算法,对所有构象上和物理化学上不同的配体结合位点进行较准确的预测。目前还存在着结合位点预测工具验证的问题。通常,一个成功的预测是指涵盖了一定数量的配体原子。然而,如果预测的位点非常大(例如,覆盖了整个蛋白质),预测仍然可能是成功的,尽管它不是很精确。在一般情况下,基于结构的药物设计需要对配体结合位点做准确定义,以限制蛋白质相关区域的搜索空间,减少假阳性结果。我们探索了作为基于结构的药物设计的第一步、用于预测蛋白质-配体结合位点的一些不同方法,以几何和能量为基础的口袋检测方法作为主要的结合位点预测方法,因此,以下集中介绍这些方法。另外,越来越多的功能点预测和“盲对接”的方法在基于结构的药物设计中发挥作用,因此,以下也会涉及一些相关的进展。
1.4.2.1 基于几何的方法
蛋白质口袋检测是一种广泛使用的技术,可用来识别潜在的配体结合位点。它采用几何因素来定义口袋,并且有研究表明,结合位点通常是在最大的口袋里找到的。例如,SurfNet[37]用来分析67个蛋白质结构,并在83%的情况下发现配体结合位点在最大的口袋里[23]。APROPOS[38]通过发现可以容纳分子基团的洞穴的特征模式,取得较高的预测成功率。其他的口袋检测算法有Cavity Search[39]、POCKET[40]、VOIDOO[41]、LIGSITE[42]、CAST[43,44]、PASS[45]、LigandFit[46]以及Delaney[47]、Del Carpio等[48]、Masuya和Doi[49]开发的算法。
口袋检测算法经常采用围绕蛋白质的三维网格或一个分子表面定义。分子表面可以只使用网格来定义,即通过查找碰不到蛋白质(的)原子的格点组成的界面。这种技术已经被LIGSITE、POCKET和Delaney的方法所使用。分子表面算法也能使用,这类算法的优势是不依赖网格的分辨率。分子表面算法一般依赖于在表面滚动的“溶剂”探针的半径(通常为水,具有1.4Å的半径)。Lee和Richards的溶剂可及表面[50]是由探针中心定义的表面,而分子表面或Connolly表面[51]定义为蛋白质溶剂的界面,即完全排除了溶剂体积表面,因此定义了溶剂探针与蛋白质原子范德华表面之间的接触点。下面,详细地说明几个口袋检测算法。
(1)POCKET算法 一个半径为3Å的探针球沿蛋白质三维网格中笛卡尔坐标X、Y、Z方向上遍历每条线。如果蛋白质的一个原子的中心位于探针球范围内,可判断为蛋白质和探针球之间相互作用。如果一段相互作用后跟着一段没有相互作用的空间,紧跟着又出现相互作用,就发现了一个口袋。在图1.12中口袋为“小点”区域。该算法的主要缺点是,口袋里的确切性质依赖于蛋白质的相对旋转角度的坐标参考框架。
图1.12 POCKET算法[40][探针球(黑色圆形)扫描一个蛋白,点区域标志被算法识别的口袋和穴]
(2)LIGSITE算法和Pocket-Finder算法 LIGSITE非常相似于POCKET。然而,LIGSITE还可以沿着立方体对角线方向扫描,即七个扫描方向,而不是三个方向。这使得蛋白质口袋较少依赖于蛋白质的三维网格取向(比较图1.12和图1.13)。LIGSITE具有被称为MINPSP(minimum protein-site-protein,最小的蛋白质-位点-蛋白质)的阈值变量。一单网格点有七条探针线穿过它(X、Y、Z和四个立方对角线)。该格点可以多至七次被定义为一个口袋(PSP事件)。MINPSP阈值可以定义一个格点必须发生多少次PSP事件才被定义为一个口袋的部分。通过设置高阈值,浅口袋被排除在外。LIGSITE进行了十个蛋白质结构的验证,并表现出良好效果,其中,七个蛋白质的结合位点在最大口袋中。这一类算法的准确性、便捷性,非常适合并且已在若干后续研究,包括在CavBase[52]和SuperStar[53]中使用。
图1.13 LIGSITE扫描立方对角线(X、Y和Z轴除外)[42]
(3)Delaney的算法 蛋白质置于一个三维网格中,凡是与蛋白质相交的格点设置为‘true’,否则设置为‘false’[图1.14(a)]。口袋检测操作如下:首先,将与蛋白质表面(和腔边界)相交的格点设置为‘true’,而其相邻格点设置为‘false’;然后,进行表面膨胀操作,即将单层的粒子添加到蛋白质表面(表面膨胀),再重新设置‘true’和‘false’[图1.14(b)];接着进行表面收缩操作,即使表面上的单层粒子被删除[图1.14(c)]。经过反复扩展和收缩(通常为5~10次),蛋白质腔充满颗粒[图1.14(d)]。这是因为通过口袋扩展添加的粒子并不会被定义为蛋白质表面部分。
图1.14 Delaney的算法[47]
(4)PASS算法 PASS使用了类似于Delaney的算法,所不同的是该算法着眼于三个蛋白质原子的所有可能组合。如果三个原子足够接近在一起,该算法只计算出探针球接触到的所有三个蛋白原子的两个可能的表面位置(图1.13)。如果它们与蛋白质原子之间有碰撞,探针将被拒绝。其他过程类似于Delaney的算法。
图1.15 PASS算法[45][探针(深灰色)的位置由三个蛋白质原子(浅灰色)的位置计算得来。存在有两个可能的探针位置,每个都与三个蛋白质原子相切]
(5)Del Carpio等的算法 该算法采用了表面“生长”的过程,以确定腔和口袋。分子表面首先利用Lee和Richards方法识别。首先标记距离该蛋白质重心最近的表面原子[图1.16(a)],然后标记周围的表面原子(第一个原子的视准线以内),从而识别出第一个凹口袋。然后,搜索一个离重心最近的未标记(unflagged)原子,重复此过程。该算法将持续到表面上没有更多的凹区域可识别[图1.16(b)]。
图1.16 Del Carpio等的算法[48]
(6)APROPOS算法 APROPOS算法基于一个蛋白质的α-形状(α-shape)表示展开。α-形状表示即是使用α-形状生成算法创建的蛋白质Delaunay表示。α-形状的性质依赖于参数‘α’,这可以被认为是一个从蛋白质表面滚过的探针球的半径。探针可以清除两侧和三角形的边缘,但不是顶点(原子中心)。当探针球半径趋于无穷大时形成凸壳(图1.17)。实际操作时,使用约20Å的实验值,否则假阳性口袋会被发现。通过使用介于2.8Å(氧原子半径)和4.5Å(甲基半径)的α,发现可以结合配体基团的口袋。口袋通过比较α-形状和凸壳的结构来确定,若两者结构差异很大,则可认为存在口袋。
图1.17 APROPOS算法[38]
人们已经注意到,配体基团往往适应蛋白质分子中的小“洞穴”。APROPOS还通过搜索这些特征“洞穴”来预测哪个口袋里是配体结合位点,该算法被证明对一个由亚基组成的蛋白质数据集有95%的成功率,但当用蛋白复合物进行测试时,准确率要低得多。
(7)CAST算法 CAST采用类似于APROPOS的方法来检测蛋白口袋,并用离散流理论来确定哪类口袋满足要求(图1.18)。该算法测试了含67个蛋白结构的数据集。当使用CAST时,74%的配体结合位点被确定在最大的口袋,而使用SurfNet时是83%。然而,由于口袋大小和性质所产生的差别,将这些结论之间进行直接比较非常困难。CAST已推出CASTp(表1.3)可在网上使用。
图1.18 CAST算法和选择口袋的离散流理论[43,44]
表1.3 能识别配体结合位点的在线服务器的web网址
(8)SurfNet算法 SurfNet通过选中蛋白质上的原子对,在它们之间形成了一个测试球。如果测试球与蛋白原子有任何重叠,则减小测试球的半径,直到不再有重叠[图1.19(a)为一个蛋白质口袋,白色圆形代表蛋白质原子。对于每对原子(条纹标识),做出一个测试球(浅灰色圆形,并有点状轮廓)。如果测试球与蛋白质原子重叠,其半径就缩小直到它们不再重叠(深灰色圆形)。如果半径低于一个设定值(比如1.0Å),测试球就不放在这个位置。这个过程将继续,并测试所有相关原子对,直到口袋被球填满。]因此,测试球聚集在口袋和洞穴中[图1.19(b)],半径在1~4Å之间的测试球保留。SurfNet已可供下载(见表1.4)。
图1.19 SurfNet算法[37]
表1.4 可供下载的配体结合位点识别工具的网址
1.4.2.2 基于能量的方法
目前,已经形成了一些估算在一个给定点上探针分子(如亚甲基,羟基或胺基)和蛋白之间的相互作用能的方法,其可用来识别与探针亲和的位点。以下对这些方法做一简要的介绍。
(1)Goodford的方法 Goodford等发展了一种GRID方法,它识别与特定探针类型亲和的位点,这对于从能量轮廓角度分析蛋白质表面以找到有利的位点是特别有用的,该方法目前已广泛应用于以结构为基础的药物设计。因为它能识别蛋白质哪些部分可能与一个类似药物分子的官能团相互作用,例如,已经使用GRID方法识别了类似药物分子的氢键势能[54,55]。同时Miranker等的多拷贝同步搜索(MCSS)方法[56]也被用于检测不同官能基团的有利结合位点。然而,无论是什么方法都不能直接用于定位一个蛋白质上的配体结合位点。
(2)Ruppert等的方法 Ruppert等发展了在给定点上估算探针和蛋白质之间相互作用能的方法。他们利用 Jain开发的打分函数[57]优化三个不同探针类型的相互作用能(疏水性的氢原子;氢键供体:NH,氢键受体:CO等)。他们保留了最有利的相互作用能探针,然后确定“粘点”,这是探针具有最高相互作用能量密度的区域。下一步,口袋生长,通过在“粘点”周围的蛋白空白区定义非蛋白球。最后,增长过程发生,通过把口袋定义的附近的可及探针加进去,扩大粘点为更大的口袋。因此,能量和几何标准都用来定义一个配体结合位点。他们的算法被证明在九个配体结合和两个非配体结合的蛋白质中取得良好的效果。
(3)Q-SiteFinder方法 Q-SiteFinder通过聚类蛋白质表面上范德华力(甲基)探针有利的区域来定位配体结合位点(图1.18)。它使用的GRID力场参数[58]估算在一个涵盖整个蛋白质的三维网格所有点上探针的相互作用能。具有有利能量的探针被保留,并根据它们的空间距离聚集成类。各类根据自己的总相互作用能进行排序。
该算法已被证明在前三名有正确预测的情况下,对于Nissink等描述的GOLD对接测试集(134个蛋白质-配体复合体)取得了90%的预测成功率[59]。而对于非结合态蛋白测试集,成功率(86%)呈小幅下降,这可能是因为诱导契合的影响。
Q-SiteFinder使用一个精确度阈值来判断预测成功与否。精确度定义为与配体距离小于1.6Å的探针在一个集群内的百分比。精确度阈值25%用来定义一个成功的预测,即Q-SiteFinder预测发现的一个探针集群中,如果与配体距离小于1.6Å的探针所占的比例超过25%,那么就判定这个探针集群预测成功。对于蛋白质分子来说,这个探针集群所占据的区域是一个真实的结合位点。Q-SiteFinder把它发现的所有位点按照精确度标准由大到小进行排序,在排名第一的位点作为结合位点的原则下取得了平均68%的准确率。Q-SiteFinder还与口袋检测类算法Pocket-Finder进行了比较、优化,并在与Q-SiteFinder相同的数据集下进行了测试。只有在当精确度阈值下降到0时,Pocket-Finder才能够取得与Q-SiteFinder相近的成功率。Pocket-Finder以最大口袋为预测结合位点取得了平均29%的准确率。另外,Q-SiteFinder和Pocket-Finder均提供在线预测服务(表1.3)。
(4)Pocketome方法 该算法类似于Q-SiteFinder,它通过创建一个三维网格,计算出每个点的范德华势能。然后,势能图平滑处理,识别有利结合能和可能结合配体的封套(ligand binding envelopes),体积超过100Å3的封套区域被保留。该算法使用预测发现的封套区域与真实配体结合位点的覆盖率阈值[60]来判别预测成功与否,当覆盖率阈值设定为80%时,5616个蛋白-配体结合位点中有85.7%能被正确识别。这些被识别的位点绝大多数是最大口袋。
1.4.2.3 统计和机器学习方法
统计蛋白配体的接触和取向分析也可以用来预测配体结合位点,例如PATCH[61]的开发是为了检测碳水化合物结合位点,在测试包含40个蛋白质的数据集时取得了65%的成功率。神经网络基于活性位点的相似性[62,63]辨识,也被用来进行酶的分类。同样,基于表面性质的方法也被用于预测蛋白质相互作用,包括支持向量机的使用[64]。Stahl等使用Connolly算法来计算溶剂可及表面积,并定义表面点的相互作用类型(共五种,分别为脂肪、氢键供体、氢键受体、芳香面和芳香边)。研究工作使用176个蛋白质进行神经网络训练,使用18个含锌酶进行测试。这些含锌酶中的16个,其配体结合口袋被正确识别。这也说明该神经网络可以用于结合位点的分类,也可应用于蛋白质结构鉴定。
1.4.2.4 盲对接
盲对接是一个标准对接工具应用到整个蛋白质的过程。这一过程隐含着结合位点预测能力,同时还能提供正确的配体结合方向相关信息。盲对接的使用前提是配体结构为已知,而其他的结合位点预测工具没有这个条件限制。但是,盲对接速度很慢,尤其是当使用配体来筛选大量蛋白质的时候。因此,盲对接最有用的场景为两个结合分子(受体和配体)结构均为已知,而用户试图找出一种生物相关的结合模式。
Hetenyi和van der Spoel[65]用AutoDock[66]进行了盲对接并成功复现了八个复合体的蛋白-配体取向。盲对接项目已经被加入到了CASP2对接竞赛[67]中。CASP2提出了挑战问题是:给予配体和蛋白质的三维结构,确定其中配体的结合位置。九个小组提交了七个蛋白-配体复合体和一个蛋白质-蛋白质复合体。这次竞赛项目的预测整体效果较好,提交的77个预测中,几乎所有的构象都在实际取向的3Å范围之内。因此,尽管这种对接模拟速度慢,但其结果对于识别生物结合模式似乎是有所助益的。
1.4.2.5 应用要点
结合位点识别对于虚拟配体筛选和基于结构的药物设计非常重要。它限制搜索空间于蛋白复合物的相关部分,加快了这一进程,减少了假阳性结果。功能位点定位对于从结构到功能也是极为重要的。当进行基于结构的药物设计时,如果对接前没有关于配体结合位点或功能的信息,最好使用几种不同类型的可用工具同时预测虚拟筛选靶标的配体结合位点。另外,以口袋检测和能量为基础的方法也可为基于结构的药物设计确定合适的搜索空间。