2.1 蛋白质的折叠速率研究进展
蛋白质的折叠是指一个蛋白质从它的变性状态转变到它的特定的生物学天然构象的过程。现在人们已经普遍接受了共翻译折叠的理论,认为mRNA在核糖体上翻译的过程中,蛋白质折叠就开始了[1-4],这一过程遵循自由能减少规律,即蛋白质在一定时间内沿着某一或某些特定的路径(过渡态系综)达到其自由能最小(极小)的天然构象[5]。各种光谱技术、质谱和核磁共振等试验方法都可用来研究蛋白质的折叠,为研究蛋白质折叠速率预测积累了许多实验数据。为了理解蛋白质的折叠机理,其重要任务之一便是确定蛋白质折叠速率的决定因素。许多对小的二态蛋白质的理论研究表明,蛋白质的大小、状态以及结构特征等都对其折叠速率产生影响,但在揭示它们的相互关系过程中受到种种限制。经过多年的努力,到现在已经产生了许多较好的方法,能够比较精确地预测出一些小型蛋白质的折叠速率[6]。有的蛋白质折叠需要几毫秒,而有的蛋白质折叠需要几小时,所以不同蛋白质的折叠速率(蛋白质折叠所用时间的倒数,用kf表示,单位为秒-1(s-1))差别很大,为了便于不同蛋白质折叠速率的比较,人们常用ln(kf)来表示蛋白质的折叠速率。蛋白质折叠速率的预测方法大致分为基于蛋白质三级结构的预测方法,基于蛋白质二级结构的预测方法和基于蛋白质一级结构的预测方法。
2.1.1 基于蛋白质三级结构的预测方法
1998年,Plaxco和Baker[7]考察了蛋白质三级结构的拓扑复杂性和蛋白质折叠速率之间的关系,发现蛋白质的折叠速率的自然对数ln(kf)和接触序(contact order,CO)之间有着反比关系,提出了一个基于参量CO的预测方法,CO的计算公式如下:
式中,nr为蛋白质的氨基酸残基数(即蛋白质序列长度,不包括无规则区域),nc为非局部残基间的接触数,ΔSi,j为接触i和j间的残基数。
这一发现促进了该领域的快速发展。随后,各种与折叠速率相关的经验参量相继提出。Plaxco和Baker又提出用平均相对接触序(the average relative contact order,RCO)[8]来预测蛋白质的折叠速率。紧接着在1999年,Alm和Baker[9]提出了一种利用蛋白质折叠自由能能量曲面ΔG(free-energy landscapes)预测蛋白质折叠速率的方法。同年,Mounoz和Eaton[10]在Alm和Baker模型的基础上提出了一种基于自由能阻碍及结构构象熵的统计力学模型来预测蛋白质的折叠速率;Debe和Goddard根据蛋白质核缩聚折叠机制,也提出一种基于三级拓扑结构预测蛋白质折叠速率的方法[11]。2001年,Dinner和Karplus把CO和ΔG结合共同作为输入向量,利用神经网络方法进行预测的模型既可以用于二态蛋白质,又可以用于三态蛋白质。选23个蛋白质作为训练集,10个蛋白质为检验集时,相关系数可达0.76[12]。Gromiha和Selvaraj提出用长程序(the long-range order,LRO)[13]来预测蛋白质折叠速率。2002年,Zhou H和Zhou Y提出用总接触距离(the total contact distance,TCD)[14]来预测蛋白质的折叠速率。2003年,Zhang等把CO,LRO和TCD这几个参数进行结合,用前向人工神经网络(BP网络)方法对28个蛋白质进行预测,随机选择3个进行检验,相关系数达到0.89[15]。同年,等又提出链拓扑参量(a chain topology parameter,CTP)来预测蛋白质的折叠速率[16];Ivankov等也提出绝对接触序(the absolute contact order,ACO)来预测蛋白质的折叠速率[17]。除此之外,早在1993年,Fiebig和Dill提出有效接触序(the effective contact order,ECO)[18]来预测蛋白质的折叠速率。以上提到的参量均来自蛋白质的三级结构,说明蛋白质折叠速率与其三级结构有着很强的相关性。
2.1.2 基于蛋白质二级结构的预测方法
Gong等认为CO可能仅是其他一些潜在的物理变量的代理,而那些潜在的物理变量才是决定折叠速率的真正因素。他们认为,CO是一个复合变量,其表征的真正含义是蛋白质二级结构含量(secondary structure contact,SSC)。基于此想法,他们提出了根据SSC来预测蛋白质折叠速率的方法[19],公式如下:
式中,ln(kf)是蛋白质折叠速率的自然对数,T为转角含量,H为螺旋含量,B为发卡结构含量,L为残基数(序列长度),a、b、c、d和e为回归系数(可用多元线性回归方法确定)。用该方法对24个二态蛋白质进行预测,相关系数可高达0.91。
此外,基于蛋白质二级结构,2001年,Mirny和Shakhnovich提出参量——局部接触比率[20]来预测蛋白质的折叠速率。2004年,Ivankov和Finkelstein又提出参量——有效接触链长度[21]来预测蛋白质的折叠速率。这些研究说明蛋白质折叠速率与其二级结构也有很强的相关性。
2.1.3 基于蛋白质一级结构的预测方法
从以上的结果我们可以看到蛋白质的折叠速率与其结构有着很强的相关性,而结构可由氨基酸序列预测,所以可从氨基酸序列直接预测蛋白质的折叠速率。这方面的研究工作已做了很多。Gromiha等认为蛋白质的折叠速率是由残基间的相互作用决定的[22],而相互作用又受氨基酸的物理、化学、能量以及构象等属性的影响,而且,不同二级结构的蛋白质与不同的氨基酸属性相关。2005年,他们把蛋白质大致分为α类、β类和无规卷曲类,继而提出了一个简单的统计模型,根据蛋白质的氨基酸属性来预测其折叠速率。氨基酸的平均属性Pave的计算公式如下:
式中,Pave是蛋白质的氨基酸平均属性,P(j)是氨基酸序列中第j个残基的属性,N是氨基酸序列的残基数。
对于α类蛋白质,Gromiha的线性回归公式[22]是
式中,ln(kf)是蛋白质折叠速率的自然对数,αc是α螺旋的C端动力(the power to be at the C-terminal)。
对于β类蛋白质,Gromiha的线性回归公式[22]是
式中,K0是可压缩性,Pβ是β折叠趋势,Rα是在溶剂中的收缩率,ΔASA是溶剂可及表面积。
对于无规卷曲类蛋白质,线性回归公式是
式中,ΔGhD是对于变性蛋白质水合作用的吉布斯自由能变化量,其他参量与公式(2-5)相同。
除此之外,基于蛋白质一级序列,2003年Shao等提出了使用螺旋参量(helix parameter,HP)来预测蛋白质的折叠速率[23],接着,2004年Kuznetsov和Rackovsky提出了氨基酸的物理化学特性作为参量[24]来预测蛋白质的折叠速率。2005年Punta和Rost提出了一种先从氨基酸序列预测蛋白质3D结构中残基间的长程接触序(LRO)的方法[25]来预测蛋白质的折叠速率。2006年Galzitskaya等提出链的长度(L)[26]作为蛋白质折叠速率的预测参量。同年,Huang等也提出了用残基的Ω值[27]做预测参量来预测蛋白质的折叠速率。到2008年,Ouyang和liang提出几何接触数参量(the geometric contact number,na)[28]来根据蛋白质的氨基酸属性预测蛋白质的折叠速率。2009年Chou和Shen[29]基于同样的数据库创建了一个蛋白质折叠速率的预测软件。
蛋白质折叠问题是分子生物学中心法则尚未彻底解决的一个重大生物学问题。理解蛋白质的折叠机制对理解蛋白质的生物功能、理解与错折叠相关疾病的起源等是非常重要的。从以上对蛋白质折叠的研究进程中可以了解到,蛋白质的折叠速率与蛋白质的各级结构有非常强的相关性,也可以说,蛋白质折叠速率这一参量包含了蛋白质结构的许多信息。我们认为它可以作为体现蛋白质结构信息的一个很好参量。