1.2 本书结构
本书内容安排如下:第1章介绍我们工作的研究思路及本书内容的整体安排。第2章介绍蛋白质折叠速率的研究进展及我们关于氨基酸片段的平均极性与蛋白质折叠速率关系的研究。具体做法是按照蛋白质的二级结构类型,从每条氨基酸序列中截取所有的α螺旋和β折叠片段作为研究对象,计算各片段的折叠速率和平均极性,分别在各物种的α螺旋和β折叠两类二级结构片段中分析折叠速率和平均极性的相关性。研究表明,不论是病毒蛋白质还是大肠杆菌中的蛋白酶,其中两类氨基酸片段的平均极性与折叠速率都是极显著相关的:对于所有的α片段,二者呈线性正相关;而对于所有的β片段,二者呈线性负相关。结果证实了在蛋白质折叠中,氨基酸的极性起着非常重要的作用。
第3章中以罗辽复先生提出的基因序列信息参数[14]为基础,研究了RNA序列对相应蛋白质折叠速率的影响。选取了描述遗传语言词汇组成的信息参数一阶信息冗余(D1)、描述遗传语言语法结构的信息参数二阶信息冗余(D2)及其衍生的信息参数作为刻画编码序列的特征参数,并基于一个较大的蛋白质数据集分析它们与蛋白质折叠速率之间的线性关系。结果表明,对于二态蛋白质,D2和这一参量组与全α蛋白质和全β蛋白质的折叠速率均有极显著的相关性,尤其对于全α蛋白质,相关系数达到0.84。而对于多态蛋白质,相应的mRNA序列的GC含量对蛋白质折叠速率的影响较为突出,进一步分析表明对于这种GC含量的影响,其中一部分来自密码子的第三位点,又一次证实了同义密码子的使用对蛋白质折叠速率的影响。为了从多个角度印证mRNA序列的GC含量对蛋白质折叠速率的影响,先选择编码序列的序列参数——GC含量来做初步分析。基于Gromiha给出的13个全β类蛋白质,得到相应编码序列的GC含量并将它加入到Gromiha基于蛋白质序列4个参数的预测折叠速率回归方程中来检验GC含量在蛋白质折叠过程中的作用。与Gromiha的结果比较,预测值和实验值之间的相关系数得到了提高,结果表明GC含量对预测蛋白质折叠速率是有效的,意味着蛋白质编码序列的GC含量确实对蛋白质折叠速率有影响。进一步分析也表明这种影响主要来自密码子的第三位点及其与第二位点的关联,而不是来自从密码子到氨基酸的翻译信息。
第4章详细介绍了回文结构,并介绍了我们关于一些病毒的回文结构研究结果。统计分析和比较了艾滋病病毒(HIV-1)、丙型肝炎病毒、SARS病毒及其他几种冠状病毒的回文结构GC含量的特征和分布,发现了其中一些回文结构的特殊分布。综合考虑几种高致病病毒序列的一些特殊回文结构,如在GC含量,回文长度以及位置等方面特殊分布的回文结构,发现这些特殊回文结构往往分布在病毒序列中较为关键的位置。所以,它们一定不只是普通的序列,而应该是具有某种生物功能的重要元件。我们猜想这些特殊回文一定携带一些影响病毒蛋白质功能的重要信息。既然回文结构与蛋白质的功能有非常紧密的联系,而且它们在mRNA序列中有非常广泛的分布,那么,回文结构完全可以作为研究mRNA与蛋白质之间关系的一个很好的参量。
第5章从不同的角度研究了回文结构对蛋白质折叠速率的影响。首先定义了mRNA序列片段的回文GC含量及回文密度两个参量。基于α螺旋片段及β折叠片段的折叠速率与其平均极性之间的相关性,分析了回文GC含量及回文密度对两者之间关系的影响,研究发现这两个参量确实对氨基酸片段折叠速率和平均极性之间的关系有影响。统计分析表明这两个来自mRNA序列的参量与氨基酸片段的平均极性无显著关系,这间接说明相应mRNA序列片段的回文GC含量及回文密度影响了蛋白质的折叠速率,且蛋白质折叠速率与回文两参量之间均呈正相关。进一步分析表明影响的根源来自回文结构的复杂性或可变性和同义密码子的使用偏好,而不是来自从密码子到氨基酸的翻译信息。这说明mRNA序列确实携带有影响肽链折叠速率乃至蛋白质结构的信息。虽然在第3章中加入mRNA序列的GC含量后预测蛋白质折叠速率的结果有所改善,但回归方程的Jackknife检验结果表明mRNA全序列的GC含量并未完全涵盖影响蛋白质折叠速率的主要信息。我们分析,出现这样的结果是由于mRNA序列的GC含量不能反映编码序列的结构信息。于是,第5章定义了一个既能涵盖序列又能包含序列结构的参数,称为回文GC含量。用mRNA序列中的回文GC含量代替全序列GC含量做同样的分析。与Gromiha的结果比较,蛋白质折叠速率的预测值与实验值之间的相关系数得到了进一步的提高,并且卡方检验、Jackknife检验也表明mRNA序列中回文GC含量对蛋白质折叠速率有更大的影响。这意味着mRNA序列的结构和序列组成是影响蛋白质折叠速率的主要因素。进一步分析也表明这种影响一部分来自回文结构的复杂性和可变性,基于这一思路,我们整理了一个较大的包含蛋白质折叠速率实验值、相应的mRNA序列中回文结构参数等信息的蛋白质数据集,分析了回文结构各参量与蛋白质折叠速率之间的关系,又一次证实了回文结构的复杂性和可变性是影响蛋白质折叠速率的一个重要因素。
在前期的研究过程中发现,影响蛋白质折叠速率的另一部分因素来自同义密码子的使用或者说是密码子第三位碱基的使用。所以,我们认为,同义密码子的使用偏性是体现mRNA特性的另一重要参量。第6章以不同物种为样本,研究了同义密码子使用偏性对蛋白质折叠速率的影响。研究发现了一些关于蛋白质折叠速率与同义密码子使用度之间的相关性,一些密码子的使用与蛋白质的折叠速率显著相关。比较3类蛋白质折叠速率与同义密码子使用度之间的相关性后发现,同一个密码子对不同类蛋白质折叠速率的调节方向一般是不同的。比较二态和多态蛋白质,发现了一些同义密码子的使用对二态和多态蛋白质的区别,它们对蛋白质折叠速率的调节方式是不一样的,说明同义密码子对不同类蛋白质的影响是不同的。
第7章定义了RNA二级结构的信息参量,主要有茎结构含量、环结构含量、平均能量密度,并以此为基础,定义了RNA柔性;建立了一个较大的包括mRNA二级结构的信息参量的蛋白质折叠速率库;研究了RNA二级结构对蛋白质折叠速率的影响。统计结果表明,mRNA二级结构中茎结构的含量与蛋白质折叠速率呈显著的负相关性,而环结构含量与蛋白质折叠速率呈显著的正相关性。另外,结果显示,无论是否考虑蛋白质的结构分类或折叠类型,mRNA柔性与相应蛋白质折叠速率之间均呈现出极显著或显著的正相关性。因此我们认为,mRNA柔性是影响蛋白质折叠速率的普适参量。在前面工作总结的基础上,第8章提出了我们以后工作的方向和思路。