第四节 基因组
每一种生物都有自己的基因组。不同生物的基因组从结构、大小到所携带的遗传信息量都有很大区别。基因组决定着一种生物个体的全部遗传性状。
一、C值矛盾
一种生物基因组的DNA含量是恒定的,该含量值称为C值(C-value,constant)。C值既可用质量(单位pg)表示,也可用长度(单位bp)表示。C值大小反映基因组的大小。不同物种的C值差异极大,随着生物的进化,生物体的结构和功能越来越复杂,所需基因产物的种类越来越多,因而所需的基因越来越多,其C值也越来越大;生物界每个门的最小C值与其个体形态复杂程度大致呈正相关。例如,在病毒和植物界的各类种群中,C值的变化与进化程度一致,其由低到高的顺序为:病毒→细菌→真菌→绿藻→苔藓→蕨类→种子植物。
然而,物种的C值与其遗传和形态复杂程度之间并无严格的对应关系,这种现象称为C值矛盾(C-value enigma)、C值悖理(C-value paradox)。C值矛盾体现在以下几方面。
1.真核生物基因组C值远超过其编码蛋白质所需的DNA量。例如,人类基因组C值为3.5pg,据推算,其基因组可容纳40万~60万个基因,但目前认为人类基因组只有不到2.5万个基因。
2.结构、功能相似的同类生物,甚至亲缘关系很近的生物,它们的C值可能相差数十倍甚至上百倍。例如,同是两栖动物,C值可以小到1pg以下,也可以大到100pg。
3.进化程度高的生物C值未必大。例如,C值最大的动物是一种埃塞俄比亚肺鱼(P.aethiopicus)(132.8pg),远大于人类的C值(3.5pg),但并不能说明肺鱼的结构、功能比人类更复杂,进化程度更高。
4.C值大的生物基因未必多。
对于真核生物基因组C值矛盾现象,目前的解释是真核生物的DNA序列大部分为非编码序列,特别是重复序列。例如,人类基因组DNA中只有不到2%为编码序列,其余都是非编码序列,其中很多序列的功能尚未阐明。此外,转录产物的选择性剪接也是哺乳动物复杂性的遗传基础。
二、病毒基因组
病毒(virus)是一类简单而特别的生命形式。完整的病毒颗粒由核酸和蛋白质构成。核酸包裹于病毒颗粒内部,蛋白质则形成病毒的衣壳和包膜,以保护核酸并协助其感染宿主细胞。噬菌体(phage)也是病毒,它以细菌为宿主。
病毒没有独立的代谢系统,其唯一的生命活动是在感染宿主细胞之后,可以利用宿主细胞的代谢系统进行复制,形成新的病毒颗粒。与原核生物、真核生物相比,病毒基因组最小,并有以下基本特征。
1.所含核酸的种类与结构不同 可能是DNA或RNA,可能是单链分子或双链分子,可能是闭环结构或线性结构。
2.所含核酸的分子数不同 DNA病毒基因组均为单一DNA分子。RNA病毒基因组多数为单一RNA分子,部分有多个不同的RNA分子。例如,流感病毒有8个单链RNA分子,呼肠孤病毒有10个双链RNA分子。
3.基因组小 仅含3~250个基因。RNA病毒的基因组都特别小,而DNA病毒的基因组大小差异较大。例如,乙型肝炎病毒基因组DNA只有3182~3248bp,含4个基因(C、X、P、S);痘病毒(poxvirus)基因组DNA长达130~230kb,约含250个基因。病毒遗传信息量比其宿主细胞少得多,依靠宿主细胞的代谢系统才能完成复制。
4.基因组为单倍体并且所含基因为单拷贝 仅逆转录病毒基因组有两个RNA拷贝。
5.基因组序列基本上都是编码序列 编码序列长度占病毒基因组的95%,且编码产物都是蛋白质。
6.基因的连续性不同 病毒基因的连续性与其宿主细胞基因相似:原核病毒(噬菌体)基因与原核基因相似,是连续的;真核病毒基因与真核基因相似,有些是断裂基因。
7.相关基因串联成一个转录单位 例如,①ΦX174噬菌体的11个基因只有3个启动子(PA、PB、PD)和4个终止子(TJ、TF、TG、TH)(图1-11)。②腺病毒的5个晚期基因(late gene,L1~L5)由同一个启动子启动转录,指导合成1种RNA前体,再通过选择性剪接(第三章,84页)加工成5种成熟mRNA,指导合成5种蛋白质(图3-1,68页)。
三、原核生物基因组
原核生物(如细菌、支原体、衣原体、立克次体、螺旋体、放线菌)有完整的代谢系统,并且可调节代谢以适应营养状况和环境因素的变化。因此,原核生物基因组中基因的数目多于病毒,但少于真核生物,并有以下基本特征。
1.基因组DNA大多数为单一闭环双链分子 原核生物的DNA虽然结合有少量蛋白质,但并未形成典型的染色体结构,只是习惯上也称为染色体。染色体在细胞内形成一个致密区域,称为原核(prokaryon)、类核(nucleoid)。原核无核膜,其核心部分(20%)由RNA和支架蛋白构成,外周(80%)是基因组DNA。
2.基因组DNA只有一个复制起点 真核生物基因组DNA有多个复制起点。
3.基因组序列以编码序列为主 占85%~90%,非编码序列主要是一些调控元件。
4.基因组所含基因的数目比病毒多 细菌有1700~7500个,较小的支原体也有近500个基因。许多基因形成操纵子结构(第五章,120页)。
四、真核生物基因组
真核生物基因组比原核生物基因组还要大,结构更复杂(表1-5),并有以下基本特征。
表1-5 原核生物基因组与真核生物基因组对比
1.染色体DNA是线性分子 含三种功能元件。
(1)复制起点(origin of replication,ori) 功能是启动DNA复制。每个染色体DNA分子都有多个复制起点,例如酵母每个染色体DNA分子平均有25个复制起点。
(2)着丝粒DNA(centromere,CEN) 为真核生物所特有,功能是将染色体均分给子细胞。酿酒酵母着丝粒DNA是约125bp的单一序列,而大多数真核生物着丝粒DNA是>40kb的高度重复序列,富含A-T。人着丝粒DNA又称α卫星DNA。着丝粒DNA几乎不含蛋白基因。
(3)端粒(telomere,TEL) 为真核生物所特有,功能是维持染色体结构的独立性和稳定性,参与DNA复制完成。端粒位于染色体DNA末端,是一种富含T/G的短串联重复序列,不含蛋白基因。例如,哺乳动物和其他脊椎动物端粒以TTAGGG为重复单位,串联重复500~5000次,长度为3~30kb(人的3~20kb),末端有10~102 nt的黏性末端,形成5~10kb的t环(第二章,46页)。
2.染色体DNA形成染色体结构 染色体数目一定,除了配子是单倍体外,体细胞一般是二倍体。
3.基因组序列中仅有不到10%是蛋白质编码序列 人类基因组甚至不到2%(图1-14)。编码序列在基因组序列中的比例是真核生物、原核生物和病毒基因组的重要区别,并且在一定程度上是衡量生物进化程度的标尺。
图1-14 人类基因组序列分析
4.基因在基因组中散在分布 相邻基因被称为基因间区(intergenic region,又称基因间序列,intergenic sequence,占人类基因组的2/3。不过,目前看来,这部分可能不到10%)的非编码序列隔开。很多基因间区的功能尚未阐明。
5.基因组序列中包含大量重复序列重复序列(repetitive sequence)又称重复DNA(repetitive DNA)。每一种重复序列都是一定拷贝数(copy number,一个细胞内所含某种基因或DNA分子、序列的数目)的某种核苷酸序列(称为重复单位)的集合。重复序列可根据重复单位的连续性分为串联重复序列(tandem repeat)和散在重复序列(interspersed repeat sequence),也可根据重复程度分为高度重复序列、中度重复序列和单一序列。
(1)高度重复序列(highly repetitive sequence) 又称高度重复DNA(highly repetitive DNA),在基因组中呈串联重复或反向重复排列,且大部分位于异染色质区,特别是除酵母外的端粒和着丝粒区,重复单位长度不到100bp(通常不到10bp),拷贝数可达106个,占哺乳动物基因组序列的不到10%(人类3%)。高度重复序列不编码蛋白质或RNA,其已阐明的功能是参与DNA复制、DNA转座、基因表达调控和细胞分裂时的染色体配对,例如着丝粒DNA是富含A-T的高度重复序列。
(2)中度重复序列(moderately repetitive sequence) 又称中度重复DNA(moderately repetitive DNA),多数散在分布于基因组中,重复单位长度可达102~103 bp,拷贝数可达103个,占哺乳动物基因组序列的25%~50%(人类50%),包括一些基因间区、转座子、串联重复序列(如Alu序列和KpnⅠ序列)、蛋白基因内含子,也包括rRNA基因(100~5000个拷贝,例如人类基因组约有200个,分布在5条染色体上;爪蟾基因组约有600个,集中在1条染色体上)、tRNA基因(如人类基因组有497个)、5S rRNA基因(如人类基因组约有2000个)和某些蛋白基因(如组蛋白、肌动蛋白、角蛋白等)。
中度重复序列可分为长散在元件(long interspersed nuclear element,LINEs)和短散在元件(short interspersed nuclear element,SINEs)。
(3)单一序列(unique sequence) 又称单拷贝序列(single-copy sequence)、单一DNA (unique DNA)、非重复DNA(nonrepetitive DNA),在整个基因组中只有一个或几个拷贝。哺乳动物基因组序列的50%~60%是单一序列。蛋白基因大部分属于单一序列,但只占其一小部分。
不同生物基因组中所含重复序列比例差异极大。原核生物基因组几乎不含重复序列,大多数单细胞真核生物基因组含中度重复序列不到20%,动物基因组所含中度和高度重复序列可达50%,植物和两栖动物基因组所含中度和高度重复序列可达80%。
一个细胞含许多mtDNA拷贝,因此mtDNA属于重复序列。
6.基因组中存在各种基因家族 基因家族成员或形成基因簇,或散在分布。
7.基因组中含大量转座子 如人类基因组序列中45%为转座子序列,不过其中绝大多数因存在缺陷而不能转座。