人类基因组的最终图谱
关于人类基因组,有一个令人惊讶的事实,那就是我们一次又一次地对其进行了修订。2000年,人们首次完成修订人类基因组的任务,在白宫草坪上,克林顿总统将其作为重大新闻发布。2003年,人们再次顺利地完成了这项工作。2003年以来,每隔几年,基因组参考联盟就会对新的人类基因组进行修订,并公布官方的新版本数据。
事实上,人类的基因组并未被完整呈现出来。即使在今天,人类基因组这个31亿块的拼图还没有被完全拼凑完整。目前的人类基因组图谱,是由数百个DNA片段组成的,而不是由一套漂亮、整齐的染色体组成的。随着技术的发展,描绘成品基因组变为可能,包括完整地从一端到另一端组装人类基因组。
那么,问题到底出在哪里?为什么要不断修订人类基因组?以目前的技术来说,我们需要将基因组分割为数以百万计的微小片段,将其作为一串被称为读数的字母,进行读取。利用计算方法,我们通过匹配相同的字母串将这些读数对齐。人类基因组的某些区域,以及来自这些区域的片段,就像一块块拼图,每一块拼图都是独特的。相比之下,其他区域更难解读。人体内有成千上万个完全相同的拼图,只不过我们不允许它们相互替代。在你的染色体末端,存在着高度重复的“TTAGGG”序列,被称为端粒。染色体的中间区域被称为中心粒,它有着额外的重复片段,如果你只有很短的DNA序列片段,那么问题就不太可能解决。幸运的是,牛津纳米孔微型仪器MinION和太平洋生物科学仪器等测序仪提高了准确读取较长序列的能力,使得组装生命拼图的目标变得更具可行性。
最佳例证来自亚当·菲利普(Adam Phillippy)、凯伦·米加(Karen Miga)、埃里希·贾维斯(Erich Jarvis)和Telomer-to-Telomere联盟研究人员的研究,他们的成果表明,我们现在可以从零开始构建一个完整的人类基因组。X染色体,即女性的性染色体,在2019年首次完整呈现的。不过,我们现在已经完成了第一个任务,其余研究也将迅速跟进。如今,我们可以绘制每个基因的位置、相位(相对于同一分子上的其他基因的位置)和状态,以及表达的内容、修改的内容,还有功能元素所造成的影响,如增强子(基因的远端控制盒)。
截至2021年年底,人类基因组的大部分基本图谱已经完成绘制。我们确定了第一批“不可干扰”的基因,这些基因不应该被编辑、删除、修改。为了深入了解人类遗传变异的影响,基因组聚合数据库、英国生物银行和世界各地的测序人员都付出了众多努力。他们提供了数以百万计的人类遗传数据、医疗数据和表型,可以用于识别那些对生殖或生活质量没有负面影响的突变。举个例子,如果几百万个基因组中,只有10%的基因组突变,那么这个突变可能没有太大危害——否则很多人都可能患上类似的疾病,或者在我们进行测序之前就去世了。随着我们收集的数据越来越多,“不可干扰”的基因逐渐丰富,包括许多“胚胎致死”基因(如果一个人携带这类基因,那么他根本不会出生),以及那些和疾病相关的、在某些情况下可能会被接受的基因。
在绘制人类基因组的图谱之后,我们应该思考一下,如何更好地帮助病人减轻病痛。但是,第一个真正的人类基因组图谱直到2021年才全面绘制完成,针对其他生物体基因组的研究才刚刚开始。最大的问题是,当我们到达火星时,我们的基因组会变成什么样?我们应该如何修改基因组?我们能在火星生存下去吗?我们下一步需要创造些什么东西?