裁剪基因——CRISPR革命
通过了解CRISPR的历史、方法和背后的机制,我们明白了一个偶然的发现是如何迅速变为一个革命性医疗工具的。得益于人类几十年间的技术创新和工程发展,如今CRISPR已经成为分子生物学和临床护理的重要组成部分。这种生物编辑和工程方法的研究进程,将在未来500年内继续加速。而且,CRISPR很可能在比较基因组学、精细机理实验和简单的生物学观察等方面发挥重要作用。回顾CRISPR的发展,有助于我们探索其他星球。
基因剪刀的发现
CRISPR是被意外发现的。该方法最早由日本研究人员(包括石野芳泉)在1987年发现,当时他们正在克隆一种他们正在研究的酶的一部分,这种酶被称为iap(碱性磷酸酶的同工酶转换)。在克隆过程中,他们注意到被克隆的DNA中出现了不寻常的重复序列。在遗传学中,重复序列往往产生于连续的部分或串联的部分,然而,这些重复序列却并不寻常。
在日本研究团队发现这种不寻常的重复序列时,人们还不清楚这意味着什么,但更多的证据很快就出现了。1993年,荷兰一位名叫扬·范·恩布登(Jan van Embden)的科学家及其同事正在研究结核分枝杆菌,它是一种导致结核病的生物体,他们注意到了这种细菌的奇怪之处。结核分枝杆菌有一簇重复序列,他们称之为“中断的直接重复”,结果显示,不同结核病菌株的序列具有多样性。起初,恩布登的团队对这些重复序列感到困惑,不过,他们很快意识到,这些重复序列的分化是针对菌株的,基于此,他们便能做出针对特定结核分枝杆菌的先导化合物,如毒性更强的菌株和良性菌株。他们使用寡核苷酸(引物)来快速对菌株进行基因分型,这种方法至今仍在使用。20世纪90年代以来,随着越来越多的序列数据的出现,我们可以从其他微生物中寻找线索。现在,利用桑格测序法,我们可以对细菌、古细菌等多种东西进行测序。
随着大量DNA测序数据的出现,生物信息学和比较基因组学等领域诞生,计算建模、信息分析、序列分析、计算机编程、生物学逐渐融合。最早的生物信息学家之一是弗朗西斯科·莫吉卡(Francisco Mojica),他是西班牙阿利坎特大学的一名博士生,那里的盐沼中有着可以在高盐环境中生存的稀奇古怪的生物体。从本质上讲,这就像在一个外星上寻找奇怪的生物体。例如,极端嗜盐古菌是一种具有极高耐盐性的古生物,它从西班牙圣波拉的沼泽地中被分离出来。莫吉卡研究了这些生物,随后,他的指导老师发现,培养基中的盐浓度改变了限制性酶切割微生物基因组的效果,莫吉卡想要找出造成这一情况的根本原因。
在莫吉卡得到序列数据后,他注意到了这种奇怪的重复序列。他看到了多个由30个碱基组成的回文序列的副本(意思是正向和反向都一样),这些回文序列被大约36个碱基的“隔离序列”隔开,这种排列方式与他此前观察到的都不相符。1993年,他发表了自己的研究结果,并引用了石野小组1987年的研究。但是,这个现象仍然是一个谜。于是,莫吉卡观察了更多序列,打算找出原因。
1999年,莫吉卡在阿利坎特大学建立了自己的实验室。拥有了自己的实验室之后,他做的第一件事就是扫描大型的古细菌数据库,从富盐菌属(Haloferax)和盐盒菌属(Haloarcula)中寻找这种特殊的重复序列。他注意到,同样的重复序列也会出现在其他物种中。他检索了大量文献中出现的新物种,截至2000年年底,他在20种不同的微生物中发现了重复序列。他的研究表明,受到进化的影响,重复序列会出现在世界各地生物体的DNA中。莫吉卡还发现,细胞中也发生了间歇性重复转录(变成RNA)现象,这意味着重复序列在细胞中被激活(而不仅仅是作为DNA存在)。
2001年,莫吉卡和鲁德·詹森(Ruud Jansen)提出,可以用CRISPR这个缩写代替文献中出现的各种名称。CRISPR这个名称得到了承认,并很快被其他研究人员采用。CRISPR的一个特点是,在原核生物中,重复序列总是伴随着一组独特的基因,这种基因被称为“CRISPR相关系统”或Cas基因。莫吉卡和詹森通过研究,发现了4个Cas基因(Cas 1-4)。他们仔细检测了这些基因,发现它们拥有螺旋酶和核酸酶结构,这意味着它们有可能解旋DNA及切割DNA。然而,除了这些早期假设,CRISPR的功能仍然是个谜,人们仍不清楚产生重复序列的真正缘由。
基因剪刀的目的
在计算生物学和生物信息学最有说服力的一个案例中,计算机算法和大量计算为研究提供了重大线索。2003年夏天,莫吉卡花了大量时间使用一个名为BLAST(基于局部比对演算法的搜索工具)的序列比对程序,他将观察到的CRISPR重复序列与其他的序列进行比较。在此之前,他重复实验过几十次了,但他还是尽可能多地重复这个实验,因为DNA数据库总在不断更新、扩大。莫吉卡很幸运,他找到了一个与名为P1的噬菌体(一种感染细菌的病毒)相匹配的间隔序列,它能够被大肠杆菌感染,会将细菌中的一个适应性遗传系统(CRISPR阵列)与感染它们的病毒(噬菌体)序列精确联系起来。就这样,他在细菌内部发现了一个新的防御系统。事实证明,莫吉卡研究的这些细菌都将CRISPR系统作为一个原始的细菌免疫系统,该免疫系统会记住曾经感染过它们的病毒。
有权限进入不同数据库的研究人员很快证实了这些结论,包括法国国防部的一个团队,吉尔斯·韦尔格诺(Gilles Vergnaud)和法国国家农业研究所的微生物学家亚历山大·博洛廷(Alexander Bolotin)都在这个团队里。在鼠疫耶尔森菌和其他细菌中进行的实验,进一步证实了噬菌体及其靶标的映射作用。2003年,一个全新的CRISPR领域出现了。未来,我们可以用与此相同的方法比较在其他星球上发现的序列,更好地了解生物是如何适应各种环境的。
没过多久,世界各地的研究小组就开始深入研究CRISPR了。第一个实验证据(而不仅仅是序列比对和据此推断)来自2006年的鲁道夫·巴兰古(Rodolphe Barrangou),他的研究表明CRISPR是一个“细菌免疫系统”。2008年,来自芝加哥大学的卢西亚诺·马拉菲尼(Luciano Marraffini)和西北大学的埃里克·桑特海默(Erik Sontheimer)展开了第一个对CRISPR进行重新编程的实验。他们一直在努力破译CRISPR系统(如RNA、DNA),以及寻找从零开始构建它的方法。
基因剪刀的机制
然而,当时人们并不清楚CRISPR究竟是如何在细胞中运作的。在2007年到2008年,两位研究人员,莫诺(Moineau)和达尼斯科(Danisco)专注于研究各种细菌,然而CRISPR在这些细菌中产生的效果并不理想,而且细胞只能部分抵御质粒的攻击。(*译者注:Plasmid,质粒,由DNA环组成的小细胞内含物,该环不在染色体中,但能够自主复制)研究表明,质粒的切割取决于一种Cas酶(在这个案例中,是Cas9核酸酶)。随后,他们对这些物质进行测序,并查看了序列以弄清原因。他们发现在切割点附近有以三个为一组的碱基,他们称之为原型间隔区相邻基序(PAM)序列。他们认为,病毒DNA是在相对于PAM序列的相同位置被切割的,这表明细菌在特定部位切割了归巢信标。更为有力的证据是,随着与质粒匹配的间隔序列越来越多,切割的位点也在增加。
约翰·范·德·奥斯特(John van der Oost)和尤金·库宁(Eugene Koonin)也进行了相关研究,他们发现CRISPR系统可以被完整地从一个细菌转移到另一个细菌中,还可以有效地“重启”其功能。他们进行了重新编程,在各种细菌中发现了不同种类的CRISPR系统(1类与2类),还注意到这些细菌都有不同的Cas酶组。但是,对于这些细菌来说,这些协调的酶组均被激活成一个大框架(他们称之为串联),这需要让RNA经历多重加工,变成一个有61个碱基的RNA,称为CRISPR RNA(crRNA)。奥斯特和库宁发现,重复序列的最后8个碱基后面是间隔序列,然后是下一组重复序列。这些重复序列将RNA折叠成一个功能结构,从而使目标归位和切割得以实现。他们利用这种设计制作了史上第一个人工CRISPR阵列的合成版本——它能够为任何细菌设计定制疫苗。
研究人员马拉菲尼(Marraffini)和桑特海默(Sontheimer)计划在体外重新创建整个CRISPR系统,但要想在他们选择的细菌(S.epidermis)中实现这一点难度太大,因为表皮细胞拥有9个Cas基因,需要耗费很长时间。于是,马拉菲尼和桑特海默修改了S.epidermis CRISPR系统的靶向质粒。他们添加了一个“自我剪接”元素,如果S.epidermis CRISPR系统以RNA为底物进行运转,该元素就无法起作用,但是它能够在DNA上起到相应的作用,因为插入这个元素意味着CRISPR间隔序列不再匹配,免疫力和功能都将丧失。结果表明,CRISPR能够在DNA上运作,不能在RNA上运作。正如马拉菲尼、桑特海默、埃里克·兰德(Eric Lander)所指出的那样,CRISPR实际上是一种“可编程的限制酶”。
马拉菲尼和桑特海默最先指出,CRISPR可用于其他细胞的基因组编辑,其中也包括人类的细胞。他们在论文中写道:“从实用的角度来看,受特异性影响,破坏所有由24~48个核苷酸组成的DNA序列,可能具有相当大的作用,假如该系统能够在其本地细菌或古细菌环境之外发挥作用,那么它所具备的功效就更加明显了。”
2011年,埃玛纽埃勒·沙尔庞捷(Emmanuelle Charpentier)和约尔格·沃格尔(Jörg Vogel)完成了CRISPR的最后一块拼图。沙尔庞捷一直在寻找有效的微生物RNA,当时,她在威斯康星州的一次会议上遇到了沃格尔。沃格尔使用了高通量测序来更好地了解幽门螺旋杆菌的RNA,发现它可能导致胃溃疡。这种测序方法的原理是,将所有的RNA、DNA片段分解并进行测序,然后将其映射到数据库中宿主基因组的DNA序列上——就像2003年莫吉卡在西班牙使用的BLAST算法,MetaSUB联盟对地铁细菌DNA所进行的实验,以及我们在梅森实验室每天展开的研究那样。
当沙尔庞捷和沃格尔对细菌(化脓性链球菌)RNA进行研究时,他们注意到一些与众不同的东西。他们发现了一种十分丰富但很小(小于100个核苷酸)的RNA,其与CRISPR序列几乎完全匹配,是细胞中第三多的RNA。比它更丰富的RNA是那些制造蛋白质的RNA(核糖体RNA、rRNA)和那些介导信息传递以制造蛋白质的RNA(转移RNA、tRNA)。这个发现令人震惊——它的基数如此之大,为什么一直没有得到重视?沙尔庞捷和沃格尔称其为反式激活CRISPR RNA(tracrRNA)。他们证实了这种tracrRNA对CRISPR系统的功能至关重要,而且是归巢信标的最后一个必要部分。
剪向人类基因组
接下来,得益于珍妮弗·道德纳(Jennifer Doudna)[*译者注:道德纳是加利福尼亚大学伯克利分校的化学和分子生物学与细胞生物学教授。1997年以来,她一直担任霍华德·休斯医学研究所(HHMI)的研究者]和维吉尼朱斯·希克尼斯的研究,CRISPR成为一个突破性的工具,而不仅仅是细菌免疫的一个特征。沙尔庞捷在2011年结识道德纳,她们开始合作,打算制作一个更简单的编辑系统。她们在一个完全人工的系统中(在体外)证明了以下几点:第一,Cascade系统可以切割DNA;第二,有可能使用定制的crRNA1[*译者注:crRNA,在分子生物学中,反式激活crispr RNA(tracrRNA)是一种小型的反式编码RNA,它最早在人类病原体化脓性链球菌中被发现];第三,crRNA和tracrRNA都是Cas9发挥作用所需要的必备条件。更为重要的一点是,研究表明所有机制在融合到单导RNA(sgRNA)时也能很好地起作用,而单导RNA与感兴趣的DNA互相配对。这意味着你可以将基因组当作一份可编辑的文件,通过进化获得一个新的工具包,人类可以凭借思维和想象力来使用它。
虽然该机制的谜团解开了,也证实了它能够对其他生物体产生作用,但我们仍不清楚它能否在哺乳动物的细胞中正常运作。从2012年到2013年,大量实验表明,CRISPR能够在哺乳动物的细胞中发挥作用。张锋和乔治·丘奇(George Church)计划在人类细胞中测试CRISPR。但要做到这一点,他们就需要制作一个“优化密码子(Codon Optimized)”(*译者注:优化密码子是由三个化学单位或碱基组成的序列,能够在蛋白质合成中让特定的氨基酸排列起来,在遗传密码中由三个字母的代码表示)的Cas9酶,以便能够在人类细胞中运作。无论在地球还是其他星球上,这都是基因组工程及基因组设计的关键。
具体过程是这样的:一个生物体(如细菌)的蛋白质序列通过与第二个生物体的细胞内实际使用的编码子频率相匹配,接下来会在另一个生物体(如人类)中使用和表达。密码子是读取分子生物学(从DNA到RNA再到蛋白质)中心信条的中间环节,它使细胞拥有了各种功能。由于遗传密码有4个字母,而密码子有3个碱基长,所以就有64(43)个密码子。这64个密码子几乎被地球上所有生物体使用,包括1个“开始”密码子和3个“停止”密码子的遗传密码。这意味着遗传密码存在冗余部分。因此,用60个密码子让20个氨基酸进行匹配,这些氨基酸会利用上述tRNA将一个氨基酸与遗传密码的一个三联体进行匹配。
但由于存在冗余部分,生物体会适应不同的环境并进化,因此它们的丰度和使用频率在不同的物种中是不一样的。例如,缬氨酸是一种由4个不同密码子(GUG、GUU、GUC、GUA)编码的氨基酸。在人类细胞系中,GUG密码子的使用优先于GUU和其他密码子(使用率为47%,其余为18%、24%、11%),但大肠杆菌并非这样。大肠杆菌的细胞内,不同密码子的偏好各异,使用的是相同比例(35%)的密码子,而不是28%、20%、17%这样的不同比例。因此,要想设计一种能够在另一个物种中发挥作用的蛋白质,必须优化蛋白质中的密码子,让这些密码子及氨基酸在该物种的细胞中正常运转。如今,有关参考基因组物种密码子的使用情况已经十分明确了(GenScript数据库包含了我们所需的全部数据)。至少以现在的技术水平,绘制图谱是一件很容易做到的事情。不过,在拥有足够的可供使用的基因组序列之前,这几乎是一个不可能完成的任务。
一旦该(蛋白质)结构体经过密码子的优化,就需要在哺乳动物的细胞中进行控制。张锋在Cas9酶中添加了一个“核定位”信号,这意味着它将被转移到人类细胞的细胞核中,并实现切割。但是,它的功能十分有限——切割和编辑的效果并没有达到他的预期。此外,张锋测试了不同物种的Cas酶,发现化脓性链球菌中的酶效果更好。虽然人类细胞中没有处理RNA(如细菌的RNase III)的细菌酶,(*译者注:RNase III是一种核糖核酸酶,可以识别dsRNA,并在特定的位置将其裂解,转化为成熟的RNA)但人类细胞仍然可以处理crRNA并发挥作用,张锋由此找到了正确的tracrRNA序列。到了2012年,他发现在人类和小鼠细胞中可以同时编辑16个位点,他了解到沙尔庞捷和道德纳的sgRNA研究成果,想出了使该系统变得更加简单的方法。他优化了这个系统,表明一个更新的sgRNA能够起到非常好的效果,并且可以应用于哺乳动物的系统。丘奇和张锋的研究表明,crRNA-tracrRNA的全长融合可以很好地应用于人类细胞,因此,他们能够将细菌的工具箱开放给人类及哺乳动物的细胞。
基因剪刀的优化
随后,研究人员开始完善这一系统。2013年,道德纳和丘奇合作,精准编辑了人类基因组的一个部位。AddGene是一个构建体、细胞和基因组编辑工具及协议的存储库,几十个研究小组利用这个非营利性网站来测试这些系统。韩国的金镇秀表明,crRNAtracrRNA的全长融合可用于改变斑马鱼的生殖系统,这意味着哺乳动物、脊椎动物及潜在的系统都可以被随意编辑。道德纳和沙尔庞捷创建了彻底改变遗传学的系统,她们于2020年10月获得了诺贝尔化学奖。
然而,2018年,两个不同的研究小组注意到,CRISPR编辑会导致出人意料的后果,一个新问题出现了。由于CRISPR酶本质上是一把剪刀,跨越两条链切割DNA,因此DNA需要被修复——而细胞也注意到了这一点。我们的老朋友TP53发现了这种损害,并被激活,以进行修复和清理。p53有些不太对劲,因此它开始扫描基因组。
当然,这是一个细胞生命的正常部分。当细胞受到辐射时,p53基因也会被激活。正因为如此,p53是一个非常重要的基因,有助于使人们的DNA免受损伤。如果细胞不再对DNA损伤传感器做出反应,p53就可以引导细胞自我毁灭,这个过程被称为细胞凋亡。但是,如果p53发生突变,这种安全机制就会被打破。事实上,在癌症中,当p53发生突变时,它可以导致突变细胞的突然出现和快速增长。这一现象在卵巢癌中尤为明显,在95%的肿瘤中,该基因都发生了突变。因此,如果你有一批细胞,一些带有野生型(非突变型)p53,一些带有突变型p53,你用CRISPR剪开DNA,那些自毁能力较弱的细胞将很容易被修复,并继续存活,而它们的野生型兄弟将自毁,以拯救机体的其他部分。
可悲的是,这正是治疗中的CRISPR细胞所发生的变化。事实证明,CRISPR在功能失调的p53细胞中效果更好。由于CRISPR的关键抗病机制不再奏效,健康细胞会死亡,潜在的癌细胞会快速成长,类似于修复黑色素瘤之后,皮肤上会留下疤痕。正如丘奇曾经说过的,这实际上是一种“基因组破坏”。
2019年,随着“先导编辑”的推出,基因组编辑领域出现了重大突破。麻省理工学院和哈佛大学布罗德研究所的戴维·刘(David Liu)及其同事,通过使用受损的Cas9内切酶和先导编辑引导RNA(pegRNA),使得研究结果更精确。他们的目标是优化CRISPR系统,使其更加精确,减少脱靶效应,避免双链断裂造成的问题。刘改变了Cas9,使其只在双螺旋的一条链上进行切割,而不是两条链,这有效避免了p53的选择问题。整个优化的CRISPR机制锚定在目标位点上,携带了所需的编辑及一个新设备——逆转录酶。逆转录酶可以将RNA转化为DNA,然后利用嵌入pegRNA中的“修补我”信息来修补其感兴趣的位点。
这个令人兴奋的新系统在各种细胞中进行了测试。刘纠正了可能导致镰状细胞性贫血的单碱基错误(称为转位,在HBB基因中),改变了可能导致泰伊—萨克斯二氏病的4个并存变体(HEXA中的一个缺失),在PRNP中安装了一个“保护性转位”,并将标签和表位插入目标位点。总之,他们在人类细胞系和初级后生(分裂后)小鼠皮层神经元中进行了175次编辑。
最令人兴奋的事情在于,先导编辑在使基因组发生变化方面效率更高,并且副作用比同源定向修复更少。具体来说,在已知的Cas9脱靶位点上,先导编辑诱发的脱靶编辑率比正常的Cas9核酸酶低得多(前者为10%,后者为90%)。先导编辑扩大了基因组编辑的范围,根据那些可以用pegRNA来解决的突变,原则上,我们能纠正多达89%的与人类疾病相关的基因变异。
但是,正如乔纳森·王尔德(Jonathan Wilde)和该领域的其他研究人员所指出的那样,该系统并不完美。pegRNA方法是在人类系统中进行体外测试的,并不是在真实的身体中进行测试的,而人体显然比体外环境更加复杂。此外,提高细胞内的逆转录酶含量,有可能在培养皿中起作用,但在人体中,免疫系统可能不会产生很好的反应,甚至可能导致目标被破坏。如上所述,细胞内大量的激活和逆转录(DNA转化为RNA)可能是导致逆转录病毒的原因。随着令人兴奋的发现不断增加,研究人员也在寻找新的、更好的基因组编辑方法。
猎获更多基因编辑工具
2003年开始,人们一直在扫描所有已知的细菌基因组,以找到新型的CRISPR阵列和新型的编辑构造。2016年,张锋小组中的奥马尔·阿布达耶(Omar Abudayyeh)、乔纳森·古滕贝格(Jonathan Gootenberg)和席尔瓦娜·科纳曼(Silvana Konermann)发现了第一个可以靶向和编辑RNA的CRISPR系统,并将它命名为Cas13a。2017年,他们证实,这种方法可以与等温(相同温度)扩增法一起使用,从而建立了一种基于CRISPR的诊断方法,他们称之为CRISPR-Dx。利用这种诊断方法,我们能够快速检测DNA、RNA,该方法具有极高的灵敏度和单碱基错配特异性。他们的检测平台名为特定高灵敏度酶报告器解锁(SHERLOCK),用来检测寨卡病毒和登革病毒的特定毒株,区分致病细菌,以及识别肿瘤DNA的突变。2020年,SHERLOCK被FDA批准,用于COVID-19患者的SARS-CoV-2病毒检测。最令人兴奋的是,SHERLOCK反应试剂可以被冻干,能够制成试纸,应用于现场检测,可在疫情期间大量使用。
研究人员还在寻找更多的CRISPR阵列,揭示新的生理习性,了解细菌所遇到的噬菌体。CRISPR阵列的大小各不相同,但大多数都有一个富含AT的引导序列,然后是由独特间隔区分出来的短重复序列。CRISPR重复序列通常为23~55个碱基,有时它们显示出序列对称性,这使得RNA中的自折叠结构和茎环路(或称“发夹”茎环结构)成为可能。在不同CRISPR阵列中,间隔序列的大小通常为21~72个碱基,但在任何CRISPR阵列中,重复间隔序列通常少于50个。
阿布达耶和古滕贝格的开创性研究与莫吉卡在20世纪90年代末开展的研究类似,他们尽可能多地获取元基因组数据,以寻找新的CRISPR元素和CRISPR阵列。阿布达耶和古滕贝格仅从MetaSUB数据中,就发现了超过80万个新的CRISPR阵列。Arbor生物科技公司等研究了新的CRISPR阵列和推定酶。随着越来越多的物种测序工作的完成,人们也在更加努力地寻找新的生物学方法。