通信简史:从遗传编码到量子信息
上QQ阅读APP看书,第一时间看更新

1.2 遗传信息的编码

为了更容易理解遗传通信系统中对遗传信息的编码,首先回忆一下直观的无线电报通信系统,它由软件和硬件两部分组成。其中,硬件部分就是无线电收发报机,它可看成电报通信系统的“魄”,但这不是本节的重点;软件部分就是信息编码,准确地说是莫尔斯电码,它是电报通信系统的“魂”,是最重要的部分。电报通信系统的信息编码就是表1.1中所示的“码书”,分别用一些长度各不相同的代码串来表示26个英文字母和常见的数字符号等,而且代码中的符号只有点、划、短停顿(用于标示点和划之间的停顿)、中停顿(用于标示每个词之间的停顿)以及长停顿(用于标示句子之间的停顿)等5种,它们的声音分别对应于“滴”、“嗒”、短时静默、中等静默以及长时静默。

比如,字母A用一个长度为3的代码串表示为“点、短停顿、划”,字母B用一个长度为7的代码串表示为“划、短停顿、点、短停顿、点、短停顿、点”,问号“?”用一个长度为11的代码串表示为“点、短停顿、点、短停顿、划、短停顿、划、短停顿、点、短停顿、点”。

表1.1 莫尔斯电码的“码书”

于是,当收发双方都基于同一本“码书”时,电报通信的原理就非常清晰了。如果发信方想发送某个字母,就只需通过无线电波的通断操作,让对方听到该字母在“码书”中所对应的代码串的声音就行了。而收信方在听到这串声音后,再根据“码书”查找所听到的那串声音对应的字母,就可以知道发信方发送的是哪个字母了。如果每个字母和字符都能发送给对方的话,那么任何文章也就能发送给对方了。

现在回头来看看遗传通信系统的情况,此时亲代和子代所使用的“码书”是相同的。实际上,同一个物种在遗传通信系统中所使用的“码书”都是相同的,否则子代的生长将漫无目的,并最终以死亡的方式被淘汰。虽然该“码书”对相应生物的基因密码解释系统(更准确地说是该生物的细胞)来说已经异常熟悉,但是人类至今还不完全清楚这些“码书”的具体生理学含义,只知道一些零星的解释。比如,若某人的21号染色体多了一条,那么他就会患先天愚型症;若某人的5号染色体部分缺失,那么他就会患猫叫综合征。不过,对许多物种来说,人类已经从形式上基本搞懂了它们的遗传信息编码——实际上就是由若干个“四字母串”组成的代码串,用生物学语言来说就是所谓的基因组。本节将从通信角度介绍基因组的一些情况,以便通信领域的读者结合莫尔斯电码来深入理解。

类似于“英文信息的最基本的单元是字母”,遗传信息的最基本的单元就是大家耳熟能详的基因。因此,若将基因的编码形式搞清了,那么也就清楚了遗传通信系统中遗传信息的编码形式。在生物世界中,小到细菌,大到人类,它们的基因都是由一堆数量和长度各不相同的、名叫DNA的细线组成的,而且这些细线上都 “刻满”了由4个字母A、T、G、C组成的字母串。实际上,这里的A、T、G、C分别代表4种化学物质。不过,由于它们的名字太生僻,所以这里就忽略其生物学内涵,或将它们简称为4种碱基就行了。因此,更进一步地说,若能将某种生物的所有DNA细线上所“刻”的字母串都搞清楚,那么该生物的所有基因的编码形式就清楚了,该生物的遗传信息编码也就清楚了。这便是生物学界所谓的基因组计划,或叫基因定序。

目前,人类已在基因定序方面取得了不少重大突破,甚至已基本搞清了若干种生物的遗传信息编码,即完成了它们的全部基因定序工作。比如,有一种名叫φx174的噬菌体细菌,它的全部基因只有5383个密码子。这里的密码子又称为基因密码,是指一些长度为3的“四字母串”,其具体含义将在下一节中介绍,此处暂且将它理解为一个长度为3的代码串就行了。比如,AGC就是一个密码子。另外,天花病毒的全部基因共含有18.6万个密码子,线粒体的全部基因共含有18.7万个密码子,叶绿体的全部基因共含有12万个密码子。早在1995年,人们就完成了某种含有180万个密码子的细菌的全部基因定序工作,从中读出了1734个特殊区域。换句话说,这些区域可通过不同时空、不同数量的交互作用,产生独立自主的生命个体,即人工呈现新的生命现象。在这1734个区域中,可以分辨出其生理功能的区域大约有1000个。

当然,还有更多物种的遗传信息编码仍然未知。即使完成了基因组定序工作,也只意味着搞清了遗传信息的编码形式,而没搞懂其“码书”的内容,更没搞清其“码书”随着时间和空间变化的情况。所以,万里长征才刚起步。为了突出重点,下面以人类基因组为主线,介绍遗传通信系统中遗传信息的编码情况。

首先,看看人类遗传信息编码的宏观结构。若承载人类基因组的DNA被展开成一条细线的话,该细线的长度就将达到惊人的1米左右,该细线的长度是DNA分子宽度的1亿倍。形象地说,用100亿条这样的细线拧成的“粗绳”甚至也能被装进一根长头发中。更不可思议的是,这么长的一条基因组细线竟在被折叠成一个微小的“毛线团”后,生生地被有条不紊地塞进了直径不足10微米的细胞核内;而且该细线上被“刻”了大约30亿个密码子,它们组成了大约4万个基因,每个基因大约包含30万个密码字符,每个字符都取自A、T、G、C四者之一。换句话说,从形式上看,在人类遗传通信系统中,被传输的信息的长度大约为100亿个“四字母串”。

其次,再看看人类遗传信息编码的中观结构。实际上,人类遗传信息的这100亿个“四字母串”并非简单地串接在一起,它们也具有丰富的内部结构。这100亿个代码串组成的那条1米长的细线可以被分割成46条长度各不相同的线段,其中各有23条线段分别遗传自父亲和母亲(至于到底是如何进行遗传的,我们将在下一章“生长通信”中统一介绍,此处就不分散读者的注意力了)。更进一步,来自父亲的每一条线段都对应于一条与之等长的、来自母亲的线段,生物学家称之为染色体。来自父母的全部46条(23对)染色体的形状和编号见图1.1。

图1.1 人类染色体的形状和编号

其中,前22对染色体称为常染色体,在男女体内都有。第23对染色体却比较特殊,被称为性染色体。男性体内的第23对染色体是XY,女性体内的第23对染色体是XX。这些成对的染色体都被沿相同的螺旋方向搓成了23根 “双股麻绳”,而且非常同步。在以螺旋方式相互缠绕的这23根“双股麻绳”中,若一股绳上“刻”着A,则另一股绳上的相同位置一定“刻”着T,反之亦然。一股绳上的G一定与另一股绳上的C相对应,反之亦然。更形象地说,这23根“双股麻绳”上依次“刻”着(A:T)或(G:C)符号对,它们被生物学家称为碱基对。可见,“双股麻绳”中的任何一股都可以唯一确定另一股。在人类基因组中,(A:T)碱基对的含量高于(G:C)碱基对的含量,后者只占约38%。不过,在2号染色体中,(G:C)碱基对的含量较高。每条染色体上有上千个基因。表1.2显示了23对染色体中每对所含的基因个数、碱基对个数以及碱基的占比等情况。

表1.2 人类各染色体中基因和碱基对的粗略分配情况

从该表中可知,1号染色体所含的基因数量最多,近2800个,是其他常染色体平均水平的两倍多;19号染色体所含基因的密度最大,在约6381万个碱基对中就包含了1700多个基因;Y染色体、18号染色体和21号染色体所含的基因最少;X染色体上大约有1000个基因。此外,基因组上大约有1/4的区域不存在基因片段,目前仍有约9%的碱基对序列还未被确定。当然,表1.2中所列出的只是到目前为止的估计值,今后随着研究的进一步深入,可能还会从这些染色体中解析出更多的基因。幸好本书不是生物学科普图书,所以不必追求精准的生物学数据,读者只需明白在遗传通信系统中,遗传信息编码的形式和“码书”的编撰确实都非常困难,远远难于电报通信的莫尔斯电码就行了。

最后,再看看人类遗传信息编码的微观结构。通过持续数十年的、庞大的人类基因组计划,人们终于知道了人类基因组的部分细节。比如,人类基因的数量(不足4万个)远远小于曾经的预期,甚至只是线虫和果蝇这样的低等动物的基因数量的2倍;“人有而老鼠没有”的基因只有区区300个。如此少的基因竟能产生人体所具有的复杂功能,这说明基因组的大小和基因的数量在生命演化过程中可能并不具有特别重大的意义,也说明人类基因更有效。已被定位和基本确定了功能的基因大约有2.6万个,其中有30多种致病基因被初步确定。人与人之间大约99.99%的基因是相同的,同种族之间的基因差异小于不同种族之间的基因差异,但在整个基因组序列中,人与人之间的基因差异仅为万分之一,因此人类的所谓“种属”其实并无本质区别。血缘关系越近,彼此的基因差异就越小,这也是利用基因来鉴别亲子关系的理论根据。男性的基因突变率是女性的2倍,而且大部分人类遗传疾病源自Y染色体,所以,男性在人类的遗传和演化中可能起着更重要的作用。在人类基因组中,有200多个基因来自“插入人类祖先基因组中的”细菌基因。这种插入基因在无脊椎动物身上都很罕见。这表明这些细菌基因在人类演化的晚期,在人类免疫系统建立之前,被寄生于人体的细菌强行插入人类基因中,从而实现了细菌基因组与人类基因组的基因交换。用当前时髦的话来说,早在远古时代,人类其实就曾被细菌实施过“转基因手术”了。

除了人类的染色体外,目前人们对许多其他物种的染色体也有了一些初步了解。比如,大部分动植物和真菌是二倍体,即它们的每条染色体都有两个同源拷贝,因此染色体的数目都是2的倍数。当然,也有超过两个拷贝的情况发生,例如小麦就是六倍体,它有7种不同的染色体,各有6个拷贝,总计42条染色体。表1.3给出了常见生物的染色体数目。

表1.3 常见生物的染色体数目

虽然人类的遗传信息编码形式还未完全搞清楚,基因组定序工作还远未完成,但是基因技术已开始有其用武之地了。

基因测序是指从血液或唾液中分析、测定某人的基因序列,以预测个体罹患多种疾病的可能性和行为特征等,甚至可以锁定个人病变基因,提前预防和治疗相关基因疾病。某些基因疾病的无创产前筛查技术已比较成熟了。具体来说,只需采集孕妇的外周血,通过对血液中游离的DNA(包括胎儿的游离DNA)进行测序和分析,便可知道胎儿是否患有染色体数目异常的某些疾病,比如21–三体综合征(即唐氏综合征,此时21号染色体变异为三拷贝)、18–三体综合征(又称爱德华氏综合征,此时18号染色体变异为三拷贝)、13–三体综合征(此时13号染色体变异为三拷贝)以及5p–猫叫综合征(此时5号染色体短臂部分缺失)等。据说,苹果公司创始人乔布斯就曾采用基因测序方法,希望以此抵御癌症的侵袭。著名影星安吉丽娜·朱莉也做过基因测序,并为此预防性地切除了自己的乳腺。此外,本·拉登也曾做过基因测序。原来美军在击毙了本·拉登后,首先提取了他的DNA,然后与他家人的DNA样本进行比对,从而最终确定了他的身份。

DNA亲子鉴定是指利用基因技术来鉴定两人之间的亲子关系。在人类的23对染色体中,同一对染色体的同一位置上的一对基因(称为等位基因)应该是一个来自父亲,另一个来自母亲,而且两个随机个体具有相同DNA图形的概率仅为3×10–11,几乎为零。若同时用两种探针进行比较,则两人具有完全相同的DNA图形的概率小于5×10–19。由于全球只有约70亿人口,所以,除非是同卵双胞胎,否则几乎不可能有两个人的DNA图形完全相同。若检测到某个DNA位点的等位基因中的一个与母亲相同,那么另一个就该与父亲相同,否则就存在疑问了。血液、毛发、唾液、精液、肌肉、口腔细胞等都可用于提取亲子鉴定所需要的DNA图形。利用DNA进行亲子鉴定,只需针对十几至几十个DNA位点进行检测就行了。若全都没有疑问,则可确定亲子关系;若有3个以上的位点不同,则可排除亲子关系;若只有一两个位点不同,则应考虑基因突变的可能,这时为保险计,可增加一些位点的检测。通过DNA亲子鉴定,“否定亲子关系”的准确率几近100%,“肯定亲子关系”的准确率也高达99.99%。DNA亲子鉴定技术也可用于许多法医鉴定场景。

基因工程又称基因拼接技术或DNA重组技术。基因工程是指利用不同来源的基因,按照预先设计的蓝图,在体外构建出新基因,然后将其导入活细胞,使这个基因在受体生物细胞内进行诸如复制、转录、翻译表达等操作,以改变生物原有的遗传特性或获得新品种等。具体来说,用人为方法将所需要的某一供体生物的DNA提取出来,在离体条件下用适当的工具酶进行切割后,将其与作为载体生物的DNA分子连接起来,然后与载体一起导入某一更易生长和繁殖的受体细胞中,让外源物质在其中安家落户。基因工程技术为研究基因的结构和功能提供了有力手段,克服了远缘杂交的障碍,扩大了定向改造生物的可能性,甚至可使动物与植物之间以及人类与其他生物之间的遗传信息进行重组和转移。比如,可将人类的基因转移入大肠杆菌中,将细菌的基因转入植物中。

基因工程在20世纪取得了许多重大进展,主要体现在以下两个方面:一是克隆,二是转基因物种。其中,启用克隆技术的著名例子当数1997年克隆羊“多莉”的诞生。此羊是通过无性繁殖产生的第一只哺乳动物,它完全秉承了“给予它遗传细胞核的那只母羊的”遗传基因。另外,在转基因物种中,由于已植入了新基因,物种具有了某些全新的性状。如今,转基因技术得到广泛应用,出现了许多转基因产品:生长快、耐不良环境、肉质好的转基因鱼,乳汁中含有人类生长激素的转基因牛,不会引起过敏的转基因大豆,转基因抗虫棉,转基因“超级细菌”(能吞噬和分解多种污染环境的物质,甚至能吞噬并转化汞、镉等重金属,分解有害物质),转入黄瓜的抗青枯病基因的转基因甜椒和马铃薯,转入鱼的抗寒基因的转基因番茄,导入储藏蛋白基因的超级老鼠,导入人类基因的具有特殊用途的猪和老鼠,等等。此外,医学上还将出现多种基因疗法,即把正常基因导入患者体内,使该基因发挥功能,从而达到治病目的。该方法的关键技术包括基因置换、基因修复、基因增补和基因失活等。