分析人类基因组
基因组到底是什么
有多少读者听说过“基因组”这个词呢?
我想,应该比听说过“基因”的人要少一些吧。基因组指的是生物体所有遗传物质的总和,大家把它理解成一整套的基因就可以了。
基因组(genome)这个词,是基因(gene)加上希腊语中表示“全部、完整”(-ome)的词缀组成的合成词。我以为,“研究对象+ome”合成的词语,在自然科学的学科当中,也只有生物学有此创想。
这可以说是一种“网罗主义”的思维方式。与之相对的,我想应该就是物理学的“原教旨主义”。简而言之,在研究同一种自然现象时,物理学等学科崇尚普遍的理论或者原理,并追求建立模型。
生物学当然也会追求普遍的规律。但对规律的追求都是暂时的,往往会追加许多例外情况,从整体、全面的角度去考虑。换言之,物理学是从种种现象中排除多余的事物,摸索出普遍的原理。而生物学则是在普遍的原理的基础上,发现多种多样的现象,在研究过程中不断将规律的范围扩大。
最近,人们对所有转录产物(transcript)的集合—转录组(DNA转录得到的所有RNA)、所有蛋白质(protein)的集合蛋白质组(翻译出的所有蛋白质)越来越关注。而这些研究的源头,都来自试图研究所有遗传物质的基因组研究法。
因此,人们开始对各种生物开展名为“基因组计划”(Ge)的研究尝试。但准确地说,基因组计划其实是分析所有作为基因本体的染色体DNA的核酸序列,而并非分析所有的基因,也就是真正意义上的基因组。基因组计划归根结底只是在为分析基因组分析做准备(一种极其重要的准备)。
在这一驱使下开启的基因组计划之一,正是“人类基因组计划”。人类基因组计划,是于1990年在美国的主导下启动的。初始的预算是30亿美元,计划开展15年。但随着过程中计划推进速度加快,大致的序列分析(被称作“测序草图”)在2000年就完成了。
而在2003年,也就是沃森和克里克发现DNA双螺旋结构50周年之际,测序工作全部完成。
表观遗传突变
“人类基因组计划”的目标就像刚才提到过的那样,是列举出人类所有染色体DNA的核酸序列,而最终目的则是分析基因组。
在计划开展过程中,随着DNA分析技术和数据分析用的相关电脑技术的发展,计划也产生了为医学和生物学发展做贡献的新目的。
当然,这并不是一个研究室,甚至美国一个国家能够完成的大工程。所以,世界各国携手共同研究一个人类的基因组(22对常染色体[1]和2条性染色体),长年累月、一点一滴地分析核酸序列。
过去,DNA的核酸序列都是由人手工计算、分析,如今这项工作已经实现了自动化,使用DNA测序器来完成。人类基因组计划的工作量用现在主流的DNA测序器计算、分析的话只需要10天左右,而新一代的测序器只需要几天时间。据说,如果目前正在开发中的最新型测序器一旦完成,分析基因组只需要短短3天时间。最新型测序器能够进行更加精细的解析,甚至能够分析表观遗传突变。
人类基因组计划最初的形式是研究人员们分工分析人类的31亿个碱基对,建立数据库,与全世界研究者们实现信息共享,并对各个基因不断开展分析。
这项计划原定持续15年,但随着之后技术的发展,测序草图在2000年就公开了,这比计划时间早了5年。测序草图指的是不完整的序列,测序草图的英语“draft”有“草案”的意思。
如今也是一样,在进行类似基因组分析的长核酸序列的分析时,会将核酸序列分割成多个片段,完成分析后再重新组合。因此,测序草图对序列的细节研究,例如切割点附近,是很不充分的。英语中“draft”还有“穿堂风”的意思。这个命名实在是非常巧妙。
在测序草图发布后,经过三年的修订补缺,终于公布了完整的序列。这个速度依旧比最初的计划早了两年。计划的完成时间提前了这么多是有其原因的。
塞雷拉基因组公司的挑战
有一家私营企业,就像是与“人类基因组计划”项目竞赛似的,也开始了人类基因组分析工作。那就是由美国人约翰·克雷格·温特担任首任总裁的塞雷拉基因组公司。温特也因为人工合成了细菌的所有染色体而闻名。
过去,世界各国的研究人员都按照计划来研究自己所负责的染色体的基因。但塞雷拉基因组公司却完全集中于DNA的分析。他们采用了鸟枪测序法[2],以惊人的速度开展分析。鸟枪测序法就是将染色体DNA切成非常小的片段,不考虑基因等条件,把序列数据化的一种方法。
他们依靠序列重叠的区域,将众多DNA片段重新拼接成染色体,就像是拼散落在地板上的拼图一般。但他们并不知道拼好后的图样是什么,只能依靠4种核酸。这当然不是人力能够办到的事情,他们当时使用超级电脑运转了好几个月。
塞雷拉基因组公司开始基因组分析的目的,是为了获得基因专利。因为他们意识到,在基因组计划中发现的新基因能够发家致富。这一企图也遭到了科学家团体的批判,“是一种妨碍研究推进的尝试”,最终他们不得不改变方针。在另一起诉讼中,法院也判决生物的基因不属于专利范畴,以研究为目的使用基因,基本上都可以开放获取。在将来,人工的基因也许可以成为专利申请的对象。
对人类基因组的分析,得出了研究者从未设想过的结果。没想到,根据推断,人类基因组中有七成以上的内容是和生命活动毫无关联的。而在剩余仅仅三成的基因当中,与蛋白质的结构相关的核酸序列占基因组整体的比例也不过只有不到2%。
而在实质上与蛋白质的氨基酸序列直接相关的核酸序列,也只不过占这不到2%中的一成。各位读者应该也很惊讶:“绝大多数都是无用的区域吗?”
其实,在人类基因组计划完成,公布人类的基因数只有2。1万个这一结果的时候,全世界的科学家们也都惊“掉”了下巴。这比人们所想象的要少得多。
不过,有几点需要大家注意的地方。
基因的数量归根结底不过是推测,并不意味着我们已经确定了它们的功能。像前文提到的那样,基因组计划发现的不过是核酸序列而已。然后从经验上,机械地检测在基因中出现次数较多的、标志性的核酸序列基因,并由此推算基因的数量。
但是说到底,推测也只是推测而已。在2003年人类基因组计划结束之后,又启动了一个名为EncyclopediaofDs(DNA元件百科全书计划)的人类基因组分析国际合作计划,通称ENCODE。
ENCODE正如它的名字“DNA百科全书”所说的那样,项目的目标就是试图打造人类基因组的百科全书。分析人类基因组计划从染色体中提取出的文字罗列(核酸序列)中究竟写了些什么,正是这项计划的目的。这的确称得上是将DNA这种自然中的编码(密码)“encode”(译为编码)为便于利用的数字化数据的项目。
人类基因组计划出人意料的结果
人类基因组计划如今仍在持续中,而参与了计划的日本的理化学研究所[3]在2012年公布的研究结果再一次震惊了世人。理化学研究所的研究团队分析了转录组(从DNA转录得到的所有RNA),发现人类基因组中居然有八成的基因可能具有某种功能。
这和人类基因组计划得出的预测结果完全相反,这意味着细胞中除了蛋白质之外,RNA也可能发挥了各种各样的作用。更加准确地说,在细胞分化的每个阶段发挥作用的染色体只占三成,但根据细胞种类的不同,染色体上发挥作用的部位也不同,总体上可能有约八成的核酸序列被激活为基因(或是调控区域)。