然而也有批判声音指出,认定这些转录后的RNA全都具有某种功能还是有些操之过急。
牛津大学的研究团队在2014年发表的一篇论文从进化论的角度比较了多种哺乳动物,推断出了实际发挥作用的(生命活动所必需的)核酸序列。这一研究显示,人类基因组中确定蛋白质构造的核酸序列只不过占总量的1%多一点,而控制蛋白质表达的核酸序列只有7%左右。简单来说,人类基因组中重要的部分只占8%多一些。
与其说哪种研究结论才是正确的,不如说当前的任何一种研究结果都不过是一种暂时的推测。实际上,我们更应该一个一个地去对基因加以确认。
话虽如此,截至2015年8月,数据库中收录的基因已经达到了5万余个(每年仍在增加),这一数字已经远远超过了2003年的推算数值。如同前文所述,如果不只是把蛋白质的核酸序列看作基因,而把控制蛋白质表达的RNA的核酸序列也纳入研究范畴的话,我们就会一点一点地发现原本以为无用的基因区域,实际上都具有某种功能。但大多数是无用的(或者说大部分是间隙)这一点,恐怕并不会有所改变。
不过,虽说无用,却并不意味着这些基因是没有意义的。从长远的角度来看,有时一些突变也许会带来对进化有利的结果。
在ENCODE中大显身手的理化学研究所研究团队同时也主导了2000年发起的另一个国际项目——国际FANTOM联盟,共有来自18个国家的超过100家机构参加。
FANTOM是FunnotationoftheMammalianGenome的缩写,是一个全面提取哺乳动物(尤其是小鼠)基因功能的项目。需要特别指出的一点是,国际FANTOM联盟的数据库中也包括了基因表达各个阶段内的细胞的表达,发明iPS细胞的灵感就是由此产生的。
世界各国的基因组分析
人类基因组计划对于解读人类的核酸序列是有着重要意义的。而下一阶段,我们则需要关注每个人之间的不同。做到这一点的项目,就是1000Ge(千人基因工程,2012年完成),这一项目分析了超过1000人的基因组并将其数据库化。
非洲的样本有来自尼日利亚的伊巴丹市的约鲁巴人(非洲西部规模最大的民族之一)、来自肯尼亚的韦布耶市的卢希亚族(肯尼亚第二大民族,从非洲西部迁徙至东部)和马赛人(分布在肯尼亚南部到坦桑尼亚北部一带的本地居民)。
亚洲的样本有来自东京的日本人和来自北京的中国人。欧洲的样本有托斯卡纳大区的意大利人。美国的样本有南欧、北欧人后裔的犹他州美国人、休斯敦的古吉拉特系印度裔、丹佛的华人、洛杉矶的墨西哥裔美国人、西南地区的非裔美国人。这些人的基因组全都被数据库化了。(最终共有来自26个民族的2504人参加了项目。)
1000Ge比较了众多人种,精细地区分了基因组中的共通之处和个性化的部分,并加以分析。项目期望自身的研究成果能够应用在各个领域的研究中,从形态表达到基因与疾病的关系、医药品研发等。
1000Ge的研究成果发表在了2015年9月的《自然》杂志上,研究证实人类基因组31亿个碱基对中有高达2。93%的突变。人类的基因组突变比人们预想的更多,不同民族之间也存在着不同的和共通的突变,而在同一民族中,个体间的突变差异也很大。
不过,2000个左右的样本规模作为数据库来说还是太小了(虽然学术意义很大)。而更大规模基因组计划也将最主要的研究目的转向了个性化医疗和预防医疗。
世界各国也在开展以本国国民为对象的、更加大规模的基因组计划。例如英国就在2012年开始了名为“Genomid”(英国基因组学公司)的项目,规模达到50万人。美国也从2013年开始以100万名退伍军人为对象,开展了名为“Milliram”(百万老兵计划)的项目。英国的项目主要以病患为对象,主要目的是将研究成果应用于掌握病体情况、疾病治疗等病理学研究。美国的基因组计划的重点在于退伍军人。美国退伍军人事务部有着规模庞大的退伍军人的就医记录及健康管理信息,将基因组计划与这些数据对照起来,就能够形成细致入微的数据库。
在日本,也有东北医药超级库组织和日本生物样本库(BioBankJapan)等规模从几万到15万人不等的基因组计划。
我认为,各国分头建立起这样的数据库是很有效的。这是因为人种和民族之间,在核酸序列上存在着上文提及的差异。药物的效用也可能与这些差异息息相关。
数据库规模越大,就能够分析越微小的差异。但是如今的分析工作早已超越了人力所能及的规模。因此,生物信息学几乎在“人类基因组计划”出现的同时发展了起来。
生物信息学的发展也推动了计算机科学和信息工程的进步,今后,我们将有可能通过4个字母组成的数字化的核酸序列当中读取出有意义的信息。
基因组分析的成果之一,就是对医疗领域的贡献,想来各位读者对此也颇为期待。基因组分析对医疗的贡献主要分为检查和治疗两大类,我将分别在其他小节内进行说明。
被误会的线粒体夏娃
在本节的最后,我想向大家介绍一下基因组分析所取得的另一大成果——对考古学、人类学的贡献。
各位读者朋友听说过“线粒体夏娃”这个词吗?
这是距离现代人类最近的共同祖先,是一位非洲女性。据推算,她生活在距今12万年至20万年前。人们常常误以为当时非洲只有她一位女性,但事实并非如此。线粒体在受精时几乎不会从**进入卵子,所以基本上只有来自母亲一脉的线粒体能够遗传给子孙。
因此,只生下男性的女性一脉的线粒体就会断绝。而如果把能够留下自己的线粒体算作一件幸事的话,那么线粒体夏娃只不过是一位非常幸运的女性而已,除此以外并没有什么特别的含义。
线粒体是生产细胞内化学反应所需的高能化合物(腺苷三磷酸、ATP)的细胞器,类似于发电站。与细胞核内的染色体不同,线粒体拥有自己的染色体。
如上文所述,来自母亲的线粒体能够传给子孙后代,所以我们可以通过比较线粒体染色体的突变,来推断地区内母系祖先的迁移历史。我们可以将之理解为一种家族研究。群体内共通的基因模式叫作单倍型,拥有相似单倍型的群体叫作“单倍群”。
更加准确地说,单倍型的基因模式是由单核苷酸多态性决定的。例如说,假设竹内家的亲戚们都拥有共通的SNPs,那就可以称作是竹内家单倍群。不过实际上,这么小的规模并不能被称为单倍群,日本人,或者是世界各地区中的更大规模内的拥有相似单倍型的群体,才能被称为单倍群。
◆Y染色体的单倍群O的分布
Y染色的单倍群大致可以分为A到R。O在东亚最多,其中日本人被分类为O2b。
与线粒体一样,通过比较Y染色体的单倍群,就能够将研究集中于父系祖先身上。有趣的是,Y染色体单倍群与语言学上的“语系(拥有相同祖语的语言)”的分布大体一致。这可能是因为大多数语言都是采用父系命名的。
通过分析全世界的单倍群,能够追溯人类从上古至今在地球上的迁徙痕迹,并为已有的种种假说做印证。
[1]此处原文讹误为“22条常染色体”,实应为“22对常染色体”。
[2]也称“霰弹枪定序法”。
[3]日本政府建立的唯一的综合性大型研究所,地位相当于中国科学院。