世界科学 2021-07-20
如果说你来自一堆垃圾, 请不必为此烦恼, 因为人皆如此。现在, 遗传学家正逐步认识到在你基因组中的这些 “垃圾DNA” 的重要价值。
2003年,人类基因组计划落下帷幕,人类在历经13年的不断努力后获得自身的完整基因组草图,却又在其中发现,约98.8%的基因组是“垃圾DNA”,剩下1.2%才是人类生存繁衍需要的蛋白质编码序列。从组成序列的碱基来说,每个人类个体中有大约64亿个亚单位——称为核苷酸——一些在我们的每个细胞中组成了DNA,更多的好像束之高阁的箱子,看似毫无作为,却占据了大量空间。
图1人类基因组项目持续13年,目标是获取人类基因组中的全部遗传序列。该项目的一个特别有意思的发现是蛋白质编码基因(约22300个)仅占人类基因组的1人类基因组项目持续13年,目标是获取人类基因组中的全部遗传序列。该项目的一个特别有意思的发现是蛋白质编码基因(约22300个)仅占人类基因组的1.2%,剩下的98.8%全是非编码的无功能“垃圾DNA”。跨物种的“垃圾DNA”分析正在揭示它们在产生基因过程中所扮演的角色
研究人员普遍认为这一类人类遗传序列是随机产生的无功能序列。事实上,我们也并不孤单。某种程度上,每一个起源于27亿年前的单细胞共同祖先的真核生物都是“垃圾收藏家”。以哺乳动物为例,“垃圾”序列约占基因组的85%到99%。遗传和演化生物学家大野乾在复制基因演化领域的研究享有盛誉,他曾经写到,随机的非编码序列没有可能自发地演化出有功能的蛋白质编码序列。但是,这种经典的阐释留给后人一个巨大的谜团:“垃圾DNA”存在的意义是什么?
是束之高阁的箱子,还是有待解锁的藏宝箱?这是一个从遍地沙砾中发掘丰富宝藏的故事。我们在一项大规模的国际科研合作项目中取得了革命性进展,即在全球最为广泛分布的作物之一——水稻中发现了许多从头起源新基因。
短短几个百万年内,新基因在杂乱无章的非编码序列中产生,如同随机字母凑到一起产生了新的单词(图3)。短短几个百万年内,新基因在杂乱无章的非编码序列中产生,如同随机字母凑到一起产生了新的单词。
图3一个演化树展示了从头起源新基因的产生。随机产生的突变在基因组中到处累积,也包括那些不编码蛋白质的区域。虽然通常这类突变并不会对非编码区域造成影响,但有时它们会催生一些具有蛋白编码能力的从头起源的新基因。对于相关物种间的非编码遗传序列进行演化分析,可发现新基因随着时间推移而出现一个演化树展示了从头起源新基因的产生。随机产生的突变在基因组中到处累积,也包括那些不编码蛋白质的区域。虽然通常这类突变并不会对非编码区域造成影响,但有时它们会催生一些具有蛋白编码能力的从头起源的新基因。对于相关物种间的非编码遗传序列进行演化分析,可发现新基因随着时间推移而出现
就像我们所发现的,一部分从头起源新基因是栽培稻独有的,而在它的野生祖先中则完全没有。这些研究中发现的基因,不太可能是野生稻多次独立基因丢失事件的结果,更有可能在栽培稻起源过程中发挥了重要作用,并因此养活了全球相当大一部分人口。
事实如我们所料,这个岛屿的热带气候和频繁的飓风创造了适合水稻生长的理想环境,这也是我们的研究所必需的。
水稻是演化生物学研究的理想物种,这得益于其一方面可以大批量种植,另一方面生长周期比哺乳动物要短很多。此外,我们还想要在经历驯化的物种中寻找从头起源新基因。可供食用的栽培稻是多年人工选择的结果。早在13000年前,人类就开始选育其优良品系,并造就了农耕社会。这段历史意味着栽培稻与野生稻的实际分化时间并不算长,但是人工选择加速了栽培稻的遗传变异积累。同时,栽培稻的野生祖先也在自然界繁衍并历经数千载,在这个过程中积累了大量的遗传变异。最后的结果是,栽培稻在驯化过程中产生了独有的新基因。其中,雄蕊是我们重点研究的样本之一,因为相对于老基因,新近产生的基因倾向于在雄性生殖器官富集表达。水稻是演化生物学研究的理想物种,这得益于其一方面可以大批量种植,另一方面生长周期比哺乳动物要短很多。此外,我们还想要在经历驯化的物种中寻找从头起源新基因。可供食用的栽培稻是多年人工选择的结果。 早在13000年前,人类就开始选育其优良品系,并造就了农耕社会。这段历史意味着栽培稻与野生稻的实际分化时间并不算长,但是人工选择加速了栽培稻的遗传变异积累。同时,栽培稻的野生祖先也在自然界繁衍并历经数千载,在这个过程中积累了大量的遗传变异。最后的结果是,栽培稻在驯化过程中产生了独有的新基因。其中,雄蕊是我们重点研究的样本之一,因为相对于老基因,新近产生的基因倾向于在雄性生殖器官富集表达。
遗传学家张力,与笔者在芝加哥大学共同工作。他用了近两年的时间对10个水稻近缘物种和假稻属外类群基因组序列进行计算分析,在2014年首先观察到水稻基因组的“垃圾”序列中衍生了大量新基因。张力所采用的高质量的基因组和基因注释是该分析得以开展的根本,而这完全得益于亚利桑那大学基因组科学家若德·翁(RodWong)领导的国际水稻基因组演化项目。在这么短的演化历程中水稻产生了大量从头起源新基因(图4),这着实出乎意料,因为在这个时间尺度下,无论是人类,还是小鼠或者果蝇的“垃圾”序列似乎都陷入了休眠。遗传学家张力,与笔者在芝加哥大学共同工作。他用了近两年的时间对10个水稻近缘物种和假稻属外类群基因组序列进行计算分析,在2014年首先观察到水稻基因组的“垃圾”序列中衍生了大量新基因。张力所采用的高质量的基因组和基因注释是该分析得以开展的根本,而这完全得益于亚利桑那大学基因组科学家若德·翁(RodWong)领导的国际水稻基因组演化项目。在这么短的演化历程中水稻产生了大量从头起源新基因,这着实出乎意料,因为在这个时间尺度下,无论是人类,还是小鼠或者果蝇的“垃圾”序列似乎都陷入了休眠。
图4通过水稻及其近缘物种的比较基因组学分析可以追溯从头起源新基因在稻属中的起源事件。实验用的水稻亚种粳稻(上)和相关物种都种植于中国海南。系统发生树(下)展示了从头起源新基因在栽培稻不同的祖先阶段随时间推移(右轴是物种分歧时间,以百万年计)而产生的数目(左轴是从头起源新基因的数目)通过水稻及其近缘物种的比较基因组学分析可以追溯从头起源新基因在稻属中的起源事件。实验用的水稻亚种粳稻(上)和相关物种都种植于中国海南。系统发生树(下)展示了从头起源新基因在栽培稻不同的祖先阶段随时间推移(右轴是物种分歧时间,以百万年计)而产生的数目(左轴是从头起源新基因的数目)
无论如何,我们需要种植水稻,获得足够多的样本和数据来进一步探索这个有趣的发现。
2012年,我们开始研究水稻基因组的从头起源新基因,我们知道这对整个领域意义重大。粳稻是全球最重要的主粮之一。未来可能的气候变化和粮食短缺凸显了水稻演化研究的重要价值。但是,我们并不知道关于水稻基因演化的最终发现会大大超出预期。
图5从头起源新基因的表达量通常较低并且局限在少数组织,即它们的功能很可能在演化过程中进行微调。文氏图展示了从头起源新基因的蛋白产物在植物不同组织的分布。许多从头起源新基因在花粉囊特异性高表达,而花粉囊中含有花药,代表了开花植物的雄性生殖器官从头起源新基因的表达量通常较低并且局限在少数组织,即它们的功能很可能在演化过程中进行微调。文氏图展示了从头起源新基因的蛋白产物在植物不同组织的分布。许多从头起源新基因在花粉囊特异性高表达,而花粉囊中含有花药,代表了开花植物的雄性生殖器官
图6与老基因相比(起源时间早于1500万年前),从头起源新基因(起源时间最早不超过300万年)长度较短(左),编码的蛋白质也较短(中)。这些基因的表达量较低,其中仅有少数在每单位的全部转录本中转录出10条信使RNA(右)。总而言之,这些因素定义了从头起源新基因的一个逐步的构架演化过程,在此过程中扩增编码长度、复杂度、表达量与老基因相比(起源时间早于1500万年前),从头起源新基因(起源时间最早不超过300万年)长度较短(左),编码的蛋白质也较短(中)。这些基因的表达量较低,其中仅有少数在每单位的全部转录本中转录出10条信使RNA(右)。总而言之,这些因素定义了从头起源新基因的一个逐步的构架演化过程,在此过程中扩增编码长度、复杂度、表达量
观念的改变
EfrainRivera-Serrano
图7从头起源新基因从祖先非编码序列中起源遵循三种路径。第一条路径,非编码序列中的突变创造了完整开放阅读框,然后开放阅读框获得转录和翻译能力。有趣的是,绝大多数基因遵循第二条路径,非编码序列首先获得转录能力再演化出完整开放阅读框的编码能力。只有很少的基因能够同时获得转录能力和编码能力从头起源新基因从祖先非编码序列中起源遵循三种路径。第一条路径,非编码序列中的突变创造了完整开放阅读框,然后开放阅读框获得转录和翻译能力。有趣的是,绝大多数基因遵循第二条路径,非编码序列首先获得转录能力再演化出完整开放阅读框的编码能力。只有很少的基因能够同时获得转录能力和编码能力
某种程度上,当目标序列还没有完整的开放阅读框时,转录系统已经开始消耗能量产生非编码转录本,看起来更像是系统故障。更奇怪的是,非编码转录本在被转录之后如何能形成完整开放阅读框?
StephaineFreese
图8在绝大多数从头起源新基因的诞生过程中,一部分基因组中“垃圾DNA”持续转录出非编码“垃圾RNA”。随着时间推移,突变在这些无意义的序列中产生,使其在持续被转录的过程中获得较短的开放阅读框,这个新产生的开放阅读框随之被包括进了产生的信使RNA。当更多的突变积累,形成更加完整的开放阅读框时,即产生了功能性编码蛋白质的信使RNA在绝大多数从头起源新基因的诞生过程中,一部分基因组中“垃圾DNA”持续转录出非编码“垃圾RNA”。随着时间推移,突变在这些无意义的序列中产生,使其在持续被转录的过程中获得较短的开放阅读框,这个新产生的开放阅读框随之被包括进了产生的信使RNA。当更多的突变积累,形成更加完整的开放阅读框时,即产生了功能性编码蛋白质的信使RNA
宝藏