加拿大28
滕年军团队联合国内10多家科研团队发布迄今世界最大植物基因组—兰州百合基因组(36.68 Gb)
2024年10月24日,南京农业大学加拿大28
滕年军教授团队、薛佳宇副教授团队,华中农业大学园艺林学学院宁国贵教授团队与福建农林大学明瑞光教授团队等国内10多家科研团队联合公布了百合高质量染色体级别基因组,成为世界上首个正式报道的最大植物基因组。加拿大28相关的文章“The evolutionary tale of lilies: Giant genomes derived from transposon insertions and polyploidization”发表在《The Innovation》期刊。
基因组存储了一个物种的完整遗传信息,是理解其生物学特性和进化历程的关键。自然界中,不同生物的基因组揭示了生命之树上基因组大小的巨大差异,其中一些植物拥有超大的基因组。然而,这些超大基因组的起源和形成机制却不尽相同。
百合(Lilium L.)是单子叶百合目百合科多年生植物,因其极高的观赏、食用与药用价值而备受关注。本研究利用Nanopore、Illumina和Hi-C测序技术,以及优化的组装方法,获得了36.68 Gb的兰州百合(Lilium davidii var. unicolor)超大型基因组,并解析了其形成机制和特征,也揭示了鳞茎营养物质积累的遗传基础。这一成果标志着百合的分子研究进入新时代,也是植物基因组学的重要突破性研究进展之一。论文的主要研究内容具体如下:
1. 超大基因组的染色体水平组装
流式细胞实验和K-mer分析预估兰州百合基因组的预估大小分别为38.01 Gb和37.62 Gb,杂合率为2.18%。细胞核型分析显示其为二倍体,具有12对巨型染色体。结合Nanopore、Illumina和Hi-C数据,成功组装得到36.68 Gb的基因组,Scaffold N50为2.86 Gb,96.99%的序列被挂载到12条染色体上(图1A)。注释87,501个蛋白编码基因,其中功能注释比率为89.54%。评估结果显示兰州百合的基因组的高完整性、准确性和连续性。
2. 超大型基因组的形成原因
基因组大小的主要影响因素包括重复序列的积累和基因组多倍化。兰州百合基因组中,重复序列占比高达88.31%,其中长末端重复反转录转座子(LTR-RTs)占64.40%。分析显示,兰州百合的LTR-RT在近五百万年以来发生急剧扩张,其中Copia类的扩张约一百六十五万年前达到高峰,Gypsy类的扩张则在约八十九万年前爆发;在更细分的亚类型层面,Athila、Retand、Tekay和Tork等亚类获得了特异性的快速扩张(图1C),这些亚类对异染色质区域有偏好,抑制重组,降低LTR-RT去除率,从而造成短时间内LTR-RT的海量插入且无法去除,形成了兰州百合超大的巨型基因组(图1B)。
全基因组复制也是基因组扩张的潜在原因。Ks分布图显示百合经历了两轮全基因组复制事件,与金钱蒲、芦笋等植物的共线性分析支持了这一结论(图1D)。基于核基因的系统发育分析,将百合置于天门冬目的姊妹群,两者分化于七千二百万年前(图1E)。基于此系统框架,尽管近缘的洋葱和大蒜都额外多经历了两轮全基因组复制,它们的基因组却不到兰州百合的一半大,表明百合在进化过程中展现出与它们不同的模式。
3. 超长基因的形成及其表达规律
兰州百合基因组中的长基因非常常见,其平均长度为57.61 Kb,而长度超过50 Kb的基因(定义为“超长基因”)占33.88%。然而兰州百合基因编码序列的平均长度仅为847.17 bp,提示我们其长内含子才是形成超长基因的主要原因。对基因表达模式的分析发现,基因长度与表达水平显著相关,但表现出变化的趋势:短于50 Kb的基因表达水平随基因长度变长而持续上升,而长于50 Kb的基因则表达持续下降(图1F)。我们推测50 Kb可能是限制基因转录或内含子剪接效率的转折点,这种表达变化尚未在其他物种中见到,可能为百合独有的特征。
4. 鳞茎发育的碳水化合物代谢
鳞茎是百合的重要营养储存器官,东亚地区被广泛用作药物和食品。为阐明其发育过程中的营养积累及机制,我们对不同发育阶段的鳞茎样本进行了多组学分析。结果显示,淀粉和蔗糖在发育过程中不断积累(图1G),转录组分析发现糖酵解代谢途径中的基因高表达,且具有器官特异性。此外,检测到870种代谢物,表明代谢产物多样性。代谢组与转录组的相关性分析显示碳水化合物代谢物与特定基因表达模块显著关联(图1H)。
图 1 百合基因组和多组学分析