分类: 基因组测序

 2018124日,华中农业大学作物遗传改良国家重点实验室张献龙课题组首次通过三代测序(PacBio+光学图谱(BioNano+Hi-C技术完成了异源四倍体陆地棉(Gossypium hirsutum)和海岛棉(Gossypium barbadense)基因组组装。该研究成果刊登于Nature Genetics,文中利用北京百迈客生物科技有限公司的三代PacBio测序组装及Hi-C染色体挂载技术,组装获得了高质量栽培种异源多倍体棉基因组。>>下载文献全文

英文题目:Reference genome sequences of two cultivated allotetraploid cottons Gossypium hirsutum and Gossypium barbadense
中文题目:三代异源四倍体陆地棉和海岛棉基因组破译;
发表杂志:Nature Genetics
影响因子:27.125
发表时间:2018.12.04
合作单位:华中农业大学作物遗传改良国家重点实验室;

摘要

异源四倍体陆地棉和海岛棉(Gossypium hirsutumGossypium barbadense)长期以来一直在世界范围内种植,由于其具有天然可再生纺织纤维。虽然以前利用二代测序技术组装的陆地棉和海岛棉基因组在棉花研究中应用较高,但是其基因组高度片段化且不完整。本研究中进行了异源四倍体基因组的升级,利用了三代测序组装技术(single-molecule real-time sequencing+光学图谱(BioNano optical mapping+Hi-C染色体挂载技术(high-throughput chromosome conformation capture techniques),实现了异源四倍体陆地棉G. hirsutum acc. Texas Marker-1 (TM-1) 和海岛棉G. barbadense acc. 3-79基因组的组装。与之前的二代基因组相比,三代陆地棉和海岛棉基因组具有高度连续性,高度重复区(如着丝粒)具有更高的完整性。比较基因组学分析确定了广泛的结构变异可能发生在多倍化后,在14条染色体臂内和臂间的倒位十分突出。研究中构建了渐渗系群体,以导入从海岛棉到陆地棉的有利染色体片段。从而使得研究人员可以识别与优质纤维质量相关的13个数量性状基因座。 这些资源将加速棉花的进化和功能基因组研究,并为未来的纤维改良育种计划提供新的信息。

研究背景

棉花是世界上*大的天然纺织纤维来源,每年纤维产量的90%以上来自异源四倍体棉花(G. hirsutumG. barbadense),它起源于大约1-2百万年前的异源多样化事件,随后是数千年的不对称亚基因组选择。陆地棉(G. hirsutum)由于其高产而在全世界种植。G. barbadense以其卓越的纤维质量而受赞誉。为了培育产生纤维更长,更细和更强韧的陆地棉(G. hirsutum)品种,一种合理有效的方法是将海岛棉(G. barbadense)的优良纤维性状引入陆地棉。基因组学启动的育种策略需要对基因组组织进行详细而有力的理解。

材料方法

材料:高度纯合陆地棉(Texas Marker-1TM-1) ;海岛棉(3-79);
基因组denovo策略:三代测序组装(PacBio RS IISMRT+光学图谱(BioNano optical mapping+Hi-C染色体挂载;
研究方法:基因组组装:Canu (version 1.3) BLASR (version 1.3.1) BWA (version 0.7.10-r789) Pilon (version 1.22) 光学图谱纠错:核酸内切酶Nt.BssSI23AutoDetectIrysSolveHi-C染色体挂载:核酸内切酶HindIIIBWAversion 0.7.10-r789),LACHESISHiC-Pro基因组完整性评估:BUSCO评估;TE注释:PASTEClassifier (version 1.0)RepeatMasker (version 4.0.6)基因预测和注释:GenscanAugustus (version 2.4)GlimmerHMM (version 3.0.4)GeneID (version 1.4)SNAP (version 2006-07-28)GeMoMa (version 1.3.1)假基因组预测:GenBlastA (version 1.0.4)GeneWise (version 2.4.1)
着丝粒区域鉴定:blastnSPSS software (version 17.0) 基因组共线性分析:MUMmer (version 3.23)GATK(version 3.1.1)Samtools(version 0.1.19) MCScanX package结构变异检测:MUMmer3 (version 3.23);二倍体棉重测序SNPs鉴定:Trimmomatic (version 0.32)BWA168CSSLs群体SNPs鉴定:染色体片段置换系(CSSLs)的构建(图1),测序深度(6X),插入片段:350 bpBWAGATKSamtoolsCSSLs群体QTLs定位与表达分析:QTL IciMapping (version 4.0) TopHat2 (version 2.0.13) Cufflinks (version 2.2.1)STRUCTURE (version 2.3) TASSEL software (version 5.0) 

棉花渐深系构建流程

研究结果

1.Gossypium hirsutumGossypium barbadense基因组测序组装
      三代基因组denovo本研究利用单分子荧光测序技术(PacBio RSII)对异源四倍体陆地棉G. hirsutum acc. TM-1和海岛棉G. barbadenseacc. 3-79进行基因组denovo测序研究。分别获得了194.01 GbGossypium hirsutum)和210.98 GbGossypium barbadense)数据(均80×左右覆盖度),陆地棉Contig L50 = 1.89 Mb,海岛棉Contig L50 = 2.15 Mb(表1);利用Illumina测序数据纠正PacBio测序中低质量的数据及插入/缺失(InDels);光学图谱辅助组装:通过使用来自相同种质的光学图谱(BioNano Genomics Irys)数据(88.9×Gossypium hirsutum155.7×Gossypium barbadense)处理这些抛光的重叠群用于杂交组装,最终陆地棉组装了3,434 scaffolds,海岛棉组装了3,919 scaffoldsscaffold L50分别为5.22 Mb6.89 MbHi-C染色体挂载:通过Hi-C进一步将scaffolds挂载到染色体水平,同时结合光学图谱进行组装序列的分类与排序。最终陆地棉组装了2,190 scaffolds,海岛棉获得了3,032 scaffolds26super-scaffolds,代表了四倍体棉所有染色体,挂载效率分别为 98.94%97.68%
      组装结果验证:将重新组装的陆地棉与海岛棉基因组与已发表的遗传图谱进行比对,结果显示,每条染色体都具有高度共线性(Gossypium hirsutum 98.86%Gossypium barbadense 96.92%);进一步通过36个已有的BAC文库及二代Illuminamate-pair文库的回比评估,并通过对陆地棉的BUSCO数据集中的1,440个高度保守的核心蛋白中的1,415个(98.2%)和对海岛棉的1,420个(98.6%)的鉴定,支持了基因区组装的完整性。与之前发表的二代基因组相比,基因组连续性显著提高(陆地棉高出55倍,海岛棉高出90倍),进一步实现了gap填充,基因组高杂合区的√确组装。本研究中陆地棉与海岛棉基因组的迭代更新为后续四倍体棉花的研究提供了新版参考基因组。

陆地棉和海岛棉基因组组装注释

2.Gossypium hirsutumGossypium barbadense基因预测与注释
      在本研究组装的三代陆地棉与海岛棉基因组中,分别预测了70,19971,297个基因,同时利用了三代(PacBio single-molecule long-read)转录组数据在陆地棉与海岛棉中分别注释了115,835109,778转录本可变剪切。在全基因组的范围内结合表观遗传修饰进行研究(图2),通过PacBio数据分析显示:在全基因组范围内,陆地棉6mA甲基化占所有腺嘌呤的0.21%,海岛棉占0.22%。有趣的是,6mA甲基化修饰在每条染色体上显示出几乎均匀的分布模式,不同于染色体臂中相对低水平的5-甲基胞嘧啶(5mC)修饰(图2)。
陆地棉和海岛棉染色体特征(含表观遗传标记)
      基因组高度连续性与完整性的组装使得高重复区的组装具有显著的改善。研究中成功地组装了每条染色体的着丝粒区域,通过分析着丝粒相关的长末端重复(LTR)反转录转座子对着丝粒区域进行了鉴定,基于之前的Illumina短读长序列,G. hirsutum中的大部分LTR是缺失的。然而,这些区域的确具有显着高含量的LTR反转录转座子序列。
3.Gossypium hirsutumGossypium barbadense全基因组变异分析
      SNPsInDels变异分析:通过两个棉花基因组之间的序列比较以确定陆地棉和海岛棉两种代表性种质之间的基因组差异。共鉴定了12,816,698SNPs,平均每kilobase5.89SNPsA亚基因组(At)的SNP频率为8,131,2765.95 / Kb),略大于D-亚基因组(Dt)中的SNP频率4,685,422。染色体中SNP的分布与比较群体基因组研究中的发现相似,包括染色体A01中基因组变异的显着减少(图3)。研究中同时鉴定了2,682,689个小插入/缺失(InDels),平均每Kb1.2个。预测这些SNPsInDels对陆地棉的总共14,076个基因和海岛棉的14,880个基因具有很大的功能影响,进一步利用了两个基因组间的这些变异数据,鉴定了4,039基因受到了正向选择(Ka/Ks >1),这些基因在几种生物途径中过量表达,包括Ras / ARF蛋白信号转导途径。值得注意的是,观察到在陆地棉G. hirsutum 基因组草图序列中的缺失区域中发现了6.5%的SNPs7.2%的InDels,代表了四倍体棉的先前未检测到的遗传变异。
      染色体结构变异分析:高质量的参考基因组使得研究人员能够通过对两种种质的直接比较基因组分析来鉴定大的结构变异。发现有170.2 Mb的基因组序列被鉴定为G. hirsutumG. barbadense之间的反转,包括120.4 MbAt亚基因组和49.8 MbDt。有趣的是,在异染色质中,第四条和第十一条染色体中显示出了染色体臂内倒位。研究中在A06染色体中发现了4个大的倒位变异,包括3个染色体臂内倒位(in1, in3 and in4)和1个染色体臂间倒位(in2),通过Hi-C数据在断点周围离散的染色质相互作用(图3),突出了Hi-C技术识别大规模染色体重排的优势。光学图(BioNano optical maps)谱数据进一步支持了这些反转断裂位点(图3)。此外,发现在D12染色体上,存在1个大的染色体臂间倒位。在棉花中这些染色体臂间/染色体臂内的大量变异需要进一步探索其生物学功能,如在拟南芥,小麦和人中所述。研究人员同时还检测到3,820个染色体易位(1,074个染色体内易位,占据3.8 Mb2,746个染色体间易位,占6.8 Mb)。
陆地棉和海岛棉A06染色体倒位鉴定(左:Hi-C互作热图;右:光学图谱鉴定)
      PAVs分析: 通过陆地棉(Gossypium hirsutum)和海岛棉(Gossypium barbadense)基因组比较分析发现presence/absence变异 (PAVs)。研究人员在陆地棉中鉴定了9,135个片段,其总长度为179.9 Mb,在海岛棉中不存在,而在海岛棉中的7,710个区段,总长度为139.8 Mb,在陆地棉中不存在(图4),同时发现陆地棉中的1,844个基因和海岛棉中的1,614个基因位于这些PAV区域,在这些基因中,有220个基因在海岛棉纤维发育过程中高度特异性表达。此外还发现在海岛棉EXPANSIN基因的第3个外显子中有450 bp片段的缺失,这导致多糖结合结构域的丧失。有意思的是,截短的蛋白正与海岛棉中优良纤维质量的形成相关。
陆地棉和海岛棉基因组中的PAVs变异分析
4.Gossypium hirsutumGossypium barbadense多倍化过程中发生的变异

四倍体陆地棉和海岛棉基因组的组装使得研究人员能够进一步探索四倍体棉亚基因组和其二倍体祖先之间的基因组差异。首先通过对具有D型基因组的13份二倍体材料进行重测序分析,分析显示在两种四倍体棉D-亚基因组具有相同的二倍体祖先种雷蒙德氏棉G. raimondiiD5 genomeD亚基因组供体);进而利用二倍体雷蒙德氏棉G. raimondii直接进行基因组比较分析,发现四倍体陆地棉和海岛棉与雷蒙德氏棉相比,都有一些独特的结构变异,如在海岛棉染色体D05和陆地棉D12中均存在大的染色体臂间倒位,暗示这些变异出现在多倍化之后(图5)。研究人员还观察到两个四倍体相对于G. raimondii共有一些结构变异,例如染色体D09中两个四倍体发生了大的反转(图5)。研究中同时运用了二倍体祖先种亚洲棉G. arboreumA2 genomeA亚基因组供体)的Hi-C数据,与陆地棉和海岛棉A亚基因组进行比对,检测棉由二倍体到四倍体多倍化过程中发生的结构变异,Hi-C具体矩阵图显示在13条染色体中发生了大规模的染色体重排,其中发部分变异为两个四倍体的棉的A亚基因组共有。研究中发现染色体A06中*大的染色体臂间倒位(in2)在陆地棉中是特有的(图左),表明这种结构变异可能在染色体多倍化后发生。因此得出结论,二倍体棉花中的A基因组在异源多倍化后被重组,导致不同四倍体(陆地棉和海岛棉)中发生了大染色体倒位。

图5 陆地棉和海岛棉D亚基因组与雷蒙德氏棉(DD型)基因组共线性分析
5.Gossypium hirsutum渐渗系构建及QTLs定位

通过研究发现了在陆地棉(G. hirsutum acc. TM-1)和海岛棉(G. barbadense acc. 3-79)间存在广泛的遗传变异,进一步推测这些变异的一部分可能是造成表型差异的原因,包括纤维性状。为了利用这些变异进行定向育种,研究人员构建了一个渐渗系群体,旨在引入有利的变异,控制从G.barbadenseG. hirsutum等重要农艺性状的形成,如纤维质量。研究人员通过分子标记对168份渐渗系材料进行测序,并鉴定了涵盖所有26条染色体的466个基因渗入片段(图6)。研究人员发现了在染色体D12中含有渐渗片段的渐渗系,其具有有限的绒毛纤维,类似于其供体亲本G.barbadense 3-79(图6,图7上),基因渗入片段的位置与无绒天然突变体G. hirsutum Xuzhou142fl的图谱测序所示的位置相同,然而其遗传基础以前未被充分了解(图7下)。这些结果表明,陆地棉(G. hirsutum)中无绒毛突变体的遗传变异与海岛棉(G. barbadense)中的数量性状基因座(QTL)共定位。该渐渗片段与天然纤维突变体的特征将有助于比较分析海岛棉和陆地棉之间的绒毛纤维起始机制。

棉花群体渐渗系构建           渐渗系N29纤维特征(上);海岛棉Xuzhou142fl测序比对结果(下)

为了鉴定海岛棉(G. barbadense)中优质纤维质量的有益等位基因,研究人员对渐渗群体中的纤维品质相关性状进行了QTL分析。研究中共计鉴定了5个性状的13QTLs位点,其中控制纤维长度位点2个,控制纤维强度位点4个,马克隆值位点2个,纤维伸长率位点2个,纤维均匀度位点3个(图8 a-c)。在这些QTLs位点中,9个位点之前未被鉴定出,通过检验13QTLs中的基因表达水平,研究人员检测到了235个在纤维发育过程中高度表达的基因,同时还整合了基因组变异数据来预测候选基因,而这些基因值得进一步进行精细定位以确认对这些性状具有重要影响的基因。研究人员发现A02染色体上的1QTL位点与纤维长度相关,在这个QTL中,一个未鉴定过的基因(Ghir_A02G003440),编码预测的糖基磷脂酰肌醇锚定的脂质转移蛋白,该基因在纤维伸长期的表达水平和深入系中纤维长度呈负相关,并可能与海岛棉中长纤维的发育相关。这些QTL数据为海岛棉基因组片段的详细功能分析提供了框架,并应通过基因渗入育种进一步开发具有优质性状的栽培棉花。

  为了深入研究这些基因可能的转录调控机制,研究人员对这168个渐渗系在开花后10天(DPA)对纤维的转录组进行了测序,在235个基因中,鉴定了125QTLs位点(eQTL上)。发现在染色体A02(如上所述)上的QTL位点与D09号染色体上的2个基因的表达相关(Ghir_D09G014120和 Ghir_D09G014460) ,这2个基因分别编码泛素延伸蛋白和微管相关蛋白,且预测这2个基因可能作为纤维强度的候选基因。通过eQTLs研究表明这些基因的表达可能与某些长距离的或染色体间的基因座位相关。

总结

通过陆地棉(Gossypium hirsutum)和海岛棉(Gossypium barbadense)两种栽培棉种质基因组的重新组装,研究人员鉴定了大量的变异,这些变异应与其它种质的基因组分析相结合,以充分挖掘两种种质基因组间的差异。研究人员通过构建渗入系,在两种代表性种质间探索研究了具有潜在优质纤维质量性状的基因组序列信息,而这在棉花育种中,可用于理想性状的培育;这些资源将极大的促进棉花功能基因组学与进化基因组学的研究,并将为棉花纤维质量的改良提供信息。
回顾整个2018年,百迈客NG文章收获满满,于20185月与中国农业科学院棉花研究所杜雄明研究员合作成功完成了亚洲棉基因组的升级,又在201810月与福建农林大学基因组研究中心明瑞光课题组合作,完成了同源多倍体甘蔗基因组密码的破译。同时,于2018年巨资投入,引进三代测序Nanopore单分子纳米孔测序仪,成为了国内动植物基因组denovo研究第一家。
想获取更多关于棉花研究案例,请点击下方按钮,我们将免费为您设计文章方案!
另外,还可以获赠100元在线培训课程代金券!

 

 

 

最近文章