Hi-C辅助基因组组装

产品介绍

Hi-C技术是将染色质构象捕获与高通量测序结合的一种新技术。 该技术将线性距离远、 空间结构近的DNA片段进行交联富集后Pair-end测序, 通过对测序数据分析即可揭示染色质的各DNA各区段的交互作用,从而推导出基因组的三维空间结构和基因之间可能的调控关系。

23
染色体分级示例图 (Ezgi Süheyla et al., Nature Plants 2018)

不借助遗传图将基因组挂载到染色体水平。每一个基因组都需要一个Hi-C

HI-C特点

90%挂载到染色体
不需要借助群体数据
相对遗传图既省时又省力
智能的自动排图算法

Hi-C技术原理

 

Hi-C建库测序实验采用Hi-C的类型是in situ Hi‐C,主要包括细胞交联、内切酶酶切、末端修复、环化、DNA纯化及捕获和二代上机测序等步骤。

Hi-C技术应用方向

Hi-C辅助基因组组装

Hi-C染色质结构变异检测

Hi-C染色质互作研究

66

 

 

Hi-C辅助陆地棉与海岛棉基因组染色体水平组装

Wang et al.,Nature Genetics 2018)

 

 

Hi-C辅助陆地棉染色体结构变异检测

(Yang Z et al.,Nature Communications 2019)

77
88

 

 

 

Hi-C辅助TAD结构研究

Wang et al., Nature Commuications 2018)

Hi-C辅助基因组组装优势

 

1、Hi-C无需群体,单一个体就能实现染色体定位

很多物种都无法构建遗传群体,包括大部分高等动物、野生动植物、林木、果树等等。Hi-C是通过染色体上空间距离、线性距离的不同而导致的交互频率的不同来完成染色体的定位,所以不需要构建群体。

2、标记密度更大,序列定位更完整

相比遗传图谱,染色质之间的交互频率具有更高的标记密度,如此高密度的图谱不仅可以挂载上长的Scaffold,较短的Scaffold也可以被定位,所以通过Hi-C技术,一般可以将90%以上基因组序列定位到染色体。

3、可以对已组装的基因组进行纠错

通过Scaffold间的交互频率大小,可以对已组装的基因组序列进行纠错。

分析内容

1 .数据统计和过滤;

2 .Hi-C文库评估;

3.Hi-C染色体定位;

    ✓ 组装序列染色体群组划分;

   ✓  组装序列各群组内排序;

   ✓  组装序列各群组内定向;

4. Hi-C定位后统计评估;

    ✓  近缘物种参考基因组评估;

    ✓  遗传标记评估;

hic-zhanghl0721

百迈客HiC技术优势

完成近300个物种,近千个文库构建;
针对物种推出定制化内切酶服务;文库含酶切位点有效数据比例高达93%以上,平均比例高达68%;
实现多倍体物种的Hi-C辅助基因组组装,挂载效率最高可达近100%;
独创可视化调图软件:软件实现block移动、block取反、撤销和重做,实现用户管理功能。

服务流程

  • 样品寄送

  • 建库测序

  • 数据分析

  • 出具报告

  • 售后答疑

送样要求

环境样品 送样要求(浓度≥20ng/ul,总量≥3ug ) 保存及运输
单细胞真菌 显微镜下观察酵母菌生长状态,尽量收集生长期处于对数期的酵母菌;将适量体积的酵母菌液转移至将2mL旋盖尖底离心管中(无菌,无核酸酶),于室温下14000×g 离心1min;弃尽培养基,将酵母细胞沉淀迅速置于液氮中冷冻3h以上,然后转移至-80 °C长期保存 样本-80 °C或液氮中长期保存,干冰运输
大型真菌 从菌体上,取下生长旺盛的组织,用无菌水冲洗干净,再使用 75%乙醇冲洗,用吸水纸吸干样品表面;如果组织体积较大,应尽量将组织剪切成长宽高均≤0.5cm 的小块;将处理好的组织样本保存于2ml 或更大体积的旋盖冻存管中或者用准备好的锡箔纸包裹组织

50+项目分析人员

30X更高深度覆盖

60+的项目分析案例

优化的交互式报告

11年+项目分析经验

专业而热情的售后服务

三个分布式集群服务器

闪电般的分析速度

案例一

三代+光学+HIC拯救复杂基因组—-大麦基因组Nature篇。新鲜出炉的消息,新版大麦基因组又发nature啦!大麦基因组到底经历了怎样的困局?到底是什么解救了大麦基因组?后续大麦基因组还会发Nature吗?重复序列比例过高如何解决?新技术的到来更新基因组的必要性到底如何?

大麦基因组的困局:

大麦作为重要的经济作物,其在农业上的重要性毋需本编过多描述。大麦基因组破解工作本处于第一梯队,为何初版基因组在2012年才发布呢?原因就是大麦基因组的属于高重复的复杂基因组,通过当前技术是无法很好解决的。虽然只有7条染色体,但是基因组的重复序列比例高达84%,同时基因组大小在5.1 Gb,相比于人,水稻等简单基因组,技术上存在很大的难度。和人类基因计划一样,通过集齐全世界科学家的努力,构建了大量的BAC文库,得到了物理图,同时基于遗传图谱,得到了初版基因组。虽然通过综合各种技术,得到的了基因组序列在4Gb 左右,但其可靠性,准确性难以保障。就拿二代数据来说,当时只组装出了1.9 Gb contig的序列,指标更是无从说起。虽然全世界科学家的努力不可否认也不容质疑,但现在看来,初版大麦基因组给人的感觉只能是有胜于无!

到底是什么解救了大麦基因组?废话不多说,看看人家的组装结果(表1)。

文章中使用的技术手段包括BAC+Illumina+BioNano+HiC+Genetic Map,得到了4.79 Gb基因组序列,最终利用HIC和遗传图分别将95%和97%的序列挂到了染色体的水平。相比于初版基因组,组装水平高了不只是一大截啊,这就是技术上的胜利!话说,基于此版基因组,预测出的基因编码区至占到了整个基因组的1.4%,而转座原件(重复序列的一个大类)却占到了整个基因组的80.8%。所以说,大麦基因组的难度的确大啊!请看文章中描述的组装技术路线:

  • 构建87085个BAC,利用Hiseq 进行PE及MP文库测序得到4.5 Tb二代数据,之后将每个BAC的测序数据分别进行组装;
  • 通过物理图谱将BAC间的关系确定;
  • 利用遗传图+光学图谱,通过组装好的BAC序列构建Superscaffold;
  • 利用群体遗传图(POPSEQ)进行Superscaffold分组(97%分组);
  • 利用HiC进行Superscafold排序及定向(95%挂载);
  • 基因组评估+基因预测+后续分析。

文章中做了哪些分析?

1、染色体间外大小臂之间的交互

通过HIC热图作者发现无论是染色体内部还是染色体间的长短臂之间都存在较强的交互信号。按照HIC的原理来说,染色体上空间作用越强则实际DNA间的物理距离越近,染色体大小臂及不同染色体间的相互作用应该是极弱的。为了找出原因,作者通过对大麦叶核间期的细胞进行着丝粒及端粒荧光杂交,发现所有染色体的端粒和着丝粒在空间上的位置都纯在极性,且排列方式也极其相似,不同染色体间的大小臂其实在空间上距离很近,因此确实存在染色体内外大小臂之间大量的交互作用的可能。


2、染色体上重复序列及基因密度

利用染色体位置信息,通过对20-mer频率将染色体进行划分成了三种区域,每种区域上在基因密度,重组率,LTR插入时间以及GC含量上都存在一定的规律。

3、基因家族分析

通过对大麦基因组进行基因家族收缩扩张分析发现,收缩扩张的家族中*显著的部分都与植物防御及抗病相关。另外,作者对麦芽品质相关的amy家族及糖代谢相关的SWEET家族进行了亚家族分类,多倍化及表达模式相关的分析。

4、遗传多样性及单体型分析

基因组在分子遗传育种中具有极其重要的作用,本文中作者对来自欧洲的冬季及春季小麦两个群体进行了遗传多样性及单体型相关分析。最终发现,这两个群体在不同的染色体位置上的多样性程度及连锁强度都存在不同特点。如果没有一个好的基因组,很难全面了解群体间的变异情况,会给功能育种上带来困难。


大麦基因组还能发Nature吗?重复序列比例过高如何解决?

虽然此版基因组已经发表,但是本编觉得就目前的技术而言,大麦基因组还是有很大的提升空间。有咩有发现,此版大麦基因组没有使用当前主流基因组所使用的三代测序技术?虽然此版本基因组相较于第一版基因组提升较大,但是基因组装的过于零碎仍旧是事实。毕竟此版基因组的contigN50才79Kb,而super scaffold N50也才1.9Mb。一旦过于零碎,肯定会导致许多基因无法被预测出,这将对后续基因组的功能解读及研究增加困难。目前,三代测序技术在基因组完整性上能够有很好的发挥,同时在基因组结构变异上也能够有所保障。针对大麦基因组,已经有了如此多的数据,本编认为,如果后续如果再加入纯三代测序数据,contigN50达到Mb级别是极其轻松的!

参考文献:A chromosome conformation capture ordered sequence of the barley genome


案例二

Chromosome-scale assembly of the Sparassis latifolia genome obtained using long-read and Hi-C sequnencing

发表时间:2021

合作单位:福建农业科学院

发表期刊:G3(Genes|Genomes|Genetics)

研究背景:随着工业化和城市化进程的推进,多环芳烃类污染物在水体沉积物中频繁检出,给水生态安全和人类健康造成极大威胁。本研究通过结合梯度稀释培养法、传统的分离培养技术以及宏基因组这这下学分析等多种方法手段,深入解析了黑臭河流沉积物中硫酸盐呼吸耦合多环芳烃降解的核心功能微生物组。

测序策略:三代测序(ONT)+Hi-C

研究结论:通过ONT和高通量染色体构象捕获 (Hi-C) 技术得到了S. latifolia SP-C菌株基因组完成图。本次总共产生8.24 Gb的ONT数据,S. latifolia的测序覆盖率为198.08X,通过组装得到了41.41 Mb的高质量基因组,scaffold和contig N50 的大小分别为3.31和1.51Mb。通过Hi-C辅助组装技术进一步组装成12条染色体的基因组,这些染色体包含93.56%的碱基,基因组的17.47%由重复序列组成。此外,预测了13103个蛋白质编码基因,其中98.72%的基因获得了功能注释,BUSCO评估完整度为92.07%。在S. latifolia基因组中还鉴定出126个tRNA、75个rRNA和36个其他非编码RNA,利用OrthoMCL对S. latifolia单拷贝和多拷贝进行分类,发现S. latifolia SPC与S.crispa SCP的共同基因多于S. latifolia CCMJ1100,系统发育显示,S. latifolia SPC与S.crispa SCP有更紧密的亲缘关系,MCScanX共线性分析证实了上述结果。

 

参考文献:Yang C, Ma L, Xiao D, et al. Chromosome-scale assembly of the Sparassis latifolia genome obtained using long-read and Hi-C sequencing[J]. G3, 2021

12312

成功案例

什么是Hi-C技术?

Hi-C技术是染色质构象捕获技术( Chromosome conformation capture )与高通量测序( High-throughput sequencing )结合衍生的一种技术。主要是利用全基因组范围内整个染色质DNA在空间位置上的关系,对染色质内全部DNA相互作用模式进行捕获,结合生物信息学方法,来获得染色体水平的基因组序列并得到染色质三维结构信息。此外还可以并与Chip-seq、转录组数据联合分析,从基因调控网络和表观遗传网络来阐述生物体性状形成的相关机制。

Hi-C在辅助基因组组装时有什么作用?
  1. Hi-C最主要的作用是将零散的基因组序列锚定到染色体上(这一点类似遗传图谱);
  2. 还可以对组装的基因组进行纠错处理;
  3. 在某种程度上进一步提升Contig N50.
Hi-C技术与遗传图谱的差异?
  1. Hi-C应用单个个体就可以完成染色体构建;
  2. Hi-C挂载染色体效率高达90%以上;
  3. 但Hi-C技术不能进行QTL定位。
Hi-C技术的样品要求?
  1. 植物样品要选择活体幼苗;
  2. 动物样品先用全血;
  3. 其他样品请咨询百迈客。