全基因组关联分析是对多个个体在全基因组范围的遗传变异多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或P值筛选出最有可能影响该性状的遗传变异。
通过全基因组大样本重测序对动植物重要种质资源进行全基因组的基因型鉴定,并与关注的表型数据进行全基因组关联分析(GWAS),进而找到与关注表型相关的SNP位点,定位与性状相关基因,为后续动植物的育种提供科学理论依据。
SLAF-GWAS是应用简化测序的方式,以基因组中检测到的单核苷酸多态性(single nucleotide ploymorphism,SNP)为分子遗传标记,进行全基因组水平上的对照分析或相关性分析,统计分析每个变异与目标性状之间的关联性大小,通过比较发现影响复杂性状的基因变异的一种策略。
百迈客自2009年成立以来,经过8年的厚积薄发,在群体GWAS研究方面已完成上百个物种的项目,协助研究者发表文章40余篇,累计影响因子达120+,其中包含多篇Nature Communications、Molecular Plant
Plant Biotechnology Journal及The Plant Journal等国际等级期刊。
在某一群体中,不同座位上某两个基因同时遗传的频率明显高于预期的随机频率的现象,称连锁不平衡 (linkage disequilibrium) 。自然群体中连锁强度以D’或r2表示,D’或r2越接近于1,代表连锁关系越强。一般用r2大于0.1的数据作为连锁不平衡的衰减(LD decay)的数值,LD-decay越长,代表物种的SNP间发生重组的概率越小,LD-decay越短,代表物种的SNP间发生重组的概率越大。
基于SNP,利用TASSEL软件的混合线性模型(compressed MLM)得到关联值,公式计算为:y= Xα+Qβ+Kµ+e。其中,通过admixture软件计算样品群体结构Q,通过SPAGeDi软件计算样品间亲缘关系K,X为基因型,y为表型,最终每个SNP位点都能得到一个关联值。最终将性状关联到基因组XX号染色体上。
基于SNP,利用Haploview单体型预测软件,预测得到单体型块(趋向于整体遗传的基因序列,Block)。Block大小分布体现了在整个基因组范围内趋向于整体往下遗传的基因序列的长度,block越小,说明基因组重组越多。
一般情况下,全基因组关联分析的曼哈顿图常常与染色体位置、LD-Block图进行联合分析,根据显著关联的SNP位点确定注释的染色体区域,同时在该区域进行LD-Block分析,找到与该位点连锁较强的其他SNP位点,并对其所在的基因进行功能注释。
非严格遗传群体:
1、种质资源
2、半同胞家系,混合家系
3、MAGIC/NAM家系
4、多个F2/RIL/全同胞家系
5、高杂合类物种:F1群体