一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法技术

技术编号:20392667 阅读:57 留言:0更新日期:2019-02-20 03:58
本发明专利技术涉及基因组测序技术领域,特别涉及一种低密度SNP基因组区域准确预测BSA‑seq候选基因的方法,本发明专利技术针对BSA‑seq在候选区间附近有低密度SNP区域,通过比价两亲本间的SNP,对SNP列表进行严格过滤,找出低密度区域,然后利用置信区间为95%时对应的候选区间加上低密度候选区间,利用基因组注释网站对候选区域内的基因进行注释;对候选区域变异位点功能注释,得到存在移码变异等功能性变异的基因,并确定该基因为候选基因;使用本发明专利技术的方法能弥补由于基因组差异小的区域而造成的候选区域的假阳性,获得真正的候选区间。

【技术实现步骤摘要】
一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法
本专利技术涉及基因组测序
,特别涉及一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法。
技术介绍
集团分离分析法(bulkedsegregantanalysis,BSA)是1991年由R.W.MICHELMORE在莴苣上首次应用的一种快速定位控制目标性状基因的方法。方法是取子代群体中具有极端表型的单株,等量pooling其DNA形成两个DNA池,然后在亲本和两个池之间进行标记多态筛选,通过对子代群体筛选得到的多态标记进行基因型分析,即可完成对目标基因的定位,而不需要对每个标记都在群体里进行基因型分析。随着高通测序技术的兴起,基于全基因组重测序的BSA分析方法广泛应用在植物重要性状定位中,其具有“快速、高效、价廉”等特点。BSA-seq的基本思路,通常是指从作图群体中挑选极端个体,然后等量混合样本构成两个DNA池,对亲本和池进行高通量测序,鉴定在亲本和两个池中共有的SNPs,计算两个混合DNA池中相同变异位点的基因型频率及其差值,以差值来体现标记在池间的多态性,从而实现候选基因的定位然而,BSA-seq相对于全基因组关联分析、遗传图谱等基因定位技术,存在准确度低、精确度低等缺点,如何对低密度SNP区域的候选基因进行准确预测,是我们面临的难题,更多时候在基因组差异小的区域容易造成的候选区域的假阳性。
技术实现思路
鉴于上述内容,有必要针对差异小的基因组区域对候选基因进行准确预测,并提供一种快速、高效、廉价的预测方法。为达到上述目的,本专利技术所采用的技术方案是:一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法,所述方法包括如下步骤:(1)混池:选择目标性状差异显著的亲本构建分离群体,然后从分离群体中选择极端表型的若干个单株分别混合成两个等量的DNA池;(2)提取DNA:提取植物基因组DNA;(3)测序:检测步骤(2)的DNA样品,合格后将DNA片段化,对DNA片段进行修饰、PCR扩增,构建测序文库,文库质检合格后进行测序;(4)比对:将步骤(3)获得的测序reads重新定位到参考基因组上,进行比对、统计,计算相对于参考基因组的测序深度和覆盖度;(5)SNP检测与注释:使用GATK软件进行SNP的检测;利用软件SnpEff进行注释变异和预测变异;(6)SNP-index关联分析:对SNP进行过滤,进行频率差异分析、计算得到SNP-index及△SNP-index的分布;(7)候选区间分析:根据步骤(6)△SNP-index的分布情况,选择低密度区域为候选区间,利用基因组注释网站对候选区间基因进行注释;对候选区间变异位点进行功能注释,找出存在移码变异等功能性变异的基因,得到候选基因;利用qRT-PCR技术对候选基因进行验证。进一步的,其特征在于,所述步骤(6)SNP过滤的过滤标准如下:首先,过滤掉有多个基因型的SNP位点,其次,过滤掉reads支持度小于4的SNP位点,再次过滤掉混池之间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点。进一步的,所述步骤(6)的计算采用SNP-index方法计算关联值,并采用DISTANCE方法对△SNP-index进行拟合。进一步的,所述所述步骤(5)SNP检测与注释方法如下:步骤S1:通过GATK软件工具包检测测序基因组的SNP和smallInDel;通过bwa软件,采取mem算法将高质量的测序reads比对到参考基因组,根据Cleanreads在参考基因组的定位结果,使用Picard过滤冗余reads;使用GATK的局部单体型组装算法进行SNP和InDel的变异检测,每个样本先各自生成gVCF,再进行群体joint-genotype得到变异位点集;并对变异结果进行过滤得到过滤后的snp列表,所述过滤标准为:5bp窗口内的变异数量不超过2个;Phred格式的质量值不低于30;变异质量值除以覆盖深度的比值不低于2.0;所有比对至该位点上的reads的比对质量值的均方根不低于40;FS值不高于60;其它变异过滤参数采用GATK官方指定的默认值处理。步骤S2:基于步骤S1得到过滤后的snp列表,通过定制化的脚本获得在父本池和母本池具有差异的位点即是亲本之间的snp位点,然后通过滑窗统计snp的分布密度,定制化的脚本画分布图。本专利技术的另一目的还包括上述方法在植物基因标记中的应用。进一步的,所述植物为水稻。进一步的,所述水稻的亲本为黄华占和东兰墨米。进一步的,所述植物基因为水稻种皮花青素合成基因。进一步的,所述花青素合成基因为LOC_Os01g44260。本专利技术具有如下有益效果:本专利技术针对BSA-seq在候选区间附近有低密度SNP区域,通过比价两亲本间的SNP,对SNP列表进行严格过滤,找出低密度区域,然后利用置信区间为95%时对应的候选区间加上低密度候选区间,利用基因组注释网站对候选区域内的基因进行注释;对候选区域变异位点功能注释,得到存在移码变异等功能性变异的基因,并确定该基因为候选基因;使用本专利技术的方法能弥补由于基因组差异小的区域而造成的候选区域的假阳性,获得真正的候选区间。【附图说明】图1是本专利技术实施例候选基因置信区间的分析图;图2是本专利技术实施例基因组上的SNP分布图。【具体实施方式】本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要)中公开的任一特征,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。实施例:本实施例提供了一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法,该方法步骤如下:(1)混池:选择目标性状差异显著的亲本“黄华占×东兰墨米”构建分离群体,再从分离群体中选取目标性状表型极端的30-50个单株,分别混合成两个DNA池(DNApools)进行测序;(2)提取DNA:采用CTAB法提取植物基因组DNA;(3)测序:步骤(2)得到的基因组DNA样品检测合格后,用超声破碎的方法将DNA随机打断成350bp的片段,对DNA片段进行修饰,修饰方法为:对DNA片段进行末端修复、磷酸化并加ploy(A)、加测序接头;然后进行纯化、PCR扩增,构建测序文库;文库经质检合格后通过IlluminaHiSeqXTen进行测序,并对获得的reads进行质量控制;(4)与参考基因组比对统计:对步骤(3)重测序获得的reads重新定位到参考基因组上。BWA软件主要用于二代高通量测序得到的短序列与参考基因组的比对。通过比对定位Cleanreads在参考基因组上的位置,统计各样品的测序深度、基因组覆盖度等信息,并进行变异的检测;(5)SNP检测与注释:SNP的检测主要使用GATK软件实现;注释变异(SNP、SmallInDel)和预测变异影响利用软件SnpEff进行。(6)SNP-index关联分析:首先对SNP进行过滤,过滤标准如下:首先过滤掉有多个基因型的SNP位点,其次过滤掉reads支持度小于4的SNP位点,再次过滤掉混池之间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点;利用SNP-index方法计算关本文档来自技高网...

【技术保护点】
1.一种低密度SNP基因组区域准确预测BSA‑seq候选基因的方法,其特征在于,所述方法包括如下步骤:(1)混池:选择目标性状差异显著的亲本构建分离群体,然后从分离群体中选择极端表型的若干个单株分别混合成两个等量的DNA池;(2)提取DNA:提取植物基因组DNA;(3)测序:检测步骤(2)的DNA样品,合格后将DNA片段化,对DNA片段进行修饰、PCR扩增,构建测序文库,文库质检合格后进行测序;(4)比对:将步骤(3)获得的测序reads重新定位到参考基因组上,进行比对、统计,计算相对于参考基因组的测序深度和覆盖度;(5)SNP检测与注释:使用GATK软件进行SNP的检测;利用软件SnpEff进行注释变异和预测变异;(6)SNP‑index关联分析:对SNP进行过滤,进行频率差异分析、计算得到SNP‑index及△SNP‑index的分布;(7)候选区间分析:根据步骤(6)△SNP‑index的分布情况,选择低密度区域为候选区间,利用基因组注释网站对候选区间基因进行注释;对候选区间变异位点进行功能注释,找出存在移码变异等功能性变异的基因,得到候选基因;利用qRT‑PCR技术对候选基因进行验证。...

【技术特征摘要】
1.一种低密度SNP基因组区域准确预测BSA-seq候选基因的方法,其特征在于,所述方法包括如下步骤:(1)混池:选择目标性状差异显著的亲本构建分离群体,然后从分离群体中选择极端表型的若干个单株分别混合成两个等量的DNA池;(2)提取DNA:提取植物基因组DNA;(3)测序:检测步骤(2)的DNA样品,合格后将DNA片段化,对DNA片段进行修饰、PCR扩增,构建测序文库,文库质检合格后进行测序;(4)比对:将步骤(3)获得的测序reads重新定位到参考基因组上,进行比对、统计,计算相对于参考基因组的测序深度和覆盖度;(5)SNP检测与注释:使用GATK软件进行SNP的检测;利用软件SnpEff进行注释变异和预测变异;(6)SNP-index关联分析:对SNP进行过滤,进行频率差异分析、计算得到SNP-index及△SNP-index的分布;(7)候选区间分析:根据步骤(6)△SNP-index的分布情况,选择低密度区域为候选区间,利用基因组注释网站对候选区间基因进行注释;对候选区间变异位点进行功能注释,找出存在移码变异等功能性变异的基因,得到候选基因;利用qRT-PCR技术对候选基因进行验证。2.根据权利要求1所述低密度SNP基因组区域准确预测BSA-seq候选基因的方法,其特征在于,所述步骤(6)SNP过滤的过滤标准如下:首先,过滤掉有多个基因型的SNP位点,其次,过滤掉reads支持度小于4的SNP位点,再次过滤掉混池之间基因型一致的SNP位点以及隐性混池基因不是来自于隐性亲本的SNP位点。3.根据权利要求1所述低密度SNP基因组区域准确预测BSA-seq候选基因的方法,其特征在于,所述步骤(6)的计算采用SNP-index方法计算关联值,并采用...

【专利技术属性】
技术研发人员:杨行海夏秀忠曾宇张宗琼农保选吴艳艳熊发前李丹婷邓国富荘洁
申请(专利权)人:广西壮族自治区农业科学院水稻研究所
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1