System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种可跨四倍体和六倍体小麦在基因组精细区间进行祖系单倍群分型的方法技术_技高网

一种可跨四倍体和六倍体小麦在基因组精细区间进行祖系单倍群分型的方法技术

技术编号:40049113 阅读:4 留言:0更新日期:2024-01-16 20:55
本发明专利技术公开了一种可跨四倍体和六倍体小麦在基因组精细区间进行祖系单倍群分型的方法。本发明专利技术提供方法,步骤:1)获得各个小麦待测样本全基因组重测序数据;2)得到各个待测样本过滤后的DNA序列比对文件;3)SNP鉴定和CNV变异鉴定;4)得到SNP多态性位点密度的分布;5)将所述SNP多态性位点的密度分布拟合得到正态分布后根据边界确定遗传距离硬阈值;6)得到初始祖系单倍群;7)得到样本初始优先级顺序;8)得到祖系单倍群文件。本本发明专利技术不需要参考群体的重测序数据作为输入,这使得检测总成本降低。本发明专利技术也不需要限定待检测样本所属群体间的系统发生学关系,这能够提高在进化历史复杂的作物中应用的检测准确度。

【技术实现步骤摘要】

本专利技术属于植物基因组学领域,具体涉及一种可跨四倍体和六倍体小麦在基因组精细区间进行祖系单倍群分型的方法


技术介绍

1、作物育种的进展在很大程度上依赖于对该物种主要基因库中变异的利用,而在驯化过程中主要农作物遗传多样性大量丢失。因此,发掘新的未被利用的遗传资源是作物育种的重要内容。小麦、玉米、水稻等主要农作均存在以野生近缘种为代表的二级基因库,近年来已有广泛的研究表明某些来自野生种、祖先种、不同支系间的渗入片段具有增强作物适应性的潜力。

2、因此,系统鉴定作物基因组片段的祖系单倍群类型,导入野生种、近缘种中未被大规模利用的单倍群基因组片段可以极大地扩充可用遗传变异资源,对作物育种具有重要意义。不仅如此,明确作物基因组片段的祖系来源还可以促进对于作物演化规律研究。然而,目前主流的远缘基因组渗入片段检测方法需要参考群体作为对照,且对待检测群体间的系统发生学关系有严格要求,这些条件在演化历史复杂的作物中难以满足,限制了其应用范围。

3、普通小麦是一种重要的粮食作物,属于异源六倍体,基因组庞大且重复序列高。随着普通小麦参考基因组的公布和基于第二代测序的测序成本的降低,基于规模化品种、近缘种、野生种的重测序成为系统解析种质资源演变的重要技术和方法。大规模重测序可以被用来获取全面的、高质量基因型数据,从而为在全基因组水平准确推断区块的祖系单倍群类型提供了可能。


技术实现思路

1、本专利技术一个目的是提供一种可跨四倍体和六倍体确定不同小麦样本基因组区块所属的祖系单倍群的方法。

2、本专利技术提供的方法,包括如下步骤:

3、1)获得各个小麦待测样本全基因组重测序数据;

4、步骤1)中,可以通过数据库获得或者通过全基因组测序;

5、所述小麦样本为品种或品系,近缘种或野生种;

6、所述小麦样本的倍性为四倍体或六倍体。

7、2)分别对所述各个小麦待测样本全基因组重测序数据过滤实现质量控制,得到过滤后数据;再将所述过滤后数据与参考小麦基因组序列比对,得到各个待测样本的dna序列比对文件;对所述各个待测样本的dna序列比对文件再次过滤,得到各个待测样本过滤后的dna序列比对文件;

8、具体为:上述过滤实现质量控制采用的软件为(http://www.usadellab.org/cms/index.php?page=trimmomatic),具体参数为leading:3(reads开头碱基质量值低于该阈值则丢弃);trailing:3(reads末尾碱基质量值低于该阈值则丢弃);slidingwindow:4:15(从reads的5'端开始的滑窗大小);minlen:36(经过剪切后reads的长度该阈值则丢弃),最后得到过滤后的数据用于后续分析;

9、上述比对的方式:使用bwa软件中的bwa-mem工具(https://sourceforge.net/projects/bio-bwa/files/)将过滤后的数据在中国春小麦参考基因组(iwgsc refseqv1.0,https://urgi.versailles.inra.fr/download/iwgsc/iwgsc_refseq_annotations/v1.1/)上进行比对,选择保留存在“最优匹配(best hit)”的读段对。

10、上述再次过滤为利用bamtools(v2.5.1,https://github.com/pezmaster31/bamtools)与samtools(v1.4,http://www.htslib.org/)工具进行过滤:使用bamtools去除读段对间的距离大于10,000bp或为0bp的读段以及回帖质量小于1的读段,使用samtools去除pcrduplicate数据。

11、通过上述比对和再次过滤,最后获得bam文件用于后续分析,记作各个待测样本过滤后的dna序列比对文件。

12、3)将所有待测样本过滤后的dna序列比对文件进行snp鉴定和cnv(拷贝数变异)变异鉴定,得到记载所有的snp位点信息的过滤后的vcf文件和各个待测样本的含有cnv变异区间信息的bed文件;

13、上述snp鉴定的软件为gatk软件,且snp位点过滤参数设定为“qd<2.0,fs>60.0,mqranksum<-12.5,readposranksum<-8.0,sor>3.0,mq<40.0,dp>30||dp<3”。

14、上述cnv变异鉴定为以5mbp为单位将参考全基因组划分为小窗,利用bedtools(v2.26.0,https://bedtools.readthedocs.io/en/latest/)软件计算每个待测样本的重测序比对读段(即为各个待测样本的dna序列比对文件)在每个窗口内的“平均覆盖深度”(depbin);并结合该材料的全基因组“平均读段覆盖深度”(depave)(通过各个待测样本的dna序列比对文件计算得到);将两者相除进行归一化,得到每个小窗的“平均相对覆盖深度”:depbin/depave。depbin/depave值低于0.5或高于1.5的小窗被视为“cnv变异区间”,最终得到各个待测样本的含有cnv变异区间信息的bed文件。

15、4)将所述记载所有的snp位点信息的过滤后的vcf文件和所述各个待测样本的含有cnv变异区间信息的bed文件中,找出并统计每两个样本均不为cnv变异区间的小窗中差异snp数量,用各个snp数量除以对应的小窗长度为各个snp密度,得到记载小窗中两品种间存在差异的snp密度的遗传距离矩阵文件;再根据所有样本的snp密度作图得到snp多态性位点密度的分布;

16、上述方法4)根据所有样本的snp密度作图得到snp多态性位点密度的分布,包括以下步骤:

17、4-1)在1-5mbp范围内选择固定区间长度为单位将参考基因组进行划分小窗;

18、4-2)使用plink v1.9软件从上述3的1)得到的记载所有的snp位点信息的过滤后的vcf文件和上述3的2)得到的各个待测样本的含有cnv变异区间信息的bed文件中,对每一对样本在两样本均不为cnv变异区间的小窗中差异snp数量进行统计,用各个snp数量除以对应的小窗长度为各个snp密度,得到记载小窗中两品种间存在差异的snp密度的遗传距离矩阵文件;

19、4-3)根据所有样本snp密度以10为底数取对数作图,得到密度分布。

20、5)将所述snp多态性位点的密度分布拟合得到正态分布后根据边界确定遗传距离硬阈值;

21、步骤5)中,所述拟合的算法为最大期望算法;

22、所述硬阈值是以拟合得到的正态分布的交叉边界作为硬阈值而确定的。

23、在本专利技术的实施例中,对于小麦,该硬阈值为10-3per bp。

24、6)将步骤4)得到的每个小窗的所本文档来自技高网...

【技术保护点】

1.一种确定不同小麦样本基因组区块所属的祖系单倍群的方法,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:

3.根据权利要求1或2所述的方法,其特征在于:

4.根据权利要求1-3中任一所述的方法,其特征在于:

5.根据权利要求1-4中任一所述的方法,其特征在于:

6.根据权利要求1-5中任一所述的方法,其特征在于:

7.根据权利要求1-6中任一所述的方法,其特征在于:

8.根据权利要求2-7中任一所述的方法,其特征在于:

【技术特征摘要】

1.一种确定不同小麦样本基因组区块所属的祖系单倍群的方法,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于:

3.根据权利要求1或2所述的方法,其特征在于:

4.根据权利要求1-3中任一所述的方法,其特征在于:

【专利技术属性】
技术研发人员:郭伟龙王梓豪孙其信王文熙谢小明汪永法倪中福彭惠茹
申请(专利权)人:中国农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1