System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种全基因组snp分型方法,具体涉及一种基于深度学习的四倍体牡蛎全基因组snp分型方法,属于分子选择育种。
技术介绍
1、目前,基因分型技术广泛应用在二倍体动植物中,且基因分型准确率较高。然而,在多倍体中,由于需要区分同源snp(个体内和个体间跨亚基因组出现的多态位置)和等位snp(个体间单一亚基因组内出现的多态位置),且多倍体物种内各亚基因组间具有遗传相似性,多倍体生物snp的准确鉴定和分型十分困难。
2、目前,主流的基因分型软件是gatk和freebayes,使用gatk和freebayes进行四倍体分型时,需要将四倍体的4个基因型拆为2个双等位基因型,分型后再组合在一起。gatk和freebayes基因分型方法由于以每个snp位点为单位进行基因分型,不考虑周围snp位点的基因型,所以忽略了四个基因型之间的潜在关联。此外,gatk和freebayes基因分型方法在测序深度较低时基因型分型准确率较低。
3、深度学习目前主要应用在图像处理方面,很少应用在全基因组选择育种中。对于全基因组snp分型技术,深度学习通过学习假定突变与真实突变基因型的统计关系,建立回归模型,不仅可以提高单个位点基因分型的准确率,还可以通过学习位点间的潜在联系进一步提高位点变异推测的准确率,从而解决gatk和freebayes基因分型方法在低测序深度时部分位点基因型预测准确率过低的问题。在以往的研究中,poplin等人通过构建卷积神经网络进行基因分型,但其未考虑到位点间的相互作用,缺失分型的部分信息(ryanpopli
4、目前,gatk和freebayes基因分型方法在海洋二倍体生物中基因分型准确率较高,应用广泛,因基于深度学习的全基因组snp分型方法基因分型结果的准确率与gatk和freebayes基因分型方法基因分型结果的准确率无明显差异,所以基于深度学习的全基因组snp分型方法未应用于海洋二倍体生物基因分型中。而对于海洋中鲜有的多倍体生物,gatk和freebayes基因分型方法基因分型结果的准确率较低,基于深度学习的基因分型方法在提高基因分型准确率方面有很大潜力。对于四倍体牡蛎,目前仍没有成熟可靠的基因分型手段。因此,迫切需要开发基于深度学习的四倍体牡蛎全基因组snp分型方法,为四倍体牡蛎的遗传改良和分子育种提供帮助。
技术实现思路
1、本专利技术的目的在于:克服四倍体牡蛎全基因组snp分型在低测序深度时准确率低的难题,使用深度学习方法构建基因分型神经网络模型,大幅度提高四倍体牡蛎全基因组snp分型在低测序深度时的准确率。
2、为了实现上述目标,本专利技术采用如下的技术方案:
3、一种基于深度学习的四倍体牡蛎全基因组snp分型方法,包括以下步骤:
4、步骤1:使用gatk和freebayes对四倍体牡蛎进行全基因组范围的snp分型;
5、步骤2:对原始变异位点进行过滤生成高质量的snp数据集;
6、步骤3:从高质量的snp数据集中筛选出用于神经网络模型训练的snp位点;
7、步骤4:将门控循环单元网络和卷积神经网络结合,通过深度学习构建四倍体牡蛎全基因组snp分型神经网络模型,具体的,以染色体为单位,每次按顺序输入染色体的150bp片段,输入至染色体最后1个150bp片段时停止,每个片段为每个个体100×重测序与参考基因组比对的结果,门控循环单元网络每层包括10个神经元,用于读取四倍体牡蛎150bp片段和marker,在读取片段后,每层整合所有前后层输出的结果进一步对该层进行训练,最后输出门控循环单元网络拟合的结果至卷积神经网络,将输入数据分为不同种类的基因型,在深度学习训练过程中,将均方误差设定为损失函数,通过计算推测值与真实值的均方误差评估神经网络模型的准确度,并使用反向传播和梯度下降法不断迭代,优化损失函数,优化神经网络模型。
8、优选的,在步骤1中,使用gatk和freebayes对四倍体牡蛎进行全基因组范围的snp分型的方法具体如下:
9、(1)提取dna和构建文库;
10、(2)对四倍体牡蛎样本的dna片段进行30×重测序;
11、(3)建立参考基因组索引;
12、(4)将reads与参考基因组比对,生成bam文件,并对bam文件的数据进行排序;
13、(5)建立gatk和freebayes索引并合并bam文件;
14、(6)去除duplication;
15、(7)分别使用freebayes和gatk haplotypecaller对30×重测序结果进行snp分型,生成gvcf文件。
16、优选的,在步骤2中,对原始变异位点进行过滤生成高质量的snp数据集的方法具体如下:
17、(1)过滤多态性snp位点,保留二态性snp位点;
18、(2)过滤10bp内超过3个snp的位点;
19、(3)以qd<2.0、qual<30.0、mq<40.0、fs>60.0、sor>3.0、mqranksum<-12.5和readposranksum<-8.0为参数过滤低质量位点;
20、(4)过滤有个体缺失的位点;
21、(5)过滤最小等位基因频率<0.05的位点;
22、(6)过滤测序深度100×以下的位点。
23、优选的,在步骤3中,从高质量的snp数据集中筛选出用于神经网络模型训练的snp位点的方法具体如下:
24、(1)筛选出gatk和freebayes两种基因分型方法基因分型结果完全一致且完全符合孟德尔遗传定律的snp位点;
25、(2)将这些筛选出来的snp位点以加性效应转化为标签0、1、2、3、4,将位点比对的结果用于神经网络模型训练。
26、本专利技术的有益之处在于:
27、(1)本专利技术提供的基于深度学习的四倍体牡蛎全基因组snp分型方法在低测序深度时基因分型准确率显著高于gatk和freebayes的基因分型准确率,在高测序深度时基因分型准确率与gatk和freebayes的基因分型准确率无明显差异。
28、(2)利用本专利技术提供的基于深度学习的四倍体牡蛎全基因组snp分型方法获得的分型结果进行gwas分析,可以鉴定到大量与四倍体牡蛎生长性状显本文档来自技高网...
【技术保护点】
1.一种基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤1中,使用GATK和freebayes对四倍体牡蛎进行全基因组范围的SNP分型的方法具体如下:
3.根据权利要求2所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤(1)中,还包括定量纯化的DNA文库的有效浓度的步骤,具体的,先使用Qubit2.0对纯化的DNA文库的有效浓度进行初步定量,再使用qPCR对纯化的DNA文库的有效浓度进行准确定量。
4.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤2中,对原始变异位点进行过滤生成高质量的SNP数据集的方法具体如下:
5.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组SNP分型方法,其特征在于,在步骤3中,从高质量的SNP数据集中筛选出用于神经网络模型训练的SNP位点的方法具体如下:
【技术特征摘要】
1.一种基于深度学习的四倍体牡蛎全基因组snp分型方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度学习的四倍体牡蛎全基因组snp分型方法,其特征在于,在步骤1中,使用gatk和freebayes对四倍体牡蛎进行全基因组范围的snp分型的方法具体如下:
3.根据权利要求2所述的基于深度学习的四倍体牡蛎全基因组snp分型方法,其特征在于,在步骤(1)中,还包括定量纯化的dna文库的有效浓度的步骤,具体的,先使用qubit2...
【专利技术属性】
技术研发人员:王卫军,包晓凯,王扬帆,杨建敏,李赞,孙国华,冯艳微,徐晓辉,
申请(专利权)人:鲁东大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。