System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及snp位点数据识别,尤其是涉及一种基于snp位点数据的品种分类方法、系统、设备及介质。
技术介绍
1、通过全基因组关联研究(gwas)可解析样本基因座与标准基因座之间snp位点,通过每个样本的snp位点数据可建立样本的品种识别信息。由于dna或rna数量巨大,因此,对snp进行筛选成为重要工作,如何对snp进行降维,如从6万多snp位点中筛选出几百上千的snp位点就可建立snp与样本品种之间的联系,就成为关键工作内容。
2、现有技术基于芯片筛选,而芯片逻辑也是基于人工的经验针对不同的样本进行设计,设计繁琐,耗时耗力。或者通过人工挑选,导致难度大,专业性强,耗时长。
技术实现思路
1、本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于snp位点数据的品种分类方法、系统、设备及介质,能够对snp位点进行挑选,达到以少量位点即可识别样本类别的目的,减少snp位点数量并能够快速的分类样本。
2、第一方面,本专利技术的实施例提供了一种基于snp位点数据的品种分类方法,包括:
3、获取snp数据;
4、通过标注所述snp数据和所述snp数据对应的样本之间的标签得到样本标注集;
5、通过所述样本标注集训练预设的特征提取模型;
6、通过所述特征提取模型的输出结果训练预设的snp数据分类模型;
7、通过所述输出结果训练预设的数据集分布专家模型;
8、将待分类sn
9、根据本专利技术实施例的方法,至少具有如下有益效果:
10、本方法首先通过标注snp数据与对应的样本之间的标签得到样本标注集,为后续的模型训练提供良好的数据基础;其次通过样本标注集训练特征提取模型,能够学习大量的标注经验,成功挖掘样本与snp数据之间的关系得到新的snp位点来识别样本,能够减少大量不具备有效性的snp数据,减小算力浪费;然后通过特征提取模型的输出结果训练snp数据分类模型,能够针对新的点位特征,进行人工智能模型的分类,对应提高分类的准确性和分类效率;再然后通过输出结果训练数据集分布专家模型,保证特征提取模型的输出结果在任何数据分布上都在snp数据分类模型具有较高的特征表达,提高整个snp数据分类的准确性,同时提高snp数据分类的泛化能力,适应更多的任务场景。
11、根据本专利技术的一些实施例,所述通过所述样本标注集训练预设的特征提取模型,包括:
12、将所述样本标注集输入至所述特征提取模型中的第一注意力模型,得到所述样本标注集对应的第一snp特征;
13、将所述第一snp特征输入至所述特征提取模型中的特征选择模块,并通过所述特征选择模块对所述第一snp特征进行shap分析,得到碱基编码的重要性值超过阈值的第二snp特征。
14、根据本专利技术的一些实施例,所述通过所述特征提取模型的输出结果训练预设的snp数据分类模型,包括:
15、将所述输出结果中的所述第二snp特征输入至所述snp数据分类模型中的第二注意力模型,得到第一分类特征;
16、将所述第一分类特征通过所述snp数据分类模型中的双向长短期记忆网络,得到所述第二snp特征对应的样本分类。
17、根据本专利技术的一些实施例,所述通过所述输出结果训练预设的数据集分布专家模型,包括:
18、通过所述输出结果构建所述第二snp特征的数据分布集;
19、通过所述数据分布集使用原始交叉熵损失训练所述数据集分布专家模型。
20、根据本专利技术的一些实施例,所述第一注意力模型和所述第二注意力模型均使用自注意力机制。
21、根据本专利技术的一些实施例,所述将所述第一分类特征通过所述snp数据分类模型中的双向长短期记忆网络,得到所述第二snp特征对应的样本分类,包括:
22、将所述第一分类特征输入至所述双向长短期记忆网络,得到正向输出结果和反向输出结果;其中,所述双向长短期记忆网络包括两个长短期记忆网络,一个所述长短期记忆网络正向处理所述第一分类特征得到所述正向输出结果,另一个所述长短期记忆网络反向处理所述第一分类特征得到所述反向输出结果;
23、将所述正向输出结果和所述反向输出结果拼接得到所述第二snp特征对应的样本分类。
24、根据本专利技术的一些实施例,所述原始交叉熵损失的计算公式包括:
25、
26、其中,l表示原始交叉熵损失,m表示类别,yic表示符号函数,符号函数指代0或1,pic表示观测样本i属于类别c的预测概率,n表示样本数量。
27、第二方面,本专利技术的实施例提供了一种基于snp位点数据的品种分类系统,所述基于snp位点数据的品种分类系统包括:
28、snp数据获取单元,用于获取snp数据;
29、样本标注单元,用于通过标注所述snp数据和所述snp数据对应的样本之间的标签得到样本标注集;
30、特征提取模型训练单元,用于通过所述样本标注集训练预设的特征提取模型;
31、snp数据分类模型训练单元,用于通过所述特征提取模型的输出结果训练预设的snp数据分类模型;
32、数据集分布专家模型训练单元,用于通过所述输出结果训练预设的数据集分布专家模型;
33、品种分类单元,用于将待分类snp数据输入所述特征提取模型、所述snp数据分类模型和所述数据集分布专家模型,得到所述待分类snp数据对应的品种分类结果。
34、第三方面,本专利技术的实施例提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如第一方面所述的基于snp位点数据的品种分类方法。
35、第四方面,本专利技术的实施例提供了一种计算机存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的基于snp位点数据的品种分类方法。
36、需要注意的是,本专利技术的第二方面至第四方面与现有技术之间的有益效果与第一方面的基于snp位点数据的品种分类方法的有益效果相同,此处不再细述。
37、本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。
本文档来自技高网...【技术保护点】
1.一种基于SNP位点数据的品种分类方法,其特征在于,所述基于SNP位点数据的品种分类方法包括:
2.根据权利要求1所述的基于SNP位点数据的品种分类方法,其特征在于,所述通过所述样本标注集训练预设的特征提取模型,包括:
3.根据权利要求2所述的基于SNP位点数据的品种分类方法,其特征在于,所述通过所述特征提取模型的输出结果训练预设的SNP数据分类模型,包括:
4.根据权利要求3所述的基于SNP位点数据的品种分类方法,其特征在于,所述通过所述输出结果训练预设的数据集分布专家模型,包括:
5.根据权利要求3所述的基于SNP位点数据的品种分类方法,其特征在于,所述第一注意力模型和所述第二注意力模型均使用自注意力机制。
6.根据权利要求3所述的基于SNP位点数据的品种分类方法,其特征在于,所述将所述第一分类特征通过所述SNP数据分类模型中的双向长短期记忆网络,得到所述第二SNP特征对应的样本分类,包括:
7.根据权利要求4所述的基于SNP位点数据的品种分类方法,其特征在于,所述原始交叉熵损失的计算公式包括:
...【技术特征摘要】
1.一种基于snp位点数据的品种分类方法,其特征在于,所述基于snp位点数据的品种分类方法包括:
2.根据权利要求1所述的基于snp位点数据的品种分类方法,其特征在于,所述通过所述样本标注集训练预设的特征提取模型,包括:
3.根据权利要求2所述的基于snp位点数据的品种分类方法,其特征在于,所述通过所述特征提取模型的输出结果训练预设的snp数据分类模型,包括:
4.根据权利要求3所述的基于snp位点数据的品种分类方法,其特征在于,所述通过所述输出结果训练预设的数据集分布专家模型,包括:
5.根据权利要求3所述的基于snp位点数据的品种分类方法,其特征在于,所述第一注意力模型和所述第二注意力模型均使用自注意力机制。
6.根据权利要求3所述的基于snp位点数据的品种分类方法,其特征在于,所述将所述第一分类特征通过所述snp数据分类模型...
【专利技术属性】
技术研发人员:胡一泓,田冰川,李为国,余沛毅,贾高峰,
申请(专利权)人:华智生物技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。