一种SNP序列的填充方法技术

技术编号:36609429 阅读:12 留言:0更新日期:2023-02-08 09:56
本发明专利技术公开了一种SNP序列的填充方法,具体包括以下步骤:步骤一:获取已有基因序列原始数据;步骤二:对获取的数据预处理;步骤三:根据数据构建填充神经网络模型;步骤四:将含有缺失值的SNP序列输入到填充神经网络模型,实现SNP序列缺失数据的填充;该方法简单易行,填充具有较高的准确率。填充具有较高的准确率。填充具有较高的准确率。

【技术实现步骤摘要】
一种SNP序列的填充方法


[0001]本专利技术涉及一种SNP序列的填充方法,属于生物


技术介绍

[0002]单核苷酸多态性(SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每1000个碱基对中就有1个,其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP对群体遗传学、制药业、法医学、癌症及遗传性疾病甚至进化的研究都将产生不可估量的影响。
[0003]SNP(单核苷酸多态性标记)芯片测序的过程中导致的基因数据的丢失给全基因组关联分析研究带来很大的挑战,基因型数据的丢失分为遗传性丢失和检测性丢失。我们在基因型缺失的分析过程中,一般讨论的是技术性缺失,而不是人为的缺失,主要有下列原因导致:全基因组重测序导致的缺失、简化基因测序导致的缺失、外显子测序以及目标区域捕获测序导致的缺失以及SNP芯片导致的缺失等。
[0004]目前普遍通过带有缺失值的基因序列拟合一个参数,学习缺失数据的总体特征,然后根据特征对缺失值进行填充,这种方式需要数据缺失值对数据整体的分布产生一个比较小的影响,但是当下的基因样本数量还不足以支持如此大的数据量,导致填充效率低下且预测得到的基因填充值错误率高。

技术实现思路

[0005]本专利技术所要解决的技术问题是,克服现有技术的缺点,提供一种SNP序列的填充方法,该方法简单易行,填充具有较高的准确率。
[0006]为了解决以上技术问题,本专利技术提供一种SNP序列的填充方法,具体包括以下步骤:步骤一:获取已有基因序列原始数据,原始数据包括版本号为38的人类全基因组参考序列和所有染色体上的snvindels文件;步骤二:对获取的数据预处理;步骤三:根据数据构建填充神经网络模型;步骤四:将含有缺失值的SNP序列输入到填充神经网络模型,实现SNP序列缺失数据的填充。
[0007]本专利技术进一步限定的技术方案是:进一步的,前述SNP序列的填充方法中,步骤二中数据预处理具体为:1)确定原始数据人类全基因组参考序列文件中存储的碱基位置索引;2)提取SNP序列数据;3)确定高频率的SNP序列数据,提取出不含缺失值的序列数据作为标签序列;
4)生成训练样本数据,将其作为神经网络模型的输入序列,通过不断优化神经网络模型的输出结果与标签序列的误差,实现神经网络模型中各参数的确定,然后利用该神经网络模型,实现对含有缺失值的序列数据进行预测。前述SNP序列的填充方法中,步骤三中填充神经网络模型由卷积神经网络CNN、循环神经网络RNN及连通时序分类器CTC组成。
[0008]前述SNP序列的填充方法中,步骤四的具体操作为:1)输入一维含缺失值的SNP序列数据,首先进行卷积神经网络CNN层的卷积运算;2)将步骤1)的结果输出到具有双向LSTM结构的RNN层;3)对RNN层的输出结果进行Concat后,输入到全连接层中;4)对全连接层的输出结果进行CTC解码,得到与输入序列长度完全相同的预测结果即填充好的SNP序列。
[0009]前述SNP序列的填充方法中,RNN层网络结构采用4个双向LSTM层串联构造。
[0010]本专利技术的有益效果是:现有的方法都是基于传统意义上的统计分析方法,如时间序列分析方法,主成分分析方法等,本专利技术基于CNN、RNN和CTC组合构架的神经网络模型,该模型对人类基因组参考序列中的常染色体上的SNP序列的填充具有较高的准确率,特别是当SNP位点缺失率0.2≤r≤0.8时,其填充准确率在80%左右。
附图说明
[0011]图1为本专利技术实施例SNP序列的填充方法的流程图;图2为图1中原始数据预处理的具体流程图;图3为本专利技术实施例SNP序列的填充方法中神经网络模型的示意图;图4为本专利技术实施例SNP序列的填充方法中神经网络模型的另一种示意图。
具体实施方式
[0012]实施例1本实施例提供的一种SNP序列的填充方法,流程如图1

2所示,具体包括以下步骤:步骤一:获取已有基因序列原始数据;基于现有NCBI或1000Genome网站:到https://www.ncbi.nlm.nih.gov/或https://www.internationalgenome.org/网站上获取版本号为38的人类全基因组参考序列和所有染色体上的snvindels数据文件;人类全基因组参考序列文件的文件名为:GCA_000001405.15_GRCh38_full_analysis_set.fna.gz,简称G文件;对应染色体编号为i(i=1,2,...,22,X,Y)的snvindel文件名为:ALL.chri.shapeit2_integrated_snvindels_v2a_27022019.GRCh38.phased.vcf.gz,简称Si文件。
[0013]Si文件中记录了编号为i的染色体所有的单核苷酸变异(SNP)、基因组结构性变异(SV)和在基因组的某个位置上发生的小片段序列的插入或删除(indel是insertion和deletion的简称)的所有数据。例如,SX文件,即是记录X号染色体的svnindel文件名为ALL.chri.shapeit2_integrated_snvindels_v2a_27022019.GRCh38.phased.vcf.gz。
[0014]染色体文件中包含26个区域的2548个样本数据,https://www.internationalgenome.org/网站首页给出了这些地区和样本的详细说明;步骤二:对获取的数据预处理;1)确定原始数据全基因组序列文件中存储的碱基位置索引,确定SNP位点对应的碱基在全基因组序列中所在的位置;解压G文件,得到24个染色体的全基因组参考序列数据,分别是chr1.fa,chr2.fa,......,chr22.fa,chrX.fa和chrY.fa文件,对于编号为i的染色体全基因组文件chri.fa,简称Ci文件;以X号染色体为例,读取CX文件,同时解压并读取SX文件,发现CX中若碱基的位置索引从1开始编号,则第12568位置的碱基为C,第13587位置的碱基为T,正好对应于SX文件中的第一个和第三个SNP位置上对应的REF碱基,即染色体Si文件中存储的碱基位置对应的是其全基因组序列文件Ci中存储的碱基位置从1开始编号的数据;2)提取SNP序列数据;解压并打开步骤一中的Si文件,遍历文件中每一行的有效数据,若REF和ALT条目下对应的数据都是一个碱基(这种情形称为SNP,即本实施例方法研究的只是单核苷酸多态性,不考虑结构性变异SV和插入删除indel对应的数据),则需要存储当前碱基位置索引对应的所有样本等位基因数据(因为任一样本数据对应的等位基因的存储格式都为“A|B”的形式(A=0或1,B=0或1),故需要确定是保存A还是保存B),不失一般性,保存左边的A数据,则对于所有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种SNP序列的填充方法,其特征在于,具体包括以下步骤:步骤一:获取已有基因序列原始数据,原始数据包括版本号为38的人类全基因组参考序列和所有染色体上的snvindels文件;步骤二:对获取的数据预处理;步骤三:根据数据构建填充神经网络模型;步骤四:将含有缺失值的SNP序列输入到填充神经网络模型,实现SNP序列缺失数据的填充。2.根据权利要求1所述的SNP序列的填充方法,其特征在于:所述步骤二中数据预处理具体为:1)确定原始数据人类全基因组参考序列文件中存储的碱基位置索引; 2)提取SNP序列数据;3)确定高频率的SNP序列数据,提取出不含缺失值的序列数据作为标签序列;4)生成训练样本数据,将其作为神经网络模型的输入序列,通过不断优化神经网络模型的输出结果与标签序列的误差,实现神经网络模型中各参数的确...

【专利技术属性】
技术研发人员:张亮笪蓉谌德志
申请(专利权)人:南京三强电子通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1