一种SNP序列的填充方法技术

技术编号：36609429 阅读：12 留言：0更新日期：2023-02-08 09:56

本发明专利技术公开了一种SNP序列的填充方法，具体包括以下步骤：步骤一：获取已有基因序列原始数据；步骤二：对获取的数据预处理；步骤三：根据数据构建填充神经网络模型；步骤四：将含有缺失值的SNP序列输入到填充神经网络模型，实现SNP序列缺失数据的填充；该方法简单易行，填充具有较高的准确率。填充具有较高的准确率。填充具有较高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种SNP序列的填充方法

[0001]本专利技术涉及一种SNP序列的填充方法，属于生物

技术介绍

[0002]单核苷酸多态性（SNP）主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种，占所有已知多态性的90%以上。SNP在人类基因组中广泛存在，平均每1000个碱基对中就有1个，其总数可达300万个甚至更多。SNP是一种二态的标记，由单个碱基的转换或颠换所引起，也可由碱基的插入或缺失所致。SNP对群体遗传学、制药业、法医学、癌症及遗传性疾病甚至进化的研究都将产生不可估量的影响。
[0003]SNP(单核苷酸多态性标记)芯片测序的过程中导致的基因数据的丢失给全基因组关联分析研究带来很大的挑战，基因型数据的丢失分为遗传性丢失和检测性丢失。我们在基因型缺失的分析过程中，一般讨论的是技术性缺失，而不是人为的缺失，主要有下列原因导致：全基因组重测序导致的缺失、简化基因测序导致的缺失、外显子测序以及目标区域捕获测序导致的缺失以及SNP芯片导致的缺失等。
[0004]目前普遍通过带有缺失值的基因序列拟合一个参数，学习缺失数据的总体特征，然后根据特征对缺失值进行填充，这种方式需要数据缺失值对数据整体的分布产生一个比较小的影响，但是当下的基因样本数量还不足以支持如此大的数据量，导致填充效率低下且预测得到的基因填充值错误率高。

技术实现思路

[0005]本专利技术所要解决的技术问题是，克服现有技术的缺点，提供一种SNP序列的填充方法，该方法简单易...

【技术保护点】

【技术特征摘要】
1.一种SNP序列的填充方法，其特征在于，具体包括以下步骤：步骤一：获取已有基因序列原始数据，原始数据包括版本号为38的人类全基因组参考序列和所有染色体上的snvindels文件；步骤二：对获取的数据预处理；步骤三：根据数据构建填充神经网络模型；步骤四：将含有缺失值的SNP序列输入到填充神经网络模型，实现SNP序列缺失数据的填充。2.根据权利要求1所述的SNP序列的填充方法，其特征在于：所述步骤二中数据预处理具体为：1）确定原始数据人类全基因组参考序列文件中存储的碱基位置索引； 2）提取SNP序列数据；3）确定高频率的SNP序列数据，提取出不含缺失值的序列数据作为标签序列；4）生成训练样本数据，将其作为神经网络模型的输入序列，通过不断优化神经网络模型的输出结果与标签序列的误差，实现神经网络模型中各参数的确...

【专利技术属性】
技术研发人员：张亮，笪蓉，谌德志，
申请(专利权)人：南京三强电子通信技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人