【技术实现步骤摘要】
SNP序列的填充方法、系统及终端
[0001]本专利技术涉及SNP序列处理领域,特别是涉及一种SNP序列的填充方法、系统及终端。
技术介绍
[0002]单核苷酸多态性(SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每1000个碱基对中就有1个,其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP对群体遗传学、制药业、法医学、癌症及遗传性疾病甚至进化的研究都将产生不可估量的影响。但是现在缺少一种自动且保证高精确率的SNP序列的填充方法。
技术实现思路
[0003]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种SNP序列的填充方法、系统及终端,用于解决用于解决现有技术中以上技术问题。
[0004]为实现上述目的及其他相关目的,本专利技术提供一种SNP序列的填充方法,所述方法包括:获取版本号为GRCh38的 ...
【技术保护点】
【技术特征摘要】
1.一种SNP序列的填充方法,其特征在于,所述方法包括:获取版本号为GRCh38的人类全基因组参考序列文件以及染色体变异文件;基于所述人类全基因组参考序列文件,对所述染色体变异文件进行预处理,以获得序列填充训练样本数据;利用所述序列填充训练样本数据训练神经网络模型,获得序列填充模型;将待填充的SNP序列数据输入所述序列填充模型,获得对应的SNP序列填充数据。2.根据权利要求1中所述的SNP序列的填充方法,其特征在于,所述人类全基因组参考序列文件包括:24个染色体分别所对应的全基因组参考序列数据;所述染色体变异文件包括:24个染色体分别所对应的染色体变异样本数据;其中,每个染色体变异样本数据包括:多个变异位点分别所对应的位点变异数据;并且其中,每个位点变异数据包括:该变异位点所对应的索引位置、REF碱基、ALT碱基以及变异位点样本数据。3.根据权利要求2中所述的SNP序列的填充方法,其特征在于,所述基于所述人类全基因组参考序列文件,对所述染色体变异文件进行预处理,以获得序列填充训练样本数据包括:获取对应同一染色体的全基因组参考序列数据以及染色体变异样本数据;基于各全基因组参考序列数据,分别对与其同一染色体的染色体变异样本数据进行碱基位置索引确定,并获得对应各染色体的染色体变异初步处理数据;分别筛选各染色体变异初步处理数据中的一或多个变异位点作为SNP位点,并从各染色体变异初步处理数据中获取各自对应的各SNP位点的变异位点样本数据,以获得对应该染色体变异初步处理数据的各SNP位点的多个染色体变异样本分别所对应的样本位点变异数据;其中,所述样本位点变异数据包括:表示当前SNP位点是否变异的样本位点变异表示值;每个染色体变异初步处理数据的各SNP位点所对应的染色体变异样本相同;分别统计各染色体变异初步处理数据中各SNP位点变异的样本频数,并基于预设频数阈值筛选各染色体变异初步处理数据中一或多个SNP位点,并利用筛选的各SNP位点的各染色体变异样本分别所对应的样本位点变异表示值构成对应各染色体的染色体变异样本矩阵;基于定义的SNP位点缺失率确定每个染色体变异样本矩阵所对应的SNP位点缺失个数,并生成对应各染色体变异样本矩阵的多个对应缺失对应SNP位点缺失个数的SNP位点的丢失SNP位点染色体变异样本矩阵,以构成对应各染色体的表征训练样本数据矩阵。4.根据权利要求3中所述的SNP序列的填充方法,其特征在于,所述基于各全基因组参考序列数据,分别对与其同一染色体的染色体变异样本数据进行碱基位置索引确定,并获得对应各染色体的染色体变异初步处理数据包括:将每个全基因组参考序列数据的索引位置为第一索引位置以及第二索引位置的碱基分别与对应的染色体变异样本数据中索引位置为第一索引位置以及第二索引位置的变异位点的REF碱基对比;若均一致,则将该染色体变异样本数据作为染色体变异初步处理数据;若不全一致,则将该染色体变异样本数据中碱基不一致的索引位置的变异位点的位点变异数据忽略,以获得染色体变异初步处理数据。5.根据权利要求3中所述的SNP序列的填充方法,其特征在于,所述分别筛选各染色体
变异初步处理数据中的一或多个变异位点作为SNP位点,并从各染色体变异初步处理数据中获取各自对应的各SNP位点的变异位点样本数据,以获得对应该染色体变异初步处理数据的各SNP位点的多个染色体变异样本分别所对应的样本位点变异数据包括:遍历每个染色体变异...
【专利技术属性】
技术研发人员:陆思彤,雷俊卿,
申请(专利权)人:上海飞瀑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。