一种对多物种进行多核苷酸变异鉴定和注释的方法技术

技术编号:34110936 阅读:30 留言:0更新日期:2022-07-12 01:21
本发明专利技术公开了一种对多物种进行多核苷酸变异鉴定和注释的方法,根据已经定向好的数据集VCF,获得所有双点MNV为数据集TwoPointMNV;将数据集TwoPointMNV中所有鉴定到的双点MNV拆成单点为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF;鉴定7位点至2位点MNV,获得鉴定后的MNV并进行基于基因注释、基于非编码区注释和基于调控区注释。本发明专利技术支持大于双点的MNV的鉴定,不仅增加鉴定到的MNV的数量,而且也过滤掉原先被错误鉴定的MNV,有效对MNV进行注释。释。释。

【技术实现步骤摘要】
一种对多物种进行多核苷酸变异鉴定和注释的方法


[0001]本专利技术属于生物
,具体的说就是一种对多物种进行多核苷酸变异鉴定和注释的方法

技术介绍

[0002]近年来,很多国家先后投入大量资金启动精准医疗计划,人类已逐渐走进精准医疗时代。因此,解析不同个体遗传差异,是精准医疗实行的一个重要前提。随着技术发展,获得遗传信息的时间和成本大幅度降低,人类疾病研究中鉴定到了大量的多核苷酸变异(multi

nucleotide variants,MNVs)。MNV指个体中同一个单倍型上同时存在两个或两个以上的核苷酸变异,会导致蛋白质序列的改变,相较于单核苷酸变异(同一个单倍型上单点的核苷酸变异)可能具有更高的致害性。目前,MNV的鉴定还仅仅只涉及到双点MNV的鉴定,而且传统的遗传变异注释工具(数据库和软件)通常无法对大于双点的MNV进行注释。

技术实现思路

[0003]本专利技术是为了解决上述现有技术存在的不足之处,提供一种对多物种进行多核苷酸变异鉴定和注释的方法,不仅可以获得大于双点的MNV(至多可以鉴定到7个位点MNV),同时也对这些MNV进行功能的注释,方便科研工作者根据科研需求对鉴定和注释后的MNV数据进行筛选、探讨和研究。
[0004]本专利技术为了达到上述专利技术目的,采用如下技术方案:
[0005]一种对多物种进行多核苷酸变异鉴定和注释的方法,包括以下步骤:
[0006]步骤1、根据已经定向好的数据集VCF,获得所有双点MNV为数据集TwoPointMNV;
[0007]步骤2、将数据集TwoPointMNV中所有鉴定到的双点MNV拆成单点作为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF;
[0008]步骤3、将数据集SNV复制6份,分别记作第六副本数据集SNV7~第一副本数据集SNV2;
[0009]步骤4、鉴定7位点至2位点MNV,获得鉴定后的MNV。
[0010]如上所述的步骤4包括以下步骤:
[0011]步骤4.1、初始定义副本数据集序号n为6,初始定义位点组合序号m为n+1,初始定义组合合计次数号k为n+1;
[0012]步骤4.2、选用第n副本数据集SNV(n+1),以10bp宽度的窗口扫描第n副本数据集SNV(n+1)、枚举所有可能的m位点组合为数据集SNV(n+1)Sub;
[0013]步骤4.3、提取数据集SNV(n+1)Sub中第一个m位点组合;
[0014]步骤4.4、将该m位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:分别统计m位点组合中合计为m~2的次数;
[0015]步骤4.5、对统计结果进行判断:如果m位点组合合计为k的次数等于0,那么该m位点组合不是MNV,从数据集SNV(n+1)Sub中删除该m位点组合,提取数据集SNV(n+1)Sub中下
一个m位点组合并回到步骤4.4;如果m位点组合合计为k的次数大于0,那么该m位点组合为MNV,保留该m位点组合并追加MNV距离、检测到该MNV的单倍型数量和频率三个信息作为鉴定后的MNV;
[0016]步骤4.6、k自减1;
[0017]步骤4.7、如果m位点组合合计为k的次数大于0,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;
[0018]如果m位点组合合计为k的次数等于0,则删除第(k

1)副本SNV(k)中存在于m位点组合中的所有单点;
[0019]步骤4.8、k自减1,返回步骤4.7,直至k自减后等于1,进入步骤4.9;
[0020]步骤4.9、副本数据集序号n自减1,定义位点组合序号m为n+1,定义组合合计次数号k为n+1,返回步骤4.2,直至副本数据集序号n自减1后等于0。
[0021]一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
[0022]步骤5、将鉴定后的MNV作为数据集AllMNV;
[0023]步骤6、将数据集AllMNV与预先内置好的多核苷酸变异注释信息数据库进行匹配,输出基于基因注释的已知数据集MNVGeneKnow和未知数据集MNVGeneUnKnow、基于非编码区注释的已知数据集MNVNonKnow和未知数据集MNVNonUnKnow、以及基于调控区注释的已知数据集MNVRegKnow和未知数据集MNVRegUnKnow。
[0024]一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
[0025]步骤7、基于基因注释,具体包括:
[0026]步骤7.1、根据选择的物种的参考基因组注释文件和CDS序列文件进行数据集GeneAnno构建,对数据集GeneAnno中所有转录本进行分组,获得分组区段数据集GeneRange;
[0027]步骤7.2、将未知数据集MNVGeneUnKnow的MNV拆成单点为数据集SinglePoint;
[0028]步骤7.3、提取数据集SinglePoint中的第一个点;
[0029]步骤7.4、将数据集SinglePoint中提取的点在分组区段数据集GeneRange进行定位,确定这个点落在分组区段数据集GeneRange的分组区段从而获得落在该分组区段的所有转录本;
[0030]步骤7.5、对步骤7.4获得的分组区段的所有转录本进行遍历,确定步骤7.4中的点具体落在的转录本以及转录本的区段,将转录本名、对应的基因名、对应的基因常用名、落在转录本上的具体区段追加到数据集SinglePoint中提取的点后;
[0031]步骤7.6、提取数据集SinglePoint中的下一个点,返回步骤7.4,直至遍历数据集SinglePoint中所有点;
[0032]步骤7.7、提取未知数据集MNVGeneUnKnow中的第一个MNV,在数据集SinglePoint中提取MNV中单点的信息并整合到对应的未知数据集MNVGeneUnKnow中提取的MNV后,重复本步骤直至遍历提取未知数据集MNVGeneUnKnow中所有MNV;
[0033]步骤7.8、将上述的未知数据集MNVGeneUnKnow和已知数据集MNVGeneKnow合并输出为数据集MNVGene。
[0034]一种对多物种进行多核苷酸变异鉴定和注释的方法,还包括以下步骤:
[0035]步骤8、基于非编码区注释,具体包括:
[0036]步骤8.1、对选择的物种,整合非编码区注释和第三方的非编码区注释,获得数据集NoncodingAnno,将数据集NoncodingAnno中所有非编码区段进行分组,获得区段数据集NoncodingRange:
[0037]步骤8.2、提取未知数据集MNVNonUnKnow中的第一个MNV;
[0038]步骤8.3、将该MNV在区段数据集NoncodingRange中进行定位,确定M本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,包括以下步骤:步骤1、根据已经定向好的数据集VCF,获得所有双点MNV为数据集TwoPointMNV;步骤2、将数据集TwoPointMNV中所有鉴定到的双点MNV拆成单点作为数据集SNV,并根据数据集SNV从数据集VCF中获取单点的行信息作为数据集SNVInfoVCF;步骤3、将数据集SNV复制6份,分别记作第六副本数据集SNV7~第一副本数据集SNV2;步骤4、鉴定7位点至2位点MNV,获得鉴定后的MNV。2.根据权利要求1所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,所述的步骤4包括以下步骤:步骤4.1、初始定义副本数据集序号n为6,初始定义位点组合序号m为n+1,初始定义组合合计次数号k为n+1;步骤4.2、选用第n副本数据集SNV(n+1),以10bp宽度的窗口扫描第n副本数据集SNV(n+1)、枚举所有可能的m位点组合为数据集SNV(n+1)Sub;步骤4.3、提取数据集SNV(n+1)Sub中第一个m位点组合;步骤4.4、将该m位点组合拆成单点再从数据集SNVInfoVCF中获取单点的行信息并进行统计:分别统计m位点组合中合计为m~2的次数;步骤4.5、对统计结果进行判断:如果m位点组合合计为k的次数等于0,那么该m位点组合不是MNV,从数据集SNV(n+1)Sub中删除该m位点组合,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;如果m位点组合合计为k的次数大于0,那么该m位点组合为MNV,保留该m位点组合并追加MNV距离、检测到该MNV的单倍型数量和频率三个信息作为鉴定后的MNV;步骤4.6、k自减1;步骤4.7、如果m位点组合合计为k的次数大于0,提取数据集SNV(n+1)Sub中下一个m位点组合并回到步骤4.4;如果m位点组合合计为k的次数等于0,则删除第(k

1)副本SNV(k)中存在于m位点组合中的所有单点;步骤4.8、k自减1,返回步骤4.7,直至k自减后等于1,进入步骤4.9;步骤4.9、副本数据集序号n自减1,定义位点组合序号m为n+1,定义组合合计次数号k为n+1,返回步骤4.2,直至副本数据集序号n自减1后等于0。3.根据权利要求2所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:步骤5、将鉴定后的MNV作为数据集AllMNV;步骤6、将数据集AllMNV与预先内置好的多核苷酸变异注释信息数据库进行匹配,输出基于基因注释的已知数据集MNVGeneKnow和未知数据集MNVGeneUnKnow、基于非编码区注释的已知数据集MNVNonKnow和未知数据集MNVNonUnKnow、以及基于调控区注释的已知数据集MNVRegKnow和未知数据集MNVRegUnKnow。4.根据权利要求3所述的一种对多物种进行多核苷酸变异鉴定和注释的方法,其特征在于,还包括以下步骤:步骤7、基于基因注释,具体包括:步骤7.1、根据选择的物种的参考基因组注释文件和CDS序列文件进行数据集GeneAnno
构建,对数据集GeneAnno中所有转录本进行分组,获得分组区段数据集GeneRange;步骤7.2、将未知数据集MNVGeneUnKnow的MNV拆成单点为数据集SinglePoint;步骤7.3、提取数据集SinglePoint中的第一个点;步骤7.4、将数据集SinglePoint中提取的点在分组区段数据集GeneRange进行定位,确定这个点落在分组区段数据集GeneRange的分组区段从而获得...

【专利技术属性】
技术研发人员:龚静金炜炜蒋政曹文
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1