一种面向同义突变数据的筛选方法技术

技术编号：40753369 阅读：4 留言：0更新日期：2024-03-25 20:08

本发明专利技术涉及基因数据分析技术领域，为高质量同义突变数据集的构建提出了一种新的方法，尤其涉及一种面向同义突变数据的筛选方法，该方法包括以下步骤：S1、从公开的数据库中获取不同的同义突变数据构成数据集，公开的数据库包括但不限于HGMD数据库、ClinVar数据库和VariSNP数据库；S2、对数据集进行预处理，并将数据集中的致病同义突变数据按照比例划分为训练集和测试集；S3、使用CD‑HIT‑2D去除训练集与测试集之间数据的相似性。本发明专利技术旨在提供一种有效的方法，用于获取生物信息中的同义突变数据，从而构建出高质量的同义突变数据集，以帮助了解基因变异的功能影响。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基因数据分析，尤其涉及一种面向同义突变数据的筛选方法。

技术介绍

1、由于同义突变不会改变翻译后得到的蛋白质序列，绝大多数同义突变通常被认为是中性的，而非有害的。这一认知贯穿了很多疾病机制、种群和保护生物学，以及进化生物学的研究。但随着测序技术的发展和人们对基因表达过程研究的深入，从大量研究中发现同义突变在各种复杂人类疾病中起着重要作用，甚至有些同义突变是显著有害的。

2、同义突变的致病性使得我们对其的研究变得有重大意义。数据获取这一步在整个研究中至关重要，在机器学习中有句名言叫：输出的质量取决于输入的质量。因此创建一个高质量的数据集能够使我们的实验更具说服力。不同的科研项目的研究侧重点不一样，这样所选择的数据库就会有所不同。现在对于同义突变数据的筛选方式并没有一个统一的标准，不同的研究者根据自己的经验与理论对自己所需要的数据进行筛选，因此导致所构建的同义突变数据集的质量参差不齐，进而影响实验结果的准确性。

技术实现思路

1、针对现在同义突变数据筛选方式的不足，本专利技术提供了一种面向同义突变数据的筛选方法，为高质量同义突变数据集的构建提出了一种新的方法。

2、为解决上述技术问题，本专利技术提供了如下技术方案：一种面向同义突变数据的筛选方法，该方法包括以下步骤：

3、s1、从公开的数据库中获取不同的同义突变数据构成数据集，公开的数据库包括但不限于hgmd数据库、clinvar数据库和varisnp数据库；

4、s2、对数

5、s3、使用cd-hit-2d去除训练集与测试集之间数据的相似性，使训练集与测试集之间的同义突变数据对应的蛋白质序列相似性低于40％；

6、s4、确保选择的同义突变数据所在的基因上至少有一个致病性同义突变和一个中性同义突变；

7、s5、使用close-by的方式构建包含所筛选出同义突变数据的平衡数据集。

8、进一步地，在步骤s1中，获取不同的同义突变数据包括：

9、从hgmd数据库中获取致病同义突变数据；

10、从varisnp数据库中获取中性同义突变数据；

11、以及从clinvar获取致病同义突变与中性同义突变数据。

12、进一步地，在步骤s2中，具体过程包括以下步骤：

13、s21、去除数据集中的冗余数据，即删除不同数据库中重复出现的突变数据；

14、s22、删除数据集中被ensembl vep注释为非同义突变的数据；

15、s23、按照4：1的比例将致病同义突变数据划分为训练集和测试集。

16、进一步地，在步骤s21中，冗余数据包括：hgmd、varisnp和clinvar数据库内部重复的数据只保留一条，以及去除hgmd、varisnp、clinvar这三个数据库之间重复的数据。

17、进一步地，在步骤s21中，不同数据库内部与数据库之间去重的依据是：染色体号、染色体上的位置、突变前的碱基以及突变后的碱基。

18、进一步地，在步骤s22中，具体过程包括以下步骤：

19、s221、将数据集中需要进行vep注释的排列数据按照从前到后依次进行整理，排列数据为：chorm、pos、id、ref、alt、qual、filter、info；

20、s222、按照染色体号以及染色体上的位置分别对vep注释和未被注释的两列数据进行从小到大的排列；

21、s223、使用ensembl vep中的指令对规范的vcf数据进行注释；

22、s224、删除经过ensembl vep注释的同义突变数据但结果出现非同义突变的数据。

23、进一步地，在步骤s3中，具体过程包括以下步骤：

24、s31、根据致病同义突变数据的转录本号获取对应的蛋白质序列；主要目的是从ncbi的refseq数据库中获取特定转录本的蛋白质序列；

25、s32、将获取的蛋白质序列转换为cd-hit-2d所需要的fasta格式；

26、s33、使用cd-hit-2d，阈值设为40％，得到一个训练集与测试集间相似性去除后的clstr结果文件；

27、s34、分析clstr结果文件，将测试集中与训练集间相似性高于40％的同义突变数据都移到训练集中，并随机从训练集中选择部分同义突变数据移到测试集中。

28、进一步地，在步骤s31中，获取蛋白质序列的方式是使用python的entrez模块中的nuccore数据库与转录本号进行匹配进而获得蛋白质序列。

29、进一步地，在步骤s34中，clstr结果文件中将同义突变数据对应的蛋白质序列分为三类，分别为：

30、第一类数据是训练集与测试集之间的蛋白质序列相似性高于40％的蛋白质序列；

31、第二类数据是训练集与测试集之间的蛋白质序列相似性低于40％并且只属于训练集的蛋白质序列；

32、第三类是训练集与测试集之间的蛋白质序列相似性低于40％并且只属于测试集的蛋白质序列。

33、进一步地，在步骤s4中，具体过程包括以下步骤：

34、s41、将致病同义突变数据与中性同义突变数据所在的基因分别放在两个集合中；

35、s42、遍历致病同义突变数据，并判断数据所在的基因是否也出现在中性同义突变数据对应的基因集合中；

36、若是，则保留该条数据；

37、若否，则删除该条数据；

38、s43、遍历中性同义突变数据，并判断数据所在的基因是否也出现在致病同义突变数据对应的基因集合中；

39、若是，则保留该条数据；

40、若否，则删除该条数据。

41、借由上述技术方案，本专利技术提供了一种面向同义突变数据的筛选方法，至少具备以下有益效果：

42、1、本专利技术旨在提供一种有效的方法，用于获取生物信息中的同义突变数据，从而构建出高质量的同义突变数据集，以帮助了解基因变异的功能影响。

43、2、本专利技术使用cd-hit-2d找出训练集与测试集之间相似性高于40％的蛋白质序列，解决了由于相似性高而造成的模型误以为是训练集的数据的技术问题，并将测试集中相似性高于40％的数据全部移到训练集中，然后随机将部分训练集中蛋白质序列相似性低于40％的数据移到测试集中，用以保持训练集与测试集之间的比例维持在4:1，维持了数据集经筛选后的平衡性。

44、3、本专利技术能够构建更高质量的数据集，确保的确是模型学习到了致病同义突变与中性同义突变之间的区别，进而将它们区分开来，而不是学习到基因的相关特征而将它们区分开来。

本文档来自技高网...

【技术保护点】

1.一种面向同义突变数据的筛选方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的筛选方法，其特征在于，在步骤S1中，获取不同的同义突变数据包括：

3.根据权利要求1所述的筛选方法，其特征在于，在步骤S2中，具体过程包括以下步骤：

4.根据权利要求3所述的筛选方法，其特征在于，在步骤S21中，冗余数据包括：HGMD、VariSNP和ClinVar数据库内部重复的数据只保留一条，以及去除HGMD、VariSNP、ClinVar这三个数据库之间重复的数据。

5.根据权利要求3所述的筛选方法，其特征在于，在步骤S21中，不同数据库内部与数据库之间去重的依据是：染色体号、染色体上的位置、突变前的碱基以及突变后的碱基。

6.根据权利要求3所述的筛选方法，其特征在于，在步骤S22中，具体过程包括以下步骤：

7.根据权利要求1所述的筛选方法，其特征在于，在步骤S3中，具体过程包括以下步骤：

8.根据权利要求7所述的筛选方法，其特征在于，在步骤S31中，获取蛋白质序列的方式是使用python的Entr

9.根据权利要求7所述的筛选方法，其特征在于，在步骤S34中，clstr结果文件中将同义突变数据对应的蛋白质序列分为三类，分别为：

10.根据权利要求1所述的筛选方法，其特征在于，在步骤S4中，具体过程包括以下步骤：

...

【技术特征摘要】

1.一种面向同义突变数据的筛选方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的筛选方法，其特征在于，在步骤s1中，获取不同的同义突变数据包括：

3.根据权利要求1所述的筛选方法，其特征在于，在步骤s2中，具体过程包括以下步骤：

4.根据权利要求3所述的筛选方法，其特征在于，在步骤s21中，冗余数据包括：hgmd、varisnp和clinvar数据库内部重复的数据只保留一条，以及去除hgmd、varisnp、clinvar这三个数据库之间重复的数据。

5.根据权利要求3所述的筛选方法，其特征在于，在步骤s21中，不同数据库内部与数据库之间去重的依据是：染色体号、染色体上的位置、突变前的...

【专利技术属性】
技术研发人员：夏俊峰，丰阿想，金芳芳，
申请(专利权)人：安徽大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人