多模式注释生成的基因突变预测方法技术

技术编号：40297423 阅读：4 留言：0更新日期：2024-02-07 20:45

本发明专利技术涉及基因突变预测技术领域，公开了多模式注释生成的基因突变预测方法，具体过程包括将输入的单碱基突变位置信息进行突变种类注释获得包含突变种类的突变基本信息，然后使用ANNOVAR注释工具、SpliceAI剪接效应预测软件、功能效应数据库参考突变信息进行多维特征注释，将所获得的多维特征的突变数据集使用基于贝叶斯PCA进行填补注释数据，然后使用自动工程特征列表和分离特征选择列表进行特征组合和筛选，经过梯度生成树算法后获得基因突变的预测分数。本发明专利技术可以用于预测所有非同义外显子突变，在分类罕见良性突变方面具有良好的性能，从大量候选突变中识别少量致病概率较高突变。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及基因突变预测，具体是多模式注释生成的基因突变预测方法。

技术介绍

1、全基因组测序(wgs)和全外显子组测序(wes)数据的快速积累导致了大量病理性和非病理性遗传突变的发现。为了帮助评估和理解这些突变，世界上已经有研究机构建立了人群数据库，如gnomad、exac和chinamap等。此外，遗传疾病数据库，如clinvar、omim、hgmd，也积累了大量已知病理性或良性遗传突变的信息。这些数据库已被广泛用作孟德尔遗传病的遗传诊断参考。

2、已知导致孟德尔遗传病的病理性突变通过各种生物学机制发挥作用，因此在不同方面有广泛的分类和研究。例如，基于蛋白质序列改变的外显子突变被分类为同义突变、错义突变、终止突变、终止缺失、移码突变等。同义突变不改变蛋白质序列，而错义突变导致编码不同的氨基酸。由于与错义突变相关的蛋白质序列变化可能具有病理性，各种研究已经集中于预测错义突变的病理影响。另一方面，一些突变在rna水平上通过剪接改变具有病理性，这些突变通常位于剪接供体、受体和内含子区域。因此，剪接突变也被考虑用于突变的病理评估。然而，在使用全外显子测序数据进行实际遗传诊断时，应同时考虑不同类型的突变和机制，以识别病理性突变。随着机器学习(ml)和深度学习(dl)的发展，许多使用ml或dl的计算方法已被开发用于预测突变破坏或病理性。

3、上述领域中一些算法考虑从多重维度获得的集成特征，并在现有致病性预测的基础上构建。例如，mutpred2(mutation predictor 2，突变预测器)[1]和rev

4、revel是nilah等人提出的一种方法。revel的训练集来自hgmd，esp(exomesequencing project，外显子测序计划)和kgp(1000genomes project，千人基因组计划)。revel将来自13个工具的18个致病性预测分数作为预测特征进行整合。其中包括10个功能预测分数(mutpred、provean、sift、polyphen-2 hvar&hdiv、lrt、mutationtaster、mutationassessor、fathmm v2.3和vest 3.0)以及8个保守性分数(gerp++、siphy、灵长类、脊椎动物、哺乳动物的phylop和phastcons分数)。revel对于缺失的特征值使用r软件包中实现的k最近邻方法进行插补。对于给定的突变，缺失的特征值被赋予其k个最近邻突变的非缺失特征值的平均值；当给定突变的超过50％的特征值缺失时，将每个缺失的特征值赋予其在所有突变中的整体平均值。最后revel使用包含1,000个二元分类树的随机森林算法进行训练

5、尽管现有的突变致病性预测算法被广泛使用，采用了截止各自发表时最先进的技术进行开发，但它们大多只适用于特定类型突变或依赖于已经发表的突变致病性预测工具的分数作为先验知识，在实际预测任务中有某些类型遗传突变的致病性无法预测。

技术实现思路

1、本专利技术要解决的技术问题是提供多模式注释生成的基因突变预测方法，用于预测所有非同义外显子突变。

2、为解决上述技术问题，本专利技术提供多模式注释生成的基因突变预测方法，过程包括将输入的单碱基突变位置信息进行突变类型注释获得包含突变种类的突变基本信息，然后进行多维特征注释获得包含注释结果的多维特征的突变数据集，再使用基于贝叶斯pca对包含注释结果的多维特征的突变数据集进行填补注释数据的操作，然后使用自动工程特征列表对基于贝叶斯pca填补的注释数据进行特征生成，再使用分离特征选择列表进行数据筛选，将所获得的包含所有筛选特征后的突变数据集经过梯度生成树算法后获得基因突变的预测分数。

3、作为本专利技术的多模式注释生成的基因突变预测方法的改进：

4、所述突变类型注释为使用refgene数据库进行进行突变类型注释；

5、所述多为特征注释包括使用annovar注释工具、spliceai剪接效应预测软件、功能效应数据库参考突变信息进行注释。

6、作为本专利技术的多模式注释生成的基因突变预测方法的进一步改进：

7、所述annovar注释工具为对于基于人群的特征、氨基酸的生化特性改变特征和保守性分数特征进行注释：

8、对于基于人群的特征，包括检索各种人群中的等位基因频率：全外显子(af)、原始等位基因频率(af_raw)、非洲人(af_afr)、拉丁美洲人/混血美洲人(af_amr)、阿什肯纳兹犹太人(af_asj)、东亚人(af_eas)、芬兰人(af_fin)、非芬兰欧洲人(af_nfe)和其他人群(af_oth)，还从注释信息中获取不同性别的等位基因频率；

9、对于氨基酸的生化特性改变特征首先检查突变是否导致氨基酸变化，如果没有，将所有相关特征设为0；

10、将每个氨基酸的物理化学性质存储在一个矩阵中，通过查询矩阵获取氨基酸的相应属性，并将突变前后的属性差作为突变的特征；当一个突变影响多个本文档来自技高网...

【技术保护点】

1.多模式注释生成的基因突变预测方法，其特征在于：过程包括将输入的单碱基突变位置信息进行突变类型注释获得包含突变种类的突变基本信息，然后进行多维特征注释获得包含注释结果的多维特征的突变数据集，再使用基于贝叶斯PCA对包含注释结果的多维特征的突变数据集进行填补注释数据的操作，然后使用自动特征工程特征列表对基于贝叶斯PCA填补的注释数据进行特征生成，再使用分离特征选择列表进行数据筛选，将所获得的包含所有筛选特征后的突变数据集经过梯度生成树算法后获得基因突变的预测分数。

2.根据权利要求1所述的多模式注释生成的基因突变预测方法，其特征在于：

3.根据权利要求2所述的多模式注释生成的基因突变预测方法，其特征在于：

4.根据权利要求3所述的多模式注释生成的基因突变预测方法，其特征在于：

5.根据权利要求4所述的多模式注释生成的基因突变预测方法，其特征在于：

6.根据权利要求5所述的多模式注释生成的基因突变预测方法，其特征在于：

7.根据权利要求6所述的多模式注释生成的基因突变预测方法，其特征在于：

8.根据

9.根据权利要求8所述的多模式注释生成的基因突变预测方法，其特征在于：

10.根据权利要求9所述的多模式注释生成的基因突变预测方法，其特征在于：

...

【技术特征摘要】

1.多模式注释生成的基因突变预测方法，其特征在于：过程包括将输入的单碱基突变位置信息进行突变类型注释获得包含突变种类的突变基本信息，然后进行多维特征注释获得包含注释结果的多维特征的突变数据集，再使用基于贝叶斯pca对包含注释结果的多维特征的突变数据集进行填补注释数据的操作，然后使用自动特征工程特征列表对基于贝叶斯pca填补的注释数据进行特征生成，再使用分离特征选择列表进行数据筛选，将所获得的包含所有筛选特征后的突变数据集经过梯度生成树算法后获得基因突变的预测分数。

2.根据权利要求1所述的多模式注释生成的基因突变预测方法，其特征在于：

3.根据权利要求2所述的多模式注释生成的基因突变...

【专利技术属性】
技术研发人员：沈宁，伍赛，刘逸程，
申请(专利权)人：良渚实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人