System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模式注释生成的基因突变预测方法技术_技高网
当前位置: 首页 > 专利查询>良渚实验室专利>正文

多模式注释生成的基因突变预测方法技术

技术编号:40297423 阅读:4 留言:0更新日期:2024-02-07 20:45
本发明专利技术涉及基因突变预测技术领域,公开了多模式注释生成的基因突变预测方法,具体过程包括将输入的单碱基突变位置信息进行突变种类注释获得包含突变种类的突变基本信息,然后使用ANNOVAR注释工具、SpliceAI剪接效应预测软件、功能效应数据库参考突变信息进行多维特征注释,将所获得的多维特征的突变数据集使用基于贝叶斯PCA进行填补注释数据,然后使用自动工程特征列表和分离特征选择列表进行特征组合和筛选,经过梯度生成树算法后获得基因突变的预测分数。本发明专利技术可以用于预测所有非同义外显子突变,在分类罕见良性突变方面具有良好的性能,从大量候选突变中识别少量致病概率较高突变。

【技术实现步骤摘要】

本专利技术涉及基因突变预测,具体是多模式注释生成的基因突变预测方法


技术介绍

1、全基因组测序(wgs)和全外显子组测序(wes)数据的快速积累导致了大量病理性和非病理性遗传突变的发现。为了帮助评估和理解这些突变,世界上已经有研究机构建立了人群数据库,如gnomad、exac和chinamap等。此外,遗传疾病数据库,如clinvar、omim、hgmd,也积累了大量已知病理性或良性遗传突变的信息。这些数据库已被广泛用作孟德尔遗传病的遗传诊断参考。

2、已知导致孟德尔遗传病的病理性突变通过各种生物学机制发挥作用,因此在不同方面有广泛的分类和研究。例如,基于蛋白质序列改变的外显子突变被分类为同义突变、错义突变、终止突变、终止缺失、移码突变等。同义突变不改变蛋白质序列,而错义突变导致编码不同的氨基酸。由于与错义突变相关的蛋白质序列变化可能具有病理性,各种研究已经集中于预测错义突变的病理影响。另一方面,一些突变在rna水平上通过剪接改变具有病理性,这些突变通常位于剪接供体、受体和内含子区域。因此,剪接突变也被考虑用于突变的病理评估。然而,在使用全外显子测序数据进行实际遗传诊断时,应同时考虑不同类型的突变和机制,以识别病理性突变。随着机器学习(ml)和深度学习(dl)的发展,许多使用ml或dl的计算方法已被开发用于预测突变破坏或病理性。

3、上述领域中一些算法考虑从多重维度获得的集成特征,并在现有致病性预测的基础上构建。例如,mutpred2(mutation predictor 2,突变预测器)[1]和revel(rare exomevariant ensemble learner,罕见外显子突变集成学习)[2]。mutpred2的输入是一个氨基酸序列s,即一个野生型蛋白质序列,和一个氨基酸替换xiy,其中x是s中的第i个氨基酸,被y替换。我们将突变(mt)序列称为sxiy。mutpred2使用hgmd(human gene mutation database,人类基因突变数据库),swissprot,dbsnp作为训练集。对于给定的一个序列s和变体xiy,mutpred2提取了1345个特征(包括20个可选特征)。这些特征被分成六组:(1)基于序列的特征,(2)基于氨基酸替代的特征,(3)基于pssm(position-specific scoring matrix,位置特异性评分矩阵)的特征,(4)基于保守性的特征,(5)同源蛋白质特征(由于计算时间需要,可选),以及(6)预测结构和功能性质的变化。mutpred2使用双样本t检验进行特征选择,只保留返回p值<0.01的特征。为了去除(近似)共线性特征,对所选特征进行z-score标准化和主成分分析,保留方差设置为99%。然后,在得到的特征矩阵上训练了30个前馈神经网络的集合。每个网络由一个具有四个神经元和一个输出神经元的隐藏层组成(两个层都使用tanh激活函数)。采用bagging方法进行训练,每个网络在原始训练集的平衡随机样本上有放回地进行训练。为了确定训练所需的迭代次数,mutpred2将25%的训练数据保留为验证集。最终模型使用resilient propagation算法进行训练,并在达到最佳迭代次数、完成1000轮或达到500个检查点时停止。然后计算预测得分为所有30个验证检查输出得分的平均值。mutpred2的输出包括一个取值范围在[0,1]之间的致病性评分,以及可能受到xiy影响的分子机制评分列表。致病性评分为1表示突变几乎肯定是致病的,而评分为0表示突变几乎肯定是良性的。

4、revel是nilah等人提出的一种方法。revel的训练集来自hgmd,esp(exomesequencing project,外显子测序计划)和kgp(1000genomes project,千人基因组计划)。revel将来自13个工具的18个致病性预测分数作为预测特征进行整合。其中包括10个功能预测分数(mutpred、provean、sift、polyphen-2 hvar&hdiv、lrt、mutationtaster、mutationassessor、fathmm v2.3和vest 3.0)以及8个保守性分数(gerp++、siphy、灵长类、脊椎动物、哺乳动物的phylop和phastcons分数)。revel对于缺失的特征值使用r软件包中实现的k最近邻方法进行插补。对于给定的突变,缺失的特征值被赋予其k个最近邻突变的非缺失特征值的平均值;当给定突变的超过50%的特征值缺失时,将每个缺失的特征值赋予其在所有突变中的整体平均值。最后revel使用包含1,000个二元分类树的随机森林算法进行训练

5、尽管现有的突变致病性预测算法被广泛使用,采用了截止各自发表时最先进的技术进行开发,但它们大多只适用于特定类型突变或依赖于已经发表的突变致病性预测工具的分数作为先验知识,在实际预测任务中有某些类型遗传突变的致病性无法预测。


技术实现思路

1、本专利技术要解决的技术问题是提供多模式注释生成的基因突变预测方法,用于预测所有非同义外显子突变。

2、为解决上述技术问题,本专利技术提供多模式注释生成的基因突变预测方法,过程包括将输入的单碱基突变位置信息进行突变类型注释获得包含突变种类的突变基本信息,然后进行多维特征注释获得包含注释结果的多维特征的突变数据集,再使用基于贝叶斯pca对包含注释结果的多维特征的突变数据集进行填补注释数据的操作,然后使用自动工程特征列表对基于贝叶斯pca填补的注释数据进行特征生成,再使用分离特征选择列表进行数据筛选,将所获得的包含所有筛选特征后的突变数据集经过梯度生成树算法后获得基因突变的预测分数。

3、作为本专利技术的多模式注释生成的基因突变预测方法的改进:

4、所述突变类型注释为使用refgene数据库进行进行突变类型注释;

5、所述多为特征注释包括使用annovar注释工具、spliceai剪接效应预测软件、功能效应数据库参考突变信息进行注释。

6、作为本专利技术的多模式注释生成的基因突变预测方法的进一步改进:

7、所述annovar注释工具为对于基于人群的特征、氨基酸的生化特性改变特征和保守性分数特征进行注释:

8、对于基于人群的特征,包括检索各种人群中的等位基因频率:全外显子(af)、原始等位基因频率(af_raw)、非洲人(af_afr)、拉丁美洲人/混血美洲人(af_amr)、阿什肯纳兹犹太人(af_asj)、东亚人(af_eas)、芬兰人(af_fin)、非芬兰欧洲人(af_nfe)和其他人群(af_oth),还从注释信息中获取不同性别的等位基因频率;

9、对于氨基酸的生化特性改变特征首先检查突变是否导致氨基酸变化,如果没有,将所有相关特征设为0;

10、将每个氨基酸的物理化学性质存储在一个矩阵中,通过查询矩阵获取氨基酸的相应属性,并将突变前后的属性差作为突变的特征;当一个突变影响多个本文档来自技高网...

【技术保护点】

1.多模式注释生成的基因突变预测方法,其特征在于:过程包括将输入的单碱基突变位置信息进行突变类型注释获得包含突变种类的突变基本信息,然后进行多维特征注释获得包含注释结果的多维特征的突变数据集,再使用基于贝叶斯PCA对包含注释结果的多维特征的突变数据集进行填补注释数据的操作,然后使用自动特征工程特征列表对基于贝叶斯PCA填补的注释数据进行特征生成,再使用分离特征选择列表进行数据筛选,将所获得的包含所有筛选特征后的突变数据集经过梯度生成树算法后获得基因突变的预测分数。

2.根据权利要求1所述的多模式注释生成的基因突变预测方法,其特征在于:

3.根据权利要求2所述的多模式注释生成的基因突变预测方法,其特征在于:

4.根据权利要求3所述的多模式注释生成的基因突变预测方法,其特征在于:

5.根据权利要求4所述的多模式注释生成的基因突变预测方法,其特征在于:

6.根据权利要求5所述的多模式注释生成的基因突变预测方法,其特征在于:

7.根据权利要求6所述的多模式注释生成的基因突变预测方法,其特征在于:

8.根据权利要求7所述的多模式注释生成的基因突变预测方法,其特征在于:

9.根据权利要求8所述的多模式注释生成的基因突变预测方法,其特征在于:

10.根据权利要求9所述的多模式注释生成的基因突变预测方法,其特征在于:

...

【技术特征摘要】

1.多模式注释生成的基因突变预测方法,其特征在于:过程包括将输入的单碱基突变位置信息进行突变类型注释获得包含突变种类的突变基本信息,然后进行多维特征注释获得包含注释结果的多维特征的突变数据集,再使用基于贝叶斯pca对包含注释结果的多维特征的突变数据集进行填补注释数据的操作,然后使用自动特征工程特征列表对基于贝叶斯pca填补的注释数据进行特征生成,再使用分离特征选择列表进行数据筛选,将所获得的包含所有筛选特征后的突变数据集经过梯度生成树算法后获得基因突变的预测分数。

2.根据权利要求1所述的多模式注释生成的基因突变预测方法,其特征在于:

3.根据权利要求2所述的多模式注释生成的基因突变...

【专利技术属性】
技术研发人员:沈宁伍赛刘逸程
申请(专利权)人:良渚实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1