一种基于深度学习的基因错义突变致病性预测系统技术方案

技术编号：40603581 阅读：2 留言：0更新日期：2024-03-12 22:08

本发明专利技术公开了一种基于深度学习的基因错义突变致病性预测系统，包括，数据加载模块，用于加载蛋白质高质量多序列比对数据；数据预处理模块，用于对蛋白质高质量多序列比对数据进行预处理；训练模块，基于改进生成对抗网络学习每个蛋白质的氨基酸序列分布，捕获蛋白质的氨基酸序列的突变信息，学习其中突变的约束条件以及空间上的复杂依赖性，得到训练好的改进生成对抗网络；计算单点氨基酸突变相对可能性指数模块，用于计算所有单点氨基酸突变相对野生型氨基酸的相对可能性指数；致病性预测模块，将突变分为良性、不确定和致病，并提供单点氨基酸突变得分来解释基因错义突变致病性。本发明专利技术提供基因错义突变致病性的分类结果及其可解释性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习和生物医学的，尤其是指一种基于深度学习的基因错义突变致病性预测系统。

技术介绍

1、在现代精准医疗中，基因错义突变扮演着至关重要的角色，涵盖了疾病机制研究、临床诊断、药物设计以及个性化治疗等多个领域。然而，并非所有的基因错义突变都表现出致病性，有些变异对蛋白质功能的影响较小，甚至在临床表现上呈现良性。由于对功能影响的不确定性，许多在临床基因检测中发现的错义突变都被划归为“不确定性”。这种分类的不确定性可能导致精准医疗中临床诊断的不确定性，过度治疗，甚至错失临床干预的良机，进而带来不良后果。因此，对于基因错义突变的准确预测成为亟待解决的研究课题。

2、然而，在基因错义突变准确预测领域仍然存在一些挑战。目前的方法主要依赖于已知疾病标签，其中大多数是基于监督学习的。然而，对标签的高要求使得网络的性能容易受到标签数据的稀疏性、有偏差性和质量可变性的影响。这一问题可能导致网络在处理未标签数据时表现不佳，特别是在面对罕见疾病或新发现的基因错义突变时。此外，收集有标签的数据成本昂贵，这限制了数据规模的扩大，使得训练数据的数量相对较小，可能导致网络过度拟合已有数据，难以泛化到新的数据集。

技术实现思路

1、本专利技术的目的在于克服现有技术的缺点与不足，提出了一种基于深度学习的基因错义突变致病性预测系统，采用无监督学习的方式，突破传统基因错义突变致病性预测系统过度依赖已知的疾病标签的弊端，避免标签稀疏、偏差和质量不一的问题，从而增强疾病的智能诊断能力，同时，蛋白质高

2、为实现上述目的，本专利技术所提供的技术方案为：一种基于深度学习的基因错义突变致病性预测系统，包括：

3、数据加载模块，用于加载蛋白质高质量多序列比对数据；

4、数据预处理模块，用于对蛋白质高质量多序列比对数据进行预处理，得到蛋白质高质量多序列比对数据对应的野生型氨基酸、蛋白质序列独热编码数据以及每个氨基酸可能有效的单点氨基酸突变数据，其中蛋白质序列独热编码数据需要计算权重，用于提高改进生成对抗网络对关键序列的关注以及改进生成对抗网络泛化能力；

5、训练模块，基于改进生成对抗网络从蛋白质序列独热编码数据学习每个蛋白质的氨基酸序列分布，捕获蛋白质的氨基酸序列的突变信息，学习其中突变的约束条件以及空间上的复杂依赖性，最终得到训练好的改进生成对抗网络；其中，该改进生成对抗网络是对传统生成对抗网络的生成模块和判别模块进行改进；对生成模块的改进是：引入一对变分自动编码器，其中一个变分自动编码器与生成器平行，另一个变分自动编码器引入在生成器生成的数据之后；对判别模块的改进是：将原来的单一判别器改成两个判别器，其中一个判别器接收生成数据与原始数据，另一个判别器接收原始数据经过变分自动编码器输出的数据和生成数据经过另一个变分自动编码器输出的数据；

6、计算单点氨基酸突变相对可能性指数模块，利用训练好的改进生成对抗网络学习每个蛋白质的氨基酸序列分布，构建蛋白质突变预测矩阵，用于计算所有单点氨基酸突变相对野生型氨基酸的相对可能性指数；

7、致病性预测模块，通过在单点氨基酸突变的相对可能性指数分布上引入高斯混合模型，并应用变分贝叶斯估计进行拟合，以提升致病性预测的准确性；其中，该致病性预测模块将突变分为三个关键类别，分别为良性、不确定和致病，并提供单点氨基酸突变得分来解释基因错义突变致病性。

8、进一步，所述数据加载模块使用deepmsa获取蛋白质高质量多序列比对数据，格式为a2m，其中，对于蛋白质单体，通过dmsa、qmsa和mmsa三个迭代msa搜索流程，涵盖全基因组和宏基因组数据库，随后利用折叠模型对msa进行评分和排序；对于蛋白质多体，通过将组分链的单体msa配对生成一系列混合msa，然后根据msa深度和单体链折叠得分的组合评分选择最优多体msa，其中蛋白质高质量多序列比对数据包括蛋白质序列名称、蛋白质焦点序列和蛋白质序列数据，蛋白质序列数据和蛋白质焦点序列可能来自同一家族、同一亚型或不同物种。

9、进一步，所述数据预处理模块执行以下操作：

10、生成野生型氨基酸：对蛋白质焦点序列进行独热编码，根据氨基酸字母的转换生成野生型氨基酸；

11、生成独热编码数据：将蛋白质高质量多序列比对数据中蛋白质序列名称与蛋白质序列数据建立映射关系，然后针对每一个蛋白质序列数据进行以下处理：将缺失字符替换为短划线、删除野生型氨基酸中的缺失位点对应的列、识别蛋白质序列数据中含有过多缺失位点的片段、识别焦点列、将非焦点列转为小写和过滤片段序列，预处理后的蛋白质序列数据根据氨基酸字母转换为对应的蛋白质序列独热编码数据，通过计算每个蛋白质序列独热编码数据非空位置的数量和相似性，并针对相似性进行筛选，生成权重值，相似性越大，则权重值越大，这有助于强调那些在任务中更为关键的蛋白质序列特征；

12、生成单点氨基酸突变数据：遍历蛋白质焦点序列中每个氨基酸字母，为每个氨基酸生成可能有效的单点氨基酸突变数据。

13、进一步，所述训练模块执行以下操作：

14、a、将蛋白质高质量多序列比对数据的蛋白质序列独热编码数据输入到改进生成对抗网络的生成模块，所述生成模块包括生成器和两个变分自动编码器，其中一个变分自动编码器用于接收原始数据，另一个变分自动编码器用于接收生成数据，所述生成器试图生成与真实数据相似的数据，接收原始数据的变分自动编码器负责加强蛋白质序列数据之间关联性的学习，有利于增强不同蛋白质序列数据的关键突变位置识别，接收生成数据的变分自动编码器是为了重构生成数据，有利于增强生成数据的真实性，减少噪声带来的干扰；

15、所述变分自动编码器包括改进的编码器和解码器，其中，对于编码器和解码器的改进是：由三层结构变成四层结构，并增加每一层数的神经元，这有利于捕捉到蛋白质序列数据的复杂模式和关系，并加速改进生成对抗网络的训练过程；

16、b、使用反向传播训练生成模块；

17、c、将真实数据和生成模块输出的数据输入到改进生成对抗网络的判别模块进行真伪分类，所述判别模块包括两个判别器，其中一个判别器接收生成数据与原始数据，另一个判别器接收原始数据经过变分自动编码器输出的数据和生成数据经过另一个变分自动编码器输出的数据；两个判别器的引入适应了生成模块的数据多样性和增强了判别模块的区分能力，生成模块和判别模块相互竞争，同时不断优化，最终生成模块能够生成更加真实和有意义的数据，这意味着能够捕获更多蛋白质序列数据的突变信息，学习其中突变的约束条件以及空间上的复杂依赖性；

18、d、使用反向传播训练判别模块，最终得到训练好的改进生成对抗网络。

19、进一步，改进的编码器由四层全连接神经网络组成，第一层为输入层，节点个数为5000，第二层为隐藏层，节点本文档来自技高网...

【技术保护点】

1.一种基于深度学习的基因错义突变致病性预测系统，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述数据加载模块使用DeepMSA获取蛋白质高质量多序列比对数据，格式为a2m，其中，对于蛋白质单体，通过dMSA、qMSA和mMSA三个迭代MSA搜索流程，涵盖全基因组和宏基因组数据库，随后利用折叠模型对MSA进行评分和排序；对于蛋白质多体，通过将组分链的单体MSA配对生成一系列混合MSA，然后根据MSA深度和单体链折叠得分的组合评分选择最优多体MSA，其中蛋白质高质量多序列比对数据包括蛋白质序列名称、蛋白质焦点序列和蛋白质序列数据，蛋白质序列数据和蛋白质焦点序列可能来自同一家族、同一亚型或不同物种。

3.根据权利要求2所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述数据预处理模块执行以下操作：

4.根据权利要求3所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述训练模块执行以下操作：

5.根据权利要求4所述的一种基于深度学习的基因错义突变致病

6.根据权利要求5所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述计算单点氨基酸突变相对可能性指数模块执行以下操作：

7.根据权利要求6所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述致病性预测模块执行以下操作：

...

【技术特征摘要】

1.一种基于深度学习的基因错义突变致病性预测系统，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述数据加载模块使用deepmsa获取蛋白质高质量多序列比对数据，格式为a2m，其中，对于蛋白质单体，通过dmsa、qmsa和mmsa三个迭代msa搜索流程，涵盖全基因组和宏基因组数据库，随后利用折叠模型对msa进行评分和排序；对于蛋白质多体，通过将组分链的单体msa配对生成一系列混合msa，然后根据msa深度和单体链折叠得分的组合评分选择最优多体msa，其中蛋白质高质量多序列比对数据包括蛋白质序列名称、蛋白质焦点序列和蛋白质序列数据，蛋白质序列数据和蛋白质焦点序列可能来自同一家族、同一亚型或不同物种。

3.根据权利要求2所述的一种基于深度学习的基因错义突变致病性预测系统，其特征在于：所述数据预处理模块执行以下操作：

4.根据权利要求3所述的一种基...

【专利技术属性】
技术研发人员：黎曦健，杨英汛，李炜，萧瀚阳，温树文，肖光成，何瑞林，杨启楠，肖赛格，黎杨倩，黄俊桦，李由，陈诗静，孙梓豪，黄嘉炜，陈汝恒，陈芮，张慧玲，
申请(专利权)人：华南农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人