基于神经网络的基因突变致病性检测方法、系统及介质技术方案

技术编号:23935904 阅读:48 留言:0更新日期:2020-04-25 03:09
本发明专利技术公开了一种基于神经网络的基因突变致病性检测方法、系统及介质,本发明专利技术方法包括输入待检测的基因检测VCF文件以及HPO表型;根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。本发明专利技术不仅克服了人工分析的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。

Detection method, system and medium of gene mutation pathogenicity based on Neural Network

【技术实现步骤摘要】
基于神经网络的基因突变致病性检测方法、系统及介质
本专利技术涉及的基因检测基因解读技术,具体涉及一种基于神经网络的基因突变致病性检测方法、系统及介质。
技术介绍
在基因检测中,如何从成千上万的基因突变中获得致病的基因突变,是基因解读的关键。传统的基因突变致病性分析的主要方法包括:(1)通过查找生物医学领域的专业数据库,看相应的基因或突变是否有致病的数据库记录,这些数据库包括OMIM、Orphanet、HGMD、Clinvar等;(2)通过蛋白质功能预测,判定该基因突变是否存在风险,常用的蛋白质功能预测软件如SIFT、PolyPhen2、MutationTaster、DANN、CADD等;(3)根据该基因突变在人群中出现的频率,判定基因突变的风险,常用的人群数据库包括GnomAD(GenomeAggregationDatabase),ExAC(theExomeAggregationConsortium)和1KGP(1000GenomesProject)等;(4)其他解读结果:如ACMG(AmericanCollegeofMedicalGeneticsandGenomics)突变解析、突变位点的保守性、突变是否在重复区域等等。因此,基因突变的分析结果涉及很多方面,结果数据繁多,单方面的分析结果都不能准确预测出基因突变的致病性强弱,专家需要综合分析这些项的结果,人工给出基因突变的致病性结果,这是一项十分耗时的工作。如何从多方面的基因突变致病性分析结果得到一个致病性综合分析值,使得医生仅需关注致病性综合值较高的基因变异,大大减少医生所需关注的基因突变的数量,是基因解读需要解决的关键问题。目前这一领域最常用的方法是Exomiser,它将基因突变从突变、算法和基因三个层面进行打分,再使用逻辑回归的方式对三种打分进行组合,获得一个致病性综合性分析值。这一方法最大的缺陷是考虑的致病性影响因素较少,而且有些因素(如老鼠和斑马鱼数据)对人的遗传病影响不大,有些关键性因素未考虑进去,导致获得的致病性综合性分析值准确性不高。
技术实现思路
本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种基于神经网络的基因突变致病性检测方法、系统及介质,与传统的人工解读和Exomiser基因突变致病性综合性分析方法相比,本专利技术通过神经网络模型对训练样本进行学习,获取基因突变的大量特征和致病性之间的内在关联,不仅克服了人的主观性缺陷,而且能够综合考虑影响基因突变致病性的各种因素,使得综合分析的结果更为客观有效,从而大大提高了对基因突变致病性分析的准确性,提高了基因解读的效率。为了解决上述技术问题,本专利技术采用的技术方案为:一种基于神经网络的基因突变致病性检测方法,实施步骤包括:1)输入待检测的基因检测VCF文件以及HPO表型;2)根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;3)对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;4)按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。可选地,步骤2)中各个基因变异的特征值包括:用于变异有无Clinvar结果的特征;用于表示用户输入表型和当前变异基因对应表型的匹配度的特征GeneHPO;用于表示当前变异基因在OMIM数据库中是否有对应的疾病的特征InOmim;用于表示当前变异基因在OMIM疾病库中对应疾病的HPO和用户输入的HPO是否相匹配的特征OmimHPO;用于表示当前基因变异在多种人群数据库中出现的最大频率的特征MaxMAF;用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT;用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2;用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster;用于表示保守性预测软件GERP++_RS结果的特征EvoRate;用于表示当前基因变异是否位于蛋白质的功能区域的特征Domain;用于表示当前基因变异是否位于重复区域的特征RMSK;用于表示当前变异的接合性与相应基因对应疾病的遗传性是否一致的特征Inherit。可选地,步骤3)中的神经网络模型为BP神经网络。可选地,所述BP神经网络为包括输入层、中间层以及输出层的三层结构,其中输入层节点数目与样本的特征数目相同,中间层节点数目大于输入层节点数目,输出层仅有一个节点。可选地,步骤3)之前还包括训练神经网络模型的步骤,详细步骤包括:S1)产生训练样本:(1)获取若干基因检测VCF文件、每个基因检测VCF文件对应的HPO表型和已知的致病基因;(2)获取基因突变的特征值:根据每个基因检测VCF文件以及HPO表型获取各个基因突变的特征值;(3)确定致病基因突变样本:对于每个基因检测VCF文件中致病基因所对应的所有突变,计算它们的突变注释评分P_Score值,取突变注释评分P_Score值最大的突变为致病基因突变,该基因突变为一个训练样本,并令其致病性综合分析值为第一标签值;(4)确定非致病基因突变样本:对于每个基因检测VCF文件,随机选取指定数量个非致病基因突变作为训练样本,并令其致病性综合分析值为第二标签值;S2)训练神经网络模型:利用训练样本集完成神经网络模型的训练,使得神经网络模型被建立各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系。可选地,步骤S1)中突变注释评分P_Score的计算函数表达式如下:P_Score=β1·Protein+β2·(1-10*seg(MaxMAF))+β3·Clinvar/3上式中,β1,β2,β3分别为三个权重参数,Protein为蛋白质功能预测软件的最大预测值,seg(MaxMAF)为特征MaxMAF的转换结果,Clinvar为用于变异有无Clinvar结果的特征,蛋白质功能预测软件的最大预测值Protein取用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT、用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2、用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster三者中的最大值,特征MaxMAF的转换结果为在特征MaxMAF小于等于预设门槛值时取原值否则取预设门槛值。此外,本专利技术还提供一种基于神经网络的基因突变致病性检测系统,包括:输入程序单元,用于输入待检测的基因检测VCF文件以及HPO表型;特征值提取程序单元,用于根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;致病性综合分析程序单元,用于对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的基因突变致病性检测方法,其特征在于实施步骤包括:/n1)输入待检测的基因检测VCF文件以及HPO表型;/n2)根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;/n3)对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;/n4)按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。/n

【技术特征摘要】
1.一种基于神经网络的基因突变致病性检测方法,其特征在于实施步骤包括:
1)输入待检测的基因检测VCF文件以及HPO表型;
2)根据待检测的基因检测VCF文件以及HPO表型获取各个基因变异的特征值;
3)对于每一种基因变异,将该基因变异的特征值输入训练好的神经网络模型得到该基因变异的致病性综合分析结果,所述神经网络模型被预先训练建立了各个基因变异的特征值、各个基因变异的致病性综合分析结果之间的映射关系;
4)按照致病性综合分析结果从高到低进行排序,确定每个基因变异的致病性优先级,按优先级顺序输出每个基因变异及其致病性综合分析结果。


2.根据权利要求1所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤2)中各个基因变异的特征值包括:用于变异有无Clinvar结果的特征;用于表示用户输入表型和当前变异基因对应表型的匹配度的特征GeneHPO;用于表示当前变异基因在OMIM数据库中是否有对应疾病的特征InOmim;用于表示当前变异基因在OMIM疾病库中对应疾病的HPO和用户输入的HPO是否相匹配的特征OmimHPO;用于表示当前基因变异在多种人群数据库中出现的最大频率的特征MaxMAF;用于表示蛋白质功能预测软件SIFT的预测结果的特征SIFT;用于表示蛋白质功能预测软件PolyPhen2预测结果的特征PolyPhen2;用于表示蛋白质功能预测软件MutationTaster预测结果的特征MTaster;用于表示保守性预测软件GERP++_RS结果的特征EvoRate;用于表示当前基因变异是否位于蛋白质功能区域的特征Domain;用于表示当前基因变异是否位于重复区域的特征RMSK;用于表示当前变异的接合性与相应基因对应疾病的遗传性是否一致的特征Inherit。


3.根据权利要求1所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤3)中的神经网络模型为BP神经网络。


4.根据权利要求3所述的基于神经网络的基因突变致病性检测方法,其特征在于,所述BP神经网络为包括输入层、中间层以及输出层的三层结构,其中输入层节点数目与样本的特征数目相同,中间层节点数目大于输入层节点数目,输出层仅有一个节点。


5.根据权利要求2所述的基于神经网络的基因突变致病性检测方法,其特征在于,步骤3)之前还包括训练神经网络模型的步骤,详细步骤包括:
S1)产生训练样本:(1)获取若干基因检测VCF文件、每个基因检测VCF文件对应的HPO表型和已知的致病基因;(2)获取基因突变的特征值:根据每个基因检测VCF文件以及HPO表型获取各个基因突变的特征值;(3)确定致病基因突变样本:对于每个基因检测VCF文件中致病基因所对应的所有突变,计算它们的突变注释评分P...

【专利技术属性】
技术研发人员:蒋艳凰赵强利李根余硕军雷鹏张少伟万斌贺依依
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1