一种基于神经网络的线粒体遗传变异排序方法及系统技术方案

技术编号:37068180 阅读:26 留言:0更新日期:2023-03-29 19:45
本发明专利技术公开了一种基于神经网络的线粒体遗传变异排序方法及系统,本方法通过获取基因测序后的变异结果;根据变异结果和HPO列表,获取待测试样本中每种线粒体遗传变异对应的特征向量;将待测试样本中每种线粒体遗传变异对应的特征向量输入至训练好的神经网络模型中,获得待测试样本中每种线粒体遗传变异对应的预测结果,并对预测结果进行排序。本发明专利技术能够解决现有人工变异分析流程效率低下的问题和现有排序算法不完全适用于线粒体遗传变异分析的问题,能够提高线粒体遗传变异分析的效率,提高排序结果与临床症状、变异致病性的关联。联。联。

【技术实现步骤摘要】
一种基于神经网络的线粒体遗传变异排序方法及系统


[0001]本专利技术涉及线粒体基因检测
,尤其是涉及一种基于神经网络的线粒体遗传变异排序方法及系统。

技术介绍

[0002]线粒体产生了人体90%所需的能量,是人类每个细胞的重要能量代谢细胞器。线粒体DNA作为细胞核外遗传物质,如果发生变异将可能导致多种严重的代谢系统遗传病和神经系统遗传病,例如,Leigh综合征、线粒体肌病等。据统计每5,000人中就有一人患有遗传性线粒体疾病,线粒体DNA变异的分析具有广泛的医学价值和社会价值。
[0003]不同于细胞核常染色体,线粒体DNA具有一些独特的遗传特征,有必要针对性地优化变异分析流程。例如,线粒体DNA虽然长度只有约16kb,但是在一个细胞中可以存在10至1000多个拷贝。线粒体变异的异质性可致病,即便少数拷贝变异也可能致病,例如,线粒体DNA通过母系遗传、线粒体DNA没有内显子、外显子的基因结构等。这些差异导致通用的变异分析标准不完全适用于线粒体,例如,ClinGen(美国临床基因组资源中心)将ACMG(美国医学遗传学会)遗传变异分类指南,扩展为针对线粒体的分类指南ClinGen Mito Disease ACMG Specifications,包括但不限于去除了与显性遗传或隐形遗传相关的PM3指标、去除了与基因变异热点区域相关的PM1、PP2指标、修改了与新发突变相关的PS2指标,以适应线粒体母系遗传特征。这些理论和实践上的变化,使得常染色体变异的分析流程不完全适用于线粒体变异。
[0004]在实践层面,对变异结果进行自动化排序(或者说计分)是必要的。高通量测序技术可以低成本地获取完整的线粒体变异,但是从效率角度考虑,不可能逐条检查成百上千的变异结果,并对成百上千的变异结果进行致病性分类。现有的遗传变异排序方法,例如,Exomiser依赖于加权平均若干致病性评估算法,而权重设定具有很大的主观性,随着输入参数的增多而愈发难以平衡,并且Exomiser是针对常染色体变异选取的参数。此外,针对线粒体变异的致病性计分方法之间则缺乏整合,例如,APOGEE可预测错义突变的有害性,MitoTip可预测类型的有害性,但是他们的分数并没有可比较性,不能直接放在一起排序。此外,遗传变异排序除了计算变异致病性,还需要考虑表型匹配度,使得分析结果更贴近每一个具体案例。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种基于神经网络的线粒体遗传变异排序方法及系统,能够解决现有人工变异分析流程效率低下的问题和现有排序算法不完全适用于线粒体遗传变异分析的问题,能够提高线粒体遗传变异分析的效率,提高排序结果与临床症状、变异致病性的关联。
[0006]第一方面,本专利技术实施例提供了一种基于神经网络的线粒体遗传变异排序方法,所述基于神经网络的线粒体遗传变异排序方法包括:
[0007]获取基因测序后的变异结果;
[0008]根据所述变异结果和HPO列表,获取待测试样本中每种线粒体遗传变异对应的特征向量;
[0009]将所述待测试样本中每种线粒体遗传变异对应的特征向量输入至训练好的神经网络模型中,获得所述待测试样本中每种线粒体遗传变异对应的预测结果,并对所述预测结果进行排序。
[0010]与现有技术相比,本专利技术第一方面具有以下有益效果:
[0011]本方法通过获取基因测序后的变异结果;根据变异结果和HPO列表,获取待测试样本中每种线粒体遗传变异对应的特征向量;将待测试样本中每种线粒体遗传变异对应的特征向量输入至训练好的神经网络模型中,获得待测试样本中每种线粒体遗传变异对应的预测结果,并对预测结果进行排序。
[0012]本方法通过获取基因测序后的变异结果;根据变异结果和HPO列表,获取待测试样本中每种线粒体遗传变异对应的特征向量;针对线粒体遗传变异的特点,构建线粒体遗传变异的特征向量,从而解决现有排序算法不完全适用于线粒体变异分析的问题。本方法通过将待测试样本中每种线粒体遗传变异对应的特征向量输入至训练好的神经网络模型中,获得待测试样本中每种线粒体遗传变异对应的预测结果,并对预测结果进行排序;通过神经网络模型对根据变异结果和HPO列表获取的线粒体遗传变异对应的特征向量进行学习,获得线粒体遗传变异的大量特征向量和临床表型之间的关联,从而提高了排序结果与临床症状的关联。本方法通过对预测结果进行排序,将传统遗传变异分析中针对每个变异的重复解读流程,简化为先排序再对排序后的少数变异进行解读,从而提高了线粒体遗传变异分析的效率。
[0013]根据本专利技术的一些实施例,所述每种线粒体遗传变异对应的特征向量包括:用于表示将变异类型转化为二进制向量的变异类型特征向量、用于表示将标准变异表示形式转化为向量的氨基酸改变特征向量、用于表示每种变异在多种人群数据库中出现的最大频率的人群频率特征向量、用于表示变异线粒体DNA比值的变异异质性特征向量、用于表示母亲是否携带同样变异的母系遗传背景特征向量、用于表示变异是否被各种线粒体数据库收录的数据库收录特征向量、用于对不同变异类型的有害性预测分数进行计分的预测计分特征向量、用于表示变异的关联表型和用户输入的HPO列表的匹配度的表型关联特征向量。
[0014]根据本专利技术的一些实施例,所述将变异类型转化为二进制向量,包括:
[0015]获取所述线粒体遗传变异的变异类型的种类数量;
[0016]按所述变异类型的种类将所述变异类型转化为二进制向量;其中,所述二进制向量的维度值与所述变异类型的种类数量等同。
[0017]根据本专利技术的一些实施例,所述对不同变异类型的有害性预测分数进行计分,包括:
[0018]获取所述线粒体遗传变异中每种变异类型的有害性预测分数;
[0019]对所述每种变异类型的有害性预测分数进行归一化:
[0020]x
n
=x

x
min
/x
max

x
min
[0021]其中,x
n
表示所述有害性预测分数的归一化分数,x表示所述有害性预测分数,x
min
表示所述有害性预测分数的最小值,x
max
表示所述有害性预测分数的最大值;
[0022]通过如下方式对所述线粒体遗传变异中每种变异类型的有害性预测分数进行计分:
[0023]S=[x1,x2,...,x
n
][0024]其中,S表示计分,[x1,x2,...,x
n
]表示不同变异类型的有害性预测分数的归一化分数的集合;
[0025]若所述集合中任一种变异类型的分数缺失,则所述变异类型的分数记为0。
[0026]根据本专利技术的一些实施例,计算所述变异异质性特征向量包括:
[0027]去除重复序列后,获得变异的测序深度;
[0028]根据所述变异的测序深度,计算所述变异异质性特征向量:...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的线粒体遗传变异排序方法,其特征在于,所述基于神经网络的线粒体遗传变异排序方法包括:获取基因测序后的变异结果;根据所述变异结果和HPO列表,获取待测试样本中每种线粒体遗传变异对应的特征向量;将所述待测试样本中每种线粒体遗传变异对应的特征向量输入至训练好的神经网络模型中,获得所述待测试样本中每种线粒体遗传变异对应的预测结果,并对所述预测结果进行排序。2.根据权利要求1所述的基于神经网络的线粒体遗传变异排序方法,其特征在于,所述每种线粒体遗传变异对应的特征向量包括:用于表示将变异类型转化为二进制向量的变异类型特征向量、用于表示将标准变异表示形式转化为向量的氨基酸改变特征向量、用于表示每种变异在多种人群数据库中出现的最大频率的人群频率特征向量、用于表示变异线粒体DNA比值的变异异质性特征向量、用于表示母亲是否携带同样变异的母系遗传背景特征向量、用于表示变异是否被各种线粒体数据库收录的数据库收录特征向量、用于对不同变异类型的有害性预测分数进行计分的预测计分特征向量、用于表示变异的关联表型和用户输入的HPO列表的匹配度的表型关联特征向量。3.根据权利要求2所述的基于神经网络的线粒体遗传变异排序方法,其特征在于,所述将变异类型转化为二进制向量,包括:获取所述线粒体遗传变异的变异类型的种类数量;按所述变异类型的种类将所述变异类型转化为二进制向量;其中,所述二进制向量的维度值与所述变异类型的种类数量等同。4.根据权利要求2所述的基于神经网络的线粒体遗传变异排序方法,其特征在于,所述对不同变异类型的有害性预测分数进行计分,包括:获取所述线粒体遗传变异中每种变异类型的有害性预测分数;对所述每种变异类型的有害性预测分数进行归一化:x
n
=x

x
min
/x
max

x
min
其中,x
n
表示所述有害性预测分数的归一化分数,x表示所述有害性预测分数,x
min
表示所述有害性预测分数的最小值,x
max
表示所述有害性预测分数的最大值;通过如下方式对所述线粒体遗传变异中每种变异类型的有害性预测分数进行计分:S=[x1,x2,...,x
n
]其中,S表示计分,[x1,x2,...,x
n
]表示不同变异类型的有害性预测分数的归一化分数的集合;若所述集合中任一种变异类型的分数缺失,则所述变异类型的分数记为0...

【专利技术属性】
技术研发人员:彭厘旻雷鹏张少伟蒋艳凰余硕军
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1