当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于多域融合学习的遗传代谢病辅助筛查方法技术

技术编号:22596290 阅读:113 留言:0更新日期:2019-11-20 11:51
本发明专利技术公开了一种基于多域融合学习的遗传代谢病辅助筛查方法,该方法将筛查数据非线性投影到隐空间进行表示,并通过建立不同地区代谢物分布差异性约束,实现对多地区筛查数据的统一建模,本发明专利技术利用神经网络的非线性映射表示了不同代谢物之间的关联性;利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型;且通过数据融合增大了数据总量,使得模型在保持召回率不变的前提下,降低了假阳性率。

An assistant screening method of genetic metabolic diseases based on multi domain fusion learning

The invention discloses a genetic metabolic disease auxiliary screening method based on multi domain fusion learning. The method projects the non-linear screening data to the hidden space for expression, and realizes the unified modeling of multi region screening data by establishing the constraints of the distribution differences of metabolites in different regions. The invention uses the non-linear mapping of neural network to express the correlation between different metabolites By using the multi domain fusion technology in the main neural network, a unified model based on multi area screening data is established, and the total amount of data is increased by data fusion, so that the false positive rate is reduced under the premise that the recall rate is unchanged.

【技术实现步骤摘要】
一种基于多域融合学习的遗传代谢病辅助筛查方法
本专利技术属于信息技术应用领域,涉及一种遗传代谢病辅助筛查方法,尤其涉及一种基于多域融合学习的遗传代谢病辅助筛查方法。
技术介绍
遗传代谢病是一大类有代谢功能缺陷的基因疾病。变异基因改变了原有的蛋白质编码,影响了酶的合成。由于酶的缺乏,一些代谢通路上的生物分子无法被有效分解,通路上下游的代谢物浓度脱离正常范围,从而导致机体出现异常症状,例如智力缺陷、发育迟缓和癫痫,严重者甚至面临死亡。早期诊断和早期治疗可以极大改善预后,提高患者生活质量,减少社会和家庭经济负担。从80年代开始,我国各省市逐步开始推行新生儿遗传代谢病筛查,并将其作为一项基本公共卫生政策。现有的筛查手段主要通过生化分析方法测定新生儿足跟血中的代谢物浓度,然后根据预先设定的阈值初步筛选出可疑患病人群,再交由儿科医生对分析报告进行判读,最终决定是否需要召回疑似病例做进一步的检查。较高的假阳性率是现有筛查手段的一大不足,即大多数被召回的疑似病例实际上是健康人群,这带来了不必要的医疗资源浪费。究其原因,造成高假阳性率的主要问题集中在三个方面:(1)阈值法为每种代谢物设定了单独的异常浓度截断值,这种线性方法忽略了代谢物之间的关联性,导致较多误报的产生;(2)不同地区的人群在代谢物浓度分布上存在一定差异,筛查数据难以被统一融合分析,因此各筛查中心只能依靠本地区的数据样本建立自己的截断值标准,而统计样本尤其是阳性病例的减少将降低阈值法的筛选精度;(3)我国庞大的出生人口增加了每位儿科医生的工作压力,同时,资历、情绪等也会成为影响判读的潜在因素。相对地,将机器学习技术作为一种辅助方法引入遗传代谢病筛查中可以解决上述三个问题。首先,以深度神经网络为代表的非线性的方法学习得到代谢物之间的关联性,使筛选结果更为精确;其次,迁移学习方法能够对多种不同分布的数据进行融合学习,增大了筛查数据总量;最后,由于辅助筛查方法减少了初筛假阳性的数量,从而间接地缓解了儿科医生的工作压力,一定程度上提高了整体的筛查质量。
技术实现思路
在现有的遗传代谢病筛查手段中,阈值法无法充分考虑代谢物之间的关联性,并且由于其线性截断的特点,将不可避免地产生误判。同时,阈值法是按地区或筛查中心分别建立多种不同的截断指标,而无法对所有筛查数据统一分析。这些问题都是导致筛查结果假阳性率高的原因。本专利技术提供了一种基于多域融合学习的遗传代谢病辅助筛查方法,将筛查数据非线性投影到隐空间进行表示,并通过建立不同地区代谢物分布差异性约束,实现对多地区筛查数据的统一建模,能够在不降低召回率的前提下,降低初次筛查的假阳性率。本专利技术采用的技术方案如下:一种基于多域融合学习的遗传代谢病辅助筛查方法,包括如下步骤:1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:冻结层与特定域层的信息均与地区的个数相对应;冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第层跳板层与m个位于第层的冻结层分别计算得到m个分布差异;特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可根据经验任意设置(至少一层),每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;主神经网络的损失函数为:其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,和分别是第i个地区筛查样本在第层跳板层和特定域层的隐表示,是两个隐表示的分布差异,l是跳板层的层数。上述技术方案中,进一步的,所有神经网络使用随机梯度下降作为模型优化器,具体迭代次数由输入数据量的大小及拟合曲线决定。进一步的,所述的分布差异由多核最大平均差异(Multi-kernelMaximumMeanDiscrepancy,MK-MMD)进行计算。最大平均差异(MaximumMeanDiscrepancy,MMD)对于两个分布p和q,它们的最大平均差异为:其中f是一个属于度量空间的连续函数,sup为上确界,E为期望,x和y分别是p和q的一个采样。当函数空间是再生核希尔伯特空间时,最大平均差异为:其中为再生核希尔伯特空间,k是一个特征核,μk(p)和μk(q)分别是分布p和q在上的平均嵌入。多核最大平均差异MK-MMD的特征核是一组半正定特征核的组合表示:其中s是一组特征核的数量,βu是第u个特征核ku的系数。更进一步的,计算分布差异时ku(·,·)使用高斯核作为MK-MMD的核函数:ku(x,x′)=exp(-γu||x-x′||2)其中γu为带宽参数,x和x′分别是冻结层和跳板层的输出。更进一步的,所述的带宽参数范围从10-6到106,以10为乘数因子,共取13个值,从而获得13个核函数。进一步的,步骤1)中每个神经网络均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。本专利技术的有益效果是:本专利技术利用神经网络的非线性映射表示了不同代谢物之间的关联性;利用主神经网络中的多域融合技术建立了一个基于多地区筛查数据的统一模型;且通过数据融合增大了数据总量,使得模型在保持召回率不变的前提下,降低了假阳性率。附图说明图1是本专利技术方法的流程示意图。具体实施方式下面结合实例对本专利技术的技术方案做进一步说明。本专利技术的基于多域融合学习的遗传代谢病辅助筛查方法,包括如下两个阶段:第一阶段:对于来自m个地区或筛查中心的数据,分别训练m个具有相同结构、不同网络参数的神经网络;本实例中每个神经网络设置为均包含四层隐藏层,每层的神经元个数依次为16、8、8、4;隐藏层使用ReLU作为激活函数,输出层使用Sigmoid作为激活函数。第二阶段:建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;本实例中设置主神经网络包含m*2层冻结层、2层跳板层、m*2层特定域层;每一、第二层跳板层的神经元个数分别为16、8;第一、第二层特定域层的神经元个数分别为8、4;冻结层:将第一阶段训练好的m个神经网络的第一、第二层,共m*2个隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;跳板层:跳板层的参数在主神经网络的训练中是可更新的,第一本文档来自技高网
...

【技术保护点】
1.一种基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,该方法包括如下步骤:/n1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;/n2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:/n冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;/n跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第l层跳板层与m个位于第l层的冻结层分别计算得到m个分布差异;/n特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可任意设置,每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;/n主神经网络的损失函数为:/n

【技术特征摘要】
1.一种基于多域融合学习的遗传代谢病辅助筛查方法,其特征在于,该方法包括如下步骤:
1)针对m个不同地区的遗传代谢病筛查数据分别训练m个具有相同结构、不同网络参数的神经网络;各神经网络均包含若干隐藏层;
2)建立主神经网络,主神经网络包含冻结层、跳板层、特定域层;其中:
冻结层:将步骤1)训练好的m个地区对应神经网络的至少一层隐藏层复制到主神经网络中,并将这些层的参数冻结,使它们在主神经网络的训练过程中保持不变;
跳板层:跳板层的层数与冻结层的层数相同,且跳板层的参数在主神经网络的训练中是可更新的,第l层跳板层与m个位于第l层的冻结层分别计算得到m个分布差异;
特定域层:特定域层的参数在主神经网络的训练中是可更新的,其层数可任意设置,每个地区的第一层特定域层的输入是将对应地区最后一层冻结层与最后一层跳板层的输出进行拼接获得,其它层特定域层仅将上一层特定域层的输出作为输入;
主神经网络的损失函数为:



其中L(·,·)为交叉熵损失函数,fi(Xi)是对第i个地区筛查数据集Xi的预测结果,Yi是第i个地区筛查数据集Xi对应的标记,是由医生给出的真实诊断结果,λ>0是惩罚因子,和分别是第i个地区筛查样本在第l层跳板层和特...

【专利技术属性】
技术研发人员:尹建伟林博舒强李莹邓水光蒋萍萍杨茹莱张鹿鸣尚永衡
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1