一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法技术

技术编号:18765565 阅读:47 留言:0更新日期:2018-08-25 11:30
本发明专利技术公开了一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法,包括:预处理小于胎龄儿数据中的文本特征和非文本特征;基于改进的降噪自动编码器进行无监督学习,得到多个特征集;利用深度神经网络进行有监督学习微调模型参数;将训练好的模型对测试集进行预测,从而得到最终的分类结果。其中改进的降噪自动编码器在输入层进行0到2倍之间的按照正态随机数随机变化,采用改进的降噪自动编码器可以很好的将小于胎龄儿数据中的高维特征进行降维以及非线性抽象,同时改进的“降噪”方法提高了自动编码器学习到的特征多样性和鲁棒性;本发明专利技术提高了对小于胎龄儿疾病数据预测的准确率,可以很好的帮助疾病的及早发现,具有较高的实用意义。

【技术实现步骤摘要】
一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法
本专利技术涉及计算机
,尤其涉及一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法。
技术介绍
随着现代围产医学发展和新生儿复苏的广泛开展,小于胎龄儿(SGA)的存活率逐渐增加,但SGA的患病率和死亡率仍然很高,SGA吸引了越来越多研究者的关注。SGA可以通过许多标准来定义,但最常见的定义是出生体重低于相同胎龄的第10个百分点的新生儿。此外,InternationalSmallforGestationalAge咨询委员会发展会议声明提供了另一个定义,即新生儿的2个标准偏差低于相同胎龄的平均体重。自Battaglia等人在1967年定义了SGA,许多学者进行了相关研究,发现SGA比正常胎龄儿(AGA)的围产期存在的危险要高。SGA围产期并发症的发病率和死亡率高于AGA,尤其是新生儿体温紊乱,肺功能障碍,高胆红素血症,低血糖和坏死性肠炎的发生率较高。而且,SGA在胎儿发育过程中不利因素影响强而持久,不仅使胎儿宫内生长受限,而且影响胎儿的生长发育。相当一部分婴儿出生后不能进入正常生长轨道,而身体发育明显落后于健康足月新生儿。成年后,他们更容易患肥胖,营养不良和成年后的社会压力。因此,早期发现SGA和干预措施是非常重要的因素,可以改善围产期和儿童时期的健康状况。由于新生儿死亡率高,并发症高,因此早期发现疾病并进行干预是非常重要的。越来越多的研究人员将重点放在预测模型上,从而可以更准确,更全面地预测疾病。Hastie利用多普勒超声测量进行了453项研究以预测SGA。但他们的结论是,由于实验结果不理想,多普勒超声研究脐动脉血流速度对双胎妊娠SGA婴儿的预测价值不大。Figueras等人应用决策树分析算法来预测SGA妊娠的不良结果,研究结果表明,他们的模型可以作为一种诊断工具来识别SGA妊娠不良妊娠结局的风险。Sanzcortes等人利用MR图像中的纹理分析(TA)来识别与SGA中异常神经行为相关的模式。此外,他们在遗传算法的第37周通过91个SGA胎儿证明了这种方法的可靠性。大多数上述方法预测SGA疾病的风险,但没有更多的考虑SGA的可能性。此外,许多方法被用于罕见的医疗器械,这在一般体检中不能很好地利用,特别是在贫穷国家和许多发展中国家。随着机器学习的发展,它已被许多传统研究领域采用。机器学习应用的方法不断发展,特别是基于机器学习的数据分析方法已成为解决复杂问题的关键技术之一。2016年,Li等人应用机器学习方法预测出生前的SGA。实验结果具有很高的准确性,并且达到了非常高的AUC(AUC值相当于随机选择的正例高于随机选择的负例的概率),为0.8547。但是在特征工程中,其应用了手动选择特征的方法,这花费了很多时间,没有充分利用文本变量和分类变量。因此,寻找解决高维问题和提取文本特征模型是解决问题的关键。深度学习能够自动提取特征,学习多层次的抽象特征表示,并学习异构或跨域内容信息。采用深度学习中自动编码器的方法来预测出生前的SGA。可以达到很高准确率的同时,又比传统机器学习方法节省了大量人力和时间。
技术实现思路
针对上述问题中存在的不足之处,本专利技术提供一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法。为实现上述目的,本专利技术提供一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法,包括:步骤1、获取小于胎龄儿数据:所述小于胎龄儿数据包括文本特征和非文本特征,所述非文本特征包括连续型特征和离散型特征,所述连续型特征包括身高、体重和年龄,所述离散型特征包括职业、血型和是否吸烟;步骤2、预处理数据:对负样本中缺失值超过20%比例的样本进行删除,利用-1固定值对缺失值进行填补;步骤3、处理小于胎龄儿文本特征:对文本特征进行分词,对分词完后的词进行停用词处理,并利用tf-idf将词进行向量化处理;步骤4、处理小于胎龄儿非文本特征:对连续型特征进行归一化处理,对离散型特征采用哑变量化操作;步骤5、改进的降噪自动编码器进行无监督训练,从而抽象小于胎龄儿数据特征:改进的降噪自动编码器在输入层进行0到2倍之间的按照正态随机数随机变化,输出层则为不降噪的原特征;步骤6、模型进行有监督参数微调:在自动编码器的最后一层加入一层sigmoid激活层来实现模型分类的功能,将样本的标签作输入,进行有监督的训练,对模型的参数进行微调,从而得到分类模型;步骤7、对数据进行小于胎龄儿疾病分类:根据分类模型对测试集进行预测分类,预估胎儿是否是小于胎龄儿。作为本专利技术的进一步改进,在步骤3中,利用python中jieba库对文本特征进行分词。作为本专利技术的进一步改进,在步骤5中,正态分布随机数的产生利用Box-Muller法。作为本专利技术的进一步改进,在步骤5中,在自动编码器降噪中,选择隐藏层为[256,64,256]三层作为小于胎龄儿数据的特征。与现有技术相比,本专利技术的有益效果为:本专利技术是以小于胎龄儿疾病数据为条件,比现有方法添加了文本特征的处理,利用改进的降噪自动编码器对数据中存在的文本和非文本的高维度特征进行有效的提取。同时,对提取后的特征进行有监督的训练。对比现有的对小于胎龄儿疾病预测的方法,本专利技术既考虑了疾病预测的准确度,又避免了现有方法对胎龄儿数据人工处理特征需要耗费大量时间的问题,能够很好的适应现有的小于胎龄儿疾病数据。附图说明图1为本专利技术一种实施例公开的基于改进降噪自动编码器的小于胎龄儿疾病预测方法的流程图;图2为本专利技术一种实施例公开的改进的降噪自动编码器示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合附图对本专利技术做进一步的详细描述:针对小于胎龄儿疾病问题,本专利技术提供一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法,能很好的预测小于胎龄儿疾病的发生;本专利技术采用一种适用于小于胎龄儿数据预测的基于改进的降噪自动编码器,使得预测小于胎龄儿疾病效果更好,在自动提取抽象特征方面更加健壮,很好的适用于小于胎龄儿疾病数据中的文本特征和非文本特征,提高了疾病的预测准确性和效率。因为本专利技术是以小于胎龄儿为核心的预测,所以本专利技术以“国家免费孕前优生健康检查项目”中收集的数据为例说明。本专利技术提供一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法,包括三大部分:首先对小于胎龄儿疾病数据进行预处理以及简单的特征工程。然后,利用改进的降噪自动编码器进行无监督学习,对小于胎龄儿疾病的高维特征进行降维和抽象。最后进行利用神经网络进行有监督学习,得到可靠的预测模型,通过投票,平均等模型融合方式得到最终的分类结果。具体的:首先是对小于胎龄儿疾病数据进行特征化处理,对于小于胎龄儿数据,是由体检数据为源头,组成部分由非文本特征和文本特征组成,其中非文本特征中含有连续型特征和离散型特征。连续特征包含身高,体重,年龄等,离散型特征由职业,血型,是否吸烟等组成。本专利技术先对缺失值进行处理,将所有特征的缺失值设置为-1。同时对于这两种特征,需本文档来自技高网
...

【技术保护点】
1.一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法,其特征在于,包括:步骤1、获取小于胎龄儿数据:所述小于胎龄儿数据包括文本特征和非文本特征,所述非文本特征包括连续型特征和离散型特征,所述连续型特征包括身高、体重和年龄,所述离散型特征包括职业、血型和是否吸烟;步骤2、预处理数据:对负样本中缺失值超过20%比例的样本进行删除,利用‑1固定值对缺失值进行填补;步骤3、处理小于胎龄儿文本特征:对文本特征进行分词,对分词完后的词进行停用词处理,并利用tf‑idf将词进行向量化处理;步骤4、处理小于胎龄儿非文本特征:对连续型特征进行归一化处理,对离散型特征采用哑变量化操作;步骤5、改进的降噪自动编码器进行无监督训练,从而抽象小于胎龄儿数据特征:改进的降噪自动编码器在输入层进行0到2倍之间的按照正态随机数随机变化,输出层则为不降噪的原特征;步骤6、模型进行有监督参数微调:在自动编码器的最后一层加入一层sigmoid激活层来实现模型分类的功能,将样本的标签作输入,进行有监督的训练,对模型的参数进行微调,从而得到分类模型;步骤7、对数据进行小于胎龄儿疾病分类:根据分类模型对测试集进行预测分类,预估胎儿是否是小于胎龄儿。...

【技术特征摘要】
1.一种基于改进降噪自动编码器的小于胎龄儿疾病预测方法,其特征在于,包括:步骤1、获取小于胎龄儿数据:所述小于胎龄儿数据包括文本特征和非文本特征,所述非文本特征包括连续型特征和离散型特征,所述连续型特征包括身高、体重和年龄,所述离散型特征包括职业、血型和是否吸烟;步骤2、预处理数据:对负样本中缺失值超过20%比例的样本进行删除,利用-1固定值对缺失值进行填补;步骤3、处理小于胎龄儿文本特征:对文本特征进行分词,对分词完后的词进行停用词处理,并利用tf-idf将词进行向量化处理;步骤4、处理小于胎龄儿非文本特征:对连续型特征进行归一化处理,对离散型特征采用哑变量化操作;步骤5、改进的降噪自动编码器进行无监督训练,从而抽象小于胎龄儿数据特征:改进的降噪自动编码器在输入层进行0到2倍之间的按照正态随机数随机变化,输出层则为不降噪的原特征;步...

【专利技术属性】
技术研发人员:梁思远李建强李娟
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1