基于实例和特征共享级联的疾病预测系统、设备及介质技术方案

技术编号:24583296 阅读:25 留言:0更新日期:2020-06-21 01:26
本公开公开了基于实例和特征共享级联的疾病预测系统、设备及介质,其中系统,包括:待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。

Disease prediction system, equipment and media based on case and feature sharing cascade

【技术实现步骤摘要】
基于实例和特征共享级联的疾病预测系统、设备及介质
本公开涉及疾病辅助诊断
,特别是涉及基于实例和特征共享级联的疾病预测系统、设备及介质。
技术介绍
本部分的陈述仅仅是提到了与本公开相关的
技术介绍
,并不必然构成现有技术。数据挖掘中,样本数据越多,其分析、计算结果越可靠。而对于某些样本容量较小的小样本数据,如何有效利用小样本数据的潜在信息进行分析,并保证分析结果的有效性就尤为重要。尤其是在医学领域,采取适当的方法对数据稀少的疾病进行准确预测有利于提高临床诊断效率。慢性阻塞性肺疾病(COPD)是一种常见的以持续气流受限为特征的慢性呼吸道疾病,由于大气污染及吸烟人数增加等因素,COPD的发病率逐年提升,成为仅次于高血压、糖尿病的中国第三大常见慢性病,有效的预测模型在慢性呼吸道疾病的诊治上扮演着重要角色。本公开会以慢阻肺疾病为例实现对小样本数据疾病的准确预测。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:目前,一般的数据挖掘方法,特别是基于深度学习的方法都需要大量样本,这些方法不适合对小样本数据的疾病分析与诊断。目前针对小样本数据疾病预测系统的诊断精度不高。
技术实现思路
为了解决现有技术的不足,本公开提供了基于实例和特征共享级联的疾病预测系统、设备及介质;第一方面,本公开提供了基于实例和特征共享级联的疾病预测系统;基于实例和特征共享级联的疾病预测系统,包括:待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;>待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。第二方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述系统中各个模块的功能。第三方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述系统中各个模块的功能。与现有技术相比,本公开的有益效果是:1、能够利用该模型预测待预测疾病是否是慢性阻塞性肺疾病,是辅助医生进行诊断治疗的系统。2、利用病人共有实例和特征,使用实例和特征共享级联方法对小样本数据的疾病诊断系统尚未出现。3、本公开可以减少诊断整体误差,实现更高的分类准确率。使用实例共享级联学习的方法初始化训练数据的权值分布,获得与目标域更为接近的实例数据;4、通过特征共享级联学习方法,传递相关数据的共享特征子集;5、引入平衡参数λ,调整特征共享级联模块输出特征的边缘概率分布和条件概率分布,对两类概率分布融合,并根据参数λ,预测源域和目标域的相似性。6、构造预训练的基于实例和特征共享级联模型,使用弹性网络对模型进行优化,并对模型进行测试,且该模型具有结构简单、高效的特点。附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。图1为本公开实施例一的方法流程图;图2为本公开实施例一的经跨域过滤特征算法后的共现特征图;图3为本公开实施例一的准确率比较图;图4为本公开实施例一的F1比较图;图5为本公开实施例一的准确率对比图;图6为本公开实施例一的AUC对比图。具体实施方式应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一,本实施例提供了基于实例和特征共享级联的疾病预测系统;基于实例和特征共享级联的疾病预测系统,包括:待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。作为一个或多个实施例,如图1所示,已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块,包括:训练集获取单元,其被配置为:获取第一数据集和第二数据集;所述第一数据集为慢性阻塞性肺疾病的前期疾病数据集;所述第二数据集为已患和未患慢性阻塞性肺疾病的疾病数据集;所述第二数据集为小样本数据集;基于特征和实例迁移的平衡概率分布模型构建单元,用于构建基于特征和实例迁移的平衡概率分布模型,所构建的基于特征和实例迁移的平衡概率分布模型(EquilibriumProbabilityDistribution,BPD)包括:依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元;实例共享级联单元,其被配置为:从第一数据集中筛选出统计次数最多的N种疾病名称;特征共享级联单元,其被配置为:筛选出第一数据集与第二数据集疾病特征距离最近的M种疾病特征;特征共享级联优化单元,其被配置为:根据N种疾病名称和M种疾病特征,计算第一数据集与第二数据集之间的平衡概率分布值;预测单元,其被配置为:根据平衡概率分布值与设定阈值的比较,输出第二数据集中待预测疾病是否为慢性阻塞性肺疾病;验证单元,其被配置为:将预测单元的预测结果和预测单元的当前待预测疾病对应的特征均输入到弹性网络中,弹性网络输出损失函数值,如果损失函数值达到最小值,则表示基于特征和实例迁移的平衡概率分布模型训练结束;否则,继续对基于特征和实例迁移的平衡概率分布模型进行训练。作为一个或多个实施例,第一数据集被视为源域数据集,第二数据集被视为目标域数据集。作为一个或多个实施例,小样本,例如样本数量少于1000条。作为一个或多个实施例,慢性阻塞性肺疾病的前期疾病数据集,包括:慢性支气管炎、上气道阻塞综合症或肺气肿等。作为一个或多个实施例,所述训练集获取单元之后,所述基于特征和实例迁移的平衡概率分布模型构建单元之前,还包括:预处理单元,所述预处理单元,用于对第一数据集和第二数据集均进行预处理。作为一个或多个实施例,所述预处理单元包括:数据转换子单元,用于将文字数据转换为数字数据;数据筛选子单元,用于将噪声数据剔除,噪声数据是指与待预测疾病数据不相关的数据;数据中的测试号、住院号、姓名、种族、科别与本公开无关,是非需求数据,因此将其直接删除掉;数据填充子单元,用于对缺失数据进行填充;对筛选出的本文档来自技高网...

【技术保护点】
1.基于实例和特征共享级联的疾病预测系统,其特征是,包括:/n待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;/n待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。/n

【技术特征摘要】
1.基于实例和特征共享级联的疾病预测系统,其特征是,包括:
待预测数据集获取模块,其被配置为:获取待预测患者的所有疾病特征;
待预测数据集预测模块,其被配置为:将待预测患者的所有疾病特征,输入到已经训练好的基于特征和实例迁移的平衡概率分布模型中,输出待预测患者所患疾病是否为慢性阻塞性肺疾病。


2.如权利要求1所述的系统,其特征是,已经训练好的基于特征和实例迁移的平衡概率分布模型的训练模块,包括:
训练集获取单元,其被配置为:获取第一数据集和第二数据集;所述第一数据集为慢性阻塞性肺疾病的前期疾病数据集;所述第二数据集为已患和未患慢性阻塞性肺疾病的疾病数据集;所述第二数据集为小样本数据集;
基于特征和实例迁移的平衡概率分布模型构建单元,用于构建基于特征和实例迁移的平衡概率分布模型,所构建的基于特征和实例迁移的平衡概率分布模型,包括:依次串联的实例共享级联单元、特征共享级联单元和特征共享级联优化单元;
实例共享级联单元,其被配置为:从第一数据集中筛选出统计次数最多的N种疾病名称;
特征共享级联单元,其被配置为:筛选出第一数据集与第二数据集疾病特征距离最近的M种疾病特征;
特征共享级联优化单元,其被配置为:根据N种疾病名称和M种疾病特征,计算第一数据集与第二数据集之间的平衡概率分布值;
预测单元,其被配置为:根据平衡概率分布值与设定阈值的比较,输出第二数据集中待预测疾病是否为慢性阻塞性肺疾病;
验证单元,其被配置为:将预测单元的预测结果和预测单元的当前待预测疾病对应的特征均输入到弹性网络中,弹性网络输出损失函数值,如果损失函数值达到最小值,则表示基于特征和实例迁移的平衡概率分布模型训练结束;否则,继续对基于特征和实例迁移的平衡概率分布模型进行训练。


3.如权利要求2所述的系统,其特征是,所述训练集获取单元之后,所述基于特征和实例迁移的平衡概率分布模型构建单元之前,还包括:预处理单元,所述预处理单元,用于对第一数据集和第二数据集均进行预处理。


4.如权利要求3所述的系统,其特征是,所述预处理单元包括:
数据转换子单元,用于将文字数据转换为数字数据;
数据...

【专利技术属性】
技术研发人员:王红赵丽丽虞凤萍王倩王彩雨韩书李威庄鲁贺张慧
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1