This application provides a method and device for generating health records data. The method trains archive recognizer in InfoGAN framework by several groups of real health archive data, trains archive generator in InfoGAN framework by target disease category set and target health grade set, and optimizes archive recognizer and archive generator alternately by loss function of InfoGAN framework, and after each optimization training, it is based on current archive. The case recognizer and the current archive generator carry out the data authenticity discrimination until the real probability value is close to the preset probability value. Then the archive generator is used as the target archive generation model to simulate and synthesize the health archives data with high authenticity and data accuracy, and through the target disease type set and the target health grade set respectively. Its composition ensures data diversity and facilitates medical research.
【技术实现步骤摘要】
健康档案数据生成方法及装置
本申请涉及医疗数据生成
,具体而言,涉及一种健康档案数据生成方法及装置。
技术介绍
随着人工智能技术及大数据技术的不断发展,越来越多的行业领域逐步涉及到了人工智能技术及大数据技术的应用,其中医疗领域便是众多行业领域中的一个极为重要的组成部分。而目前的医疗领域在数据获取方面存在很大不足,例如,现有的个人健康档案数据的获取过程除了花费大量时间来采集真实健康档案数据的方式之外,一般还包括通过统计分析法模拟合成健康档案数据的方式。针对这两种方式而言,前者会涉及到对患者既往病史的隐私保护,并受到医疗病例数据管制体系带来的影响而存在获取到的数据不完整、获取周期长、资源消耗大等问题,后者的实现算法复杂,在执行过程中需要大量的人工参与处理,以至于模拟合成的数据与真实数据之间的误差极大,整体的数据准确度不高,且数据多样性弱。
技术实现思路
为了克服现有技术中的上述不足,本申请的目的在于提供一种健康档案数据生成方法及装置,所述健康档案数据生成方法的人工参与度极小,可模拟合成真实性高、数据准确度高且数据多样性强的健康档案数据,便于医疗研究。就方法而言,本申 ...
【技术保护点】
1.一种健康档案数据生成方法,其特征在于,所述方法包括:获取多组真实健康档案数据,并将获取到的各组真实健康档案数据输入到信息最大化生成式对抗网络InfoGAN架构中进行识别器训练,得到档案识别器,其中所述档案识别器用于判别档案数据真伪;获取目标患病种类集合及目标健康等级集合,并将所述目标患病种类集合及所述目标健康等级集合输入到所述InfoGAN架构中进行生成器训练,得到档案生成器,其中所述档案生成器用于生成健康档案数据;根据所述InfoGAN架构所对应的损失函数交替地对所述档案识别器及所述档案生成器进行优化训练,并在每次优化训练后将由当前档案生成器生成的健康档案数据在当前档 ...
【技术特征摘要】
1.一种健康档案数据生成方法,其特征在于,所述方法包括:获取多组真实健康档案数据,并将获取到的各组真实健康档案数据输入到信息最大化生成式对抗网络InfoGAN架构中进行识别器训练,得到档案识别器,其中所述档案识别器用于判别档案数据真伪;获取目标患病种类集合及目标健康等级集合,并将所述目标患病种类集合及所述目标健康等级集合输入到所述InfoGAN架构中进行生成器训练,得到档案生成器,其中所述档案生成器用于生成健康档案数据;根据所述InfoGAN架构所对应的损失函数交替地对所述档案识别器及所述档案生成器进行优化训练,并在每次优化训练后将由当前档案生成器生成的健康档案数据在当前档案识别器处进行真伪判别,直至由所述档案识别器判别出的真实概率数值与预设概率数值之间的概率差绝对值不大于预设概率差阈值时为止;以概率差绝对值不大于预设概率差阈值时所对应的档案生成器作为目标档案生成模型,并基于所述目标档案生成模型生成匹配的健康档案数据。2.根据权利要求1所述的方法,其特征在于,每组真实健康档案数据包括对应患者的档案记录年龄、该患者的历史患病种类,以及每个历史患病种类的历史患病次数,所述将获取到的各组真实健康档案数据输入到信息最大化生成式对抗网络InfoGAN架构中进行识别器训练,得到档案识别器的步骤包括:针对每组真实健康档案数据,根据该组真实健康档案数据中的患者的档案记录年龄、该患者的历史患病种类及每个历史患病种类的历史患病次数,对该组真实健康档案数据进行编码,得到该组真实健康档案数据对应的每个患病种类的患病档案数据矩阵;将该组真实健康档案数据对应的每个患病种类的患病档案数据矩阵进行矩阵耦合,得到该组真实健康档案数据所对应的档案特征矩阵;在所述InfoGAN架构中基于得到的各组真实健康档案数据对应的档案特征矩阵进行识别器训练,得到所述档案识别器。3.根据权利要求2所述的方法,其特征在于,所述根据该组真实健康档案数据中的患者的档案记录年龄、该患者的历史患病种类及每个历史患病种类的历史患病次数,对该组真实健康档案数据进行编码,得到该组真实健康档案数据对应的每个患病种类的患病档案数据矩阵的步骤包括:根据所述真实健康档案数据中对应患者的档案记录年龄,计算该患者在患病时的患病时间权重;针对该患者在所述真实健康档案数据中的每个历史患病种类,对该历史患病种类及该历史患病种类的历史患病次数进行ONE-HOT编码,得到对应的患病编码矩阵;将每个历史患病种类所对应的患病编码矩阵与所述患病时间权重进行相乘运算,得到每个患病种类对应的所述患病档案数据矩阵。4.根据权利要求2所述的方法,其特征在于,所述将所述目标患病种类集合及所述目标健康等级集合输入到所述InfoGAN架构中进行生成器训练,得到档案生成器的步骤包括:根据所述目标患病种类集合及所述目标健康等级集合生成多组健康特征样本数据;在所述InfoGAN架构中基于得到的多组健康特征样本数据进行神经网络模型训练,得到对应的档案生成器。5.根据权利要求4所述的...
【专利技术属性】
技术研发人员:代超,徐茂,谭光鸿,吴佩军,
申请(专利权)人:中电健康云科技有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。