一种仿真文本病历的生成方法及系统技术方案

技术编号：19781346 阅读：82 留言：0更新日期：2018-12-15 12:12

一种仿真文本病历的生成方法及系统，采用原始病历生成正样本，生成器每次循环以上一次循环输出的词向量和疾病标签向量为输入，输出新的词向量，重复多次生成由多个词向量组成的句子。每生成一个词向量，以已生成词向量序列为初始状态，重复运行生成器采样，生成多个句子，判别器对所有句子的奖励值取平均值，作为该次的词向量的奖励值，根据得到的句子和词向量的奖励值更新生成器，如此反复直至收敛。收敛的生成器生成负样本，与正样本组成混合病历数据集，以疾病标签向量和词向量序列为输入，得到每一病历来自真实病历的概率，更新判别器，如此反复直至收敛。本发明专利技术避免涉及病人隐私，仿真文本病历可辅助其它机器学习任务，方便对该疾病的研究。

全部详细技术资料下载

【技术实现步骤摘要】
一种仿真文本病历的生成方法及系统
本专利技术涉及机器学习
，具体地说，涉及一种仿真文本病历的生成方法及系统。
技术介绍
随着时代的发展，信息化程度的不断提高，电子病历的使用越来越广泛。与此同时，随着近年来机器学习与深度学习的快速发展，人们开始尝试用机器学习的方法解决医疗领域的问题，并取得了一些成效。然而，电子病历数据的获取与使用，一方面由于涉及病人隐私等问题，可能受到患者个人意愿和法律法规的层层限制，从而制约了基于大数据的机器学习等相关算法的使用；另一方面由于病历数据本身具有较大的差异性，对于某类疾病可能会出现正负样本(患病样本与非患病样本)不均衡的情况，影响机器学习相关算法的效果。针对以上问题，生成尽量还原真实病历样本分布的仿真病历数据，是一种有效的解决方案，然而当前却很少有技术尝试解决这一问题。少量的病历生成与文本生成的相关技术也存在以下问题：1.作用仅为辅助生成格式化病历，使之符合标准格式需要，减轻医生手写排版的工作，并未涉及自动生成仿真病历。2.可以根据已有文本进行合并，生成新文本，但并未涉及机器学习相关算法，生成文本多样性也十分有限。3.相关基于人工智能的文本生成方法作用范围有限(仅为文本扩展，而无法生成全文本)，且应用范围不明确，与医疗领域结合不紧密。
技术实现思路
为解决以上问题，本专利技术提供一种仿真文本病历的生成方法及系统，包括以下步骤：步骤S1，对原始病历数据进行预处理，生成由真实病历数据组成的正样本，具体包括如下步骤：步骤S11，获取包括病情描述和诊断结果的真实病历的文本；步骤S12，对病情描述和诊断结果进行提取并分别编制适于计算机...

【技术保护点】
1.一种仿真文本病历的生成方法，其特征在于，包括以下步骤：步骤S1，对原始病历数据进行预处理，生成由真实病历数据组成的正样本，具体包括如下步骤：步骤S11，获取包括病情描述和诊断结果的真实病历的文本；步骤S12，对病情描述和诊断结果进行提取并分别编制适于计算机读取的编码；步骤S14，生成所述正样本，步骤S2，训练模型，具体包括以下步骤：步骤S21，构建生成器与判别器，初始化参数；步骤S23，对生成器与判别器进行对抗训练，循环执行如下过程直至生成式对抗网络收敛：步骤S231，对生成器执行多次迭代，直至收敛，具体包括如下步骤：步骤S2311，生成器执行T次循环，每次循环以上一次循环输出的词向量和疾病标签向量为输入，输出新的词向量，从而重复T次生成长度为T的句子X1:T，其中，以已经生成的词向量序列(x1,x2,…,xt‑1)为初始状态固定不变，重复运行生成器进行采样，生成以X1:t‑1为前缀的N个完整的句子，判别器对每个句子给出一个奖励值，对N个句子的奖励值取平均值，作为第t步所生成词向量xt的奖励值，其中，词向量从事先设定的包含病历词汇的词典中选取，疾病标签向量是与病情诊断结果对应的向量...

【技术特征摘要】
1.一种仿真文本病历的生成方法，其特征在于，包括以下步骤：步骤S1，对原始病历数据进行预处理，生成由真实病历数据组成的正样本，具体包括如下步骤：步骤S11，获取包括病情描述和诊断结果的真实病历的文本；步骤S12，对病情描述和诊断结果进行提取并分别编制适于计算机读取的编码；步骤S14，生成所述正样本，步骤S2，训练模型，具体包括以下步骤：步骤S21，构建生成器与判别器，初始化参数；步骤S23，对生成器与判别器进行对抗训练，循环执行如下过程直至生成式对抗网络收敛：步骤S231，对生成器执行多次迭代，直至收敛，具体包括如下步骤：步骤S2311，生成器执行T次循环，每次循环以上一次循环输出的词向量和疾病标签向量为输入，输出新的词向量，从而重复T次生成长度为T的句子X1:T，其中，以已经生成的词向量序列(x1,x2,…,xt-1)为初始状态固定不变，重复运行生成器进行采样，生成以X1:t-1为前缀的N个完整的句子，判别器对每个句子给出一个奖励值，对N个句子的奖励值取平均值，作为第t步所生成词向量xt的奖励值，其中，词向量从事先设定的包含病历词汇的词典中选取，疾病标签向量是与病情诊断结果对应的向量；步骤S2312，根据得到的序列总长度为T的句子，和序列中每个词向量获得的来自于判别器的奖励值，更新生成器，然后返回步骤S2311，直至收敛；步骤S232，对判别器执行多次迭代，直至收敛，具体包括如下步骤：步骤S2321，用步骤S231计算收敛所得的生成器生成由虚构病历数据组成的负样本，并与所述正样本组成混合病历数据集；步骤S2322，在判别器中，以疾病标签向量和混合病历数据集中的病历的词向量序列表示作为输入，经过神经网络计算得到混合病历数据集中每一病历来自真实病历的概率，训练更新判别器，然后返回步骤2321，直至收敛；步骤S3，生成仿真病历数据；步骤S31，输入疾病标签，使用训练好的生成器生成仿真病历数据；步骤S32，将生成的仿真病历数据中的数字编码还原为可读文字。2.如权利要求1所述的仿真文本病历的生成方法，其特征在于，在步骤S12后还包括步骤S13，去除重复数据、无效数据。3.如权利要求1所述的仿真文本病历的生成方法，其特征在于，在步骤S21构建生成器与判别器后还包括步骤S22，预训练生成器和判别器，具体包括如下步骤：步骤S221，在真实病历数据上，通过极大似然估计对生成器进行预训练；步骤S222，生成器生成由虚构病历数据组成的预训练负样本，并将该预训练负样本与正样本组合成预训练混合病历数据集，在预训练混合病历数据集上，通过极小化交叉熵对判别器进行预训练。4.如权利要求1所述的仿真文本病历的生成方法，其特征在于，步骤S12中对病情描述和诊断结果进行提取并编码具体包括：步骤S121，利用分词的方法对...

【专利技术属性】
技术研发人员：张学工，关嘉麒，闾海荣，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人