基于电子病历的模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号:27979817 阅读:18 留言:0更新日期:2021-04-06 14:15
本发明专利技术实施例公开了一种基于电子病历的模型训练方法、装置、设备及存储介质,该方法包括:获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。本发明专利技术实施例通过从医疗无标注数据库中抽取与病历领域对应的无标注训练数据,并基于无标注训练数据对初始标注模型进行训练,解决了由于病历领域训练样本不足导致现有神经网络模型的模型精度不高的问题。

【技术实现步骤摘要】
基于电子病历的模型训练方法、装置、设备及存储介质
本专利技术实施例涉及数据挖掘
,尤其涉及一种基于电子病历的模型训练方法、装置、设备及存储介质。
技术介绍
结构化电子病历是指从医学信息学的角度将以自然语言方式录入的医疗文本按照医学术语的要求进行结构化分析,并将这些语义结构最终以关系型结构的方式保存到数据库中。电子病历的结构化服务于药物临床试验和医疗科研分析等应用场景,由于医疗领域特殊而严格的合规性要求,使得对电子病历结构化的精度等指标有这严苛的要求。当前主流的将电子病历进行结构化的方式是采用神经网络模型,但神经网络模型依赖于大量的样本标注数据,而样本标注数据主要通过人工标注的方式得到,样本标注数据获取困难且样本量少,从而导致现有的神经网络模型的精度较差。为克服精度不佳的问题,现有技术往往会提高神经网络模型的复杂度,但复杂的神经网络模型会使得后续电子病历结构化的部署工作难度较大。
技术实现思路
本专利技术实施例提供了一种基于电子病历的模型训练方法、装置、设备及存储介质,以增加病历领域的标注数据的样本量,解决现有神经网络模型的精度不高的问题,进而避免提高神经网络模型的复杂度。第一方面,本专利技术实施例提供了一种基于电子病历的模型训练方法,该方法包括:获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。第二方面,本专利技术实施例还提供了一种基于电子病历的模型训练装置,该装置包括:目标模型获取模块,用于获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;无标注训练数据确定模块,用于基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;样本标注内容确定模块,用于基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;目标标注模型确定模块,用于基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。第三方面,本专利技术实施例还提供了一种电子设备,该电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述所涉及的任一所述的基于电子病历的模型训练方法。第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行上述所涉及的任一所述的基于电子病历的模型训练方法。本专利技术实施例通过基于预先训练完成的目标第一模型从医疗无标注数据库中筛选得到与病历领域对应的无标注训练数据,并基于训练完成的目标第二模型确定无标注训练数据对应的样本标注内容,通过样本标注内容和无标注训练数据对初始标注模型进行训练,实现了增加训练样本量的目的,从而解决了由于病历领域的标注病历数据的样本量不足导致的神经网络模型训练精度不高,且神经网络模型结构复杂的问题,降低了后续电子病历结构化的部署工作的难度和提高了预测结果的输出效率。附图说明图1是本专利技术实施例一提供的一种基于电子病历的模型训练方法的流程图。图2是本专利技术实施例二提供的一种基于电子病历的模型训练方法的流程图。图3是本专利技术实施例二提供的一种基于电子病历的模型训练方法的具体实例的流程图。图4是本专利技术实施例三提供的一种基于电子病历的模型训练装置的示意图。图5是本专利技术实施例四提供的一种电子设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种基于电子病历的模型训练方法的流程图,本实施例可适用于对电子病历结构化场景下的神经网络模型进行训练的情况,该方法可以由基于电子病历的模型训练装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可以配置于终端设备中。具体包括如下步骤:S110、获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。其中,示例性的,病历领域可以是专病科室,如皮肤科、心脑血管科或耳鼻喉科等等,当然,病历领域还可以是专门的疾病,如心肌炎、脑卒中或白血病等等。此处对病历领域的具体设置不作限定,可根据实际场景需求对病历领域进行定义。其中,具体的,样本标注内容可用于描述数据中记录的医学信息,示例性的,样本标注内容包括但不限于症状描述信息、患者以往治疗信息、用药信息和疾病诊断信息中至少一种。此处对样本标注内容不作限定,可根据实际场景需求对样本标注内容进行定义。在一个实施例中,可选的,该方法还包括:基于医疗无标注数据库中的无标注数据和自监督学习算法对初始第一模型进行训练,得到训练完成的预训练第一模型;获取与病历领域对应的标注病历训练数据,并基于标注病历训练数据和预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。其中,自监督学习算法是从大规模的无监督数据中挖掘自身的监督信息,通过该监督信息对网络模型进行训练,从而可以学习到对下游任务有价值的表征。其中,具体的,医疗无标注数据库包含海量与各类医学领域分别对应的无标注数据,示例性的,医疗无标注数据库中的无标注数据包括但不限于无标注病历数据、无标注药物数据和无标注医学词条数据等等。其中,具体的,标注病历训练数据包括与病历领域对应的无标注电子病历和样本标注内容。示例性的,标注病历训练数据可以是对病历领域采集到的无标注电子病历进行标注后得到的数据。在一个实施例中,可选的,基于标注病历训练数据和预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型,包括:将初始分类层添加到预训练第一模型中,并基于标注病历训练数据对添加后的预训练第一模型进行训练,得到与样本标注内容对应的目标第二模型;将不包含训练完成的目标分类层的目标第二模型作为与病历领域对应的目标第一模型。其中,具体的,初始分类层用于基于预训练第一模型输出的特征向量,确定输入的无标注病历数据对应的标注内容。示例性的,将初始分类层作为添加后的预训练第一模型中的最后一层。其中,示例性的,初始分类层可以是softmax分类层或sigmoid分类层。其中,具体的,将标注病历训练数据中的无标注电子病历输入到添加后的预训练第一模型中,并基于标注病历训练数据中的样本标注内容和输出结果对添加后的预训练第一模型进行训练,得到训练完成的与样本标注内容对应的目标第二模型。在本实施例本文档来自技高网...

【技术保护点】
1.一种基于电子病历的模型训练方法,其特征在于,包括:/n获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;/n基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;/n基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;/n基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。/n

【技术特征摘要】
1.一种基于电子病历的模型训练方法,其特征在于,包括:
获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型;
基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据;
基于所述目标第二模型,确定所述无标注训练数据对应的样本标注内容;
基于所述样本标注内容和所述无标注训练数据,对初始标注模型进行训练得到训练完成的目标标注模型。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于医疗无标注数据库中的无标注数据和自监督学习算法对初始第一模型进行训练,得到训练完成的预训练第一模型;
获取与病历领域对应的标注病历训练数据,并基于所述标注病历训练数据和所述预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。


3.根据权利要求2所述的方法,其特征在于,所述基于所述标注病历训练数据和所述预训练第一模型,确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型,包括:
将初始分类层添加到所述预训练第一模型中,并基于所述标注病历训练数据对添加后的预训练第一模型进行训练,得到与样本标注内容对应的目标第二模型;
将不包含训练完成的目标分类层的目标第二模型作为与病历领域对应的目标第一模型。


4.根据权利要求1所述的方法,其特征在于,所述基于所述目标第一模型,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据,包括:
将医疗无标注数据库中的无标注数据和与所述病历领域对应的无标注病历对照数据分别输入到所述目标第一模型中,得到输出的与所述医疗无标注数据库对应的筛选特征向量和与所述无标注病历对照数据对应的对照特征向量;
基于所述筛选特征向量和所述对照特征向量,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据。


5.根据权利要求4所述的方法,其特征在于,所述基于所述筛选特征向量和所述对照特征向量,确定医疗无标注数据库中与所述病历领域对应的无标注训练数据,包括:
针对每个筛选特征向量,将所述筛选特征向量分别与至少一个对照特征向量进行匹配,并将匹配成功的筛选特征向量对...

【专利技术属性】
技术研发人员:罗永贵张晓璐肖劲贾晓鹏刘霄晨
申请(专利权)人:联仁健康医疗大数据科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1