基于电子病历的模型训练方法、装置、设备及存储介质制造方法及图纸

技术编号：27979817 阅读：18 留言：0更新日期：2021-04-06 14:15

本发明专利技术实施例公开了一种基于电子病历的模型训练方法、装置、设备及存储介质，该方法包括：获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型；基于所述目标第一模型，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据；基于所述目标第二模型，确定所述无标注训练数据对应的样本标注内容；基于所述样本标注内容和所述无标注训练数据，对初始标注模型进行训练得到训练完成的目标标注模型。本发明专利技术实施例通过从医疗无标注数据库中抽取与病历领域对应的无标注训练数据，并基于无标注训练数据对初始标注模型进行训练，解决了由于病历领域训练样本不足导致现有神经网络模型的模型精度不高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于电子病历的模型训练方法、装置、设备及存储介质
本专利技术实施例涉及数据挖掘
，尤其涉及一种基于电子病历的模型训练方法、装置、设备及存储介质。
技术介绍
结构化电子病历是指从医学信息学的角度将以自然语言方式录入的医疗文本按照医学术语的要求进行结构化分析，并将这些语义结构最终以关系型结构的方式保存到数据库中。电子病历的结构化服务于药物临床试验和医疗科研分析等应用场景，由于医疗领域特殊而严格的合规性要求，使得对电子病历结构化的精度等指标有这严苛的要求。当前主流的将电子病历进行结构化的方式是采用神经网络模型，但神经网络模型依赖于大量的样本标注数据，而样本标注数据主要通过人工标注的方式得到，样本标注数据获取困难且样本量少，从而导致现有的神经网络模型的精度较差。为克服精度不佳的问题，现有技术往往会提高神经网络模型的复杂度，但复杂的神经网络模型会使得后续电子病历结构化的部署工作难度较大。
技术实现思路
本专利技术实施例提供了一种基于电子病历的模型训练方法、装置、设备及存储介质，以增加病历领域的标注数据的样本量，解决现有神经网络模型的精度不高的问题，进而避免提高神经网络模型的复杂度。第一方面，本专利技术实施例提供了一种基于电子病历的模型训练方法，该方法包括：获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型；基于所述目标第一模型，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据；基于所述目标第二模型，确定所述无标注训练数据对应...

【技术保护点】
1.一种基于电子病历的模型训练方法，其特征在于，包括：/n获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型；/n基于所述目标第一模型，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据；/n基于所述目标第二模型，确定所述无标注训练数据对应的样本标注内容；/n基于所述样本标注内容和所述无标注训练数据，对初始标注模型进行训练得到训练完成的目标标注模型。/n

【技术特征摘要】
1.一种基于电子病历的模型训练方法，其特征在于，包括：
获取预先训练完成的与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型；
基于所述目标第一模型，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据；
基于所述目标第二模型，确定所述无标注训练数据对应的样本标注内容；
基于所述样本标注内容和所述无标注训练数据，对初始标注模型进行训练得到训练完成的目标标注模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
基于医疗无标注数据库中的无标注数据和自监督学习算法对初始第一模型进行训练，得到训练完成的预训练第一模型；
获取与病历领域对应的标注病历训练数据，并基于所述标注病历训练数据和所述预训练第一模型，确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型。

3.根据权利要求2所述的方法，其特征在于，所述基于所述标注病历训练数据和所述预训练第一模型，确定与病历领域对应的目标第一模型和与样本标注内容对应的目标第二模型，包括：
将初始分类层添加到所述预训练第一模型中，并基于所述标注病历训练数据对添加后的预训练第一模型进行训练，得到与样本标注内容对应的目标第二模型；
将不包含训练完成的目标分类层的目标第二模型作为与病历领域对应的目标第一模型。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标第一模型，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据，包括：
将医疗无标注数据库中的无标注数据和与所述病历领域对应的无标注病历对照数据分别输入到所述目标第一模型中，得到输出的与所述医疗无标注数据库对应的筛选特征向量和与所述无标注病历对照数据对应的对照特征向量；
基于所述筛选特征向量和所述对照特征向量，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据。

5.根据权利要求4所述的方法，其特征在于，所述基于所述筛选特征向量和所述对照特征向量，确定医疗无标注数据库中与所述病历领域对应的无标注训练数据，包括：
针对每个筛选特征向量，将所述筛选特征向量分别与至少一个对照特征向量进行匹配，并将匹配成功的筛选特征向量对...

【专利技术属性】
技术研发人员：罗永贵，张晓璐，肖劲，贾晓鹏，刘霄晨，
申请(专利权)人：联仁健康医疗大数据科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人