模型的训练方法、实体关系抽取方法、装置、介质、设备制造方法及图纸

技术编号:32974450 阅读:18 留言:0更新日期:2022-04-09 11:48
本公开涉及医疗数据挖掘技术领域,提供了医学实体关系抽取模型的训练方法及装置、医学实体关系抽取方法及装置、计算机存储介质和电子设备。其中,上述的模型的训练方法包括:获取训练样本集,所述训练样本集包括有标签训练样本集和全局无标签训练样本集;根据有标签训练样本集对一预设自注意力模型进行有监督学习训练,以得到初始自注意力模型;基于所述全局无标签训练样本集,更新可靠训练样本集,在无标签训练样本集中的无标签样本数据的数量满足预设条件时,基于当前更新后的可靠样本训练集,确定出用于医学实体关系模型抽取的目标自注意力模型。本方案基于半监督学习的思想,可以提高医学实体关系模型训练效率和医学实体关系的抽取效率。关系的抽取效率。关系的抽取效率。

【技术实现步骤摘要】
模型的训练方法、实体关系抽取方法、装置、介质、设备


[0001]本公开涉及医疗数据挖掘
,具体而言,涉及一种医学实体关系抽取模型的训练方法、医学实体关系抽取模型的训练装置、医学实体关系抽取方法、医学实体关系抽取装置、计算机可读存储介质、电子设备。

技术介绍

[0002]随着医疗信息化过程的推进,患者就医记录由之前的手写病历转换为电子病历,产生了大量的电子医疗信息。对电子医疗信息中的实体关系进行抽取,可以挖掘出一些对医疗研究有用的信息。
[0003]相关技术中,主要通过人工标注的方式生成医学实体关系抽取中的标签数据,从而进行医学实体关系抽取模型的训练。
[0004]然而,这种人工生成标签的方式,导致模型的训练效率低下。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开的目的在于提供一种医学实体关系抽取模型的训练及装置、医学实体关系抽取方法及装置、计算机可读存储介质及电子设备,进而至少在一定程度上改善医学实体关系模型训练效率低下的问题。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的第一方面,提供了一种医学实体关系抽取模型的训练方法,包括:获取训练样本集,所述训练样本集包括有标签训练样本集和全局无标签训练样本集;根据有标签训练样本集进行有监督学习训练,以得到初始自注意力模型;基于所述全局无标签训练样本集,重复执行以下训练过程,直到满足第一预设条件时,基于当前更新后的可靠样本训练集,确定出用于医学实体关系抽取的目标自注意力模型:获取全局无标签训练样本集中的无标签样本数据,根据当前的初始自注意力模型预测所述无标签样本数据属于不同预设实体关系类型的概率;基于所述概率确定出可靠数据,并根据所述可靠数据更新可靠训练样本集;在当前确定出的所述可靠数据的数量满足第二条件时,基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练,以更新所述初始自注意力模型;其中,所述有标签训练样本集中包括样本电子病历和其对应的标注数据,所述标注数据包括所述样本电子病历中包括的医学实体对以及各所述医学实体对的实体关系,所述无标签训练样本集中包括未标注的样本电子病历。
[0009]在本公开的一种示例性实施例中,基于前述方案,所述根据有标签训练样本集对一预设自注意力模型进行有监督学习训练,以得到初始自注意力模型,包括:将所述有标签训练样本集划分为训练集和测试集;根据所述训练集进行有监督学习训练,以得到待调整
自注意力模型;根据所述测试对所述待调整自注意力模型进行测试,以得到所述待调整自注意力模型的模型评价指标的测试值;在所述模型评价指标的测试值满足第三预设条件时,确定所述待调整自注意力模型为所述初始自注意力模型。
[0010]在本公开的一种示例性实施例中,基于前述方案,所述基于所述概率确定出可靠数据,并根据所述可靠数据更新可靠训练样本集,包括:在预测出的所述无标签样本数据属于任一预设实体关系类型的概率大于或等于第一预设值时,将所述无标签样本数据确定为所述可靠数据,并将所述无标签样本数据添加至所述可靠训练样本集。
[0011]在本公开的一种示例性实施例中,基于前述方案,所述基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练,以更新所述初始自注意力模型,包括:将所述概率大于或等于第一预设值的预设实体关系类型确定为所述无标签样本数据的标签,以为所述无标签样本数据添加所述标签;基于所述有标签训练样本集和更新后的所述可靠训练样本集得到更新后的有标签训练样本集;根据更新后的所述有标签训练样本集进行有监督学习训练,以更新所述初始自注意力模型。
[0012]在本公开的一种示例性实施例中,基于前述方案,所述根据更新后的所述有标签训练样本集进行有监督学习训练,以更新所述初始自注意力模型,包括:获取所述更新后的所述有标签训练样本集中的样本电子病历,对所述样本电子病历进行分词处理,以得到出所述样本电子病历中包括的分词,根据预训练语言表征模型得到每个分词对应的语言特征向量;根据医学实体识别模型,识别出所述分词中的医学实体分词,并为识别出的所述医学实体分词添加标注,以得到每个分词的标注信息,所述标注信息用于表征所述分词是否为医学实体;将每个分词对应的语言特征向量输入到当前的初始自注意力模型中,以预测出不同分词对的实体关系;基于所述标注信息从各分词对对应的实体关系中确定出医学实体分词对的实体关系的预测结果;根据各所述医学实体分词对的实体关系的预测结果和所述医学实体分词对的实体关系的标签进行有监督学习训练,以更新所述初始自注意力模型。
[0013]在本公开的一种示例性实施例中,基于前述方案,将所述无标签样本数据确定为所述可靠数据后,所述方法还包括:从所述全局无标签样本训练集中删除所述无标签样本数据;所述第一预设条件包括所述全局无标签样本训练集中的无标签样本数据的数量小于或等于第二预设值。
[0014]在本公开的一种示例性实施例中,基于前述方案,在当前确定出的所述可靠数据的数量满足第二条件时,基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练,包括:在当前确定出的所述可靠数据的数量满足第三预设值时,基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练。
[0015]在本公开的一种示例性实施例中,基于前述方案,所述直到满足第一预设条件时,基于当前更新后的可靠训练样本集,确定出用于医学实体关系模型抽取的目标自注意力模型,包括:基于所述有标签训练样本集和当前更新后的所述可靠训练样本集得到更新后的有标签训练样本集;将所述有标签训练样本集划分为训练集和测试集;根据所述训练集对当前更新后的初始自注意力模型进行训练,以得到待测试自注意力模型;根据所述测试集对所述待测试自注意力模型进行测试,以得到所述待测试自注意力模型的模型评价指标的测试值;在所述模型评价指标的测试值满足第四预设条件时,确定所述待测试自注意力模型为所述目标自注意力模型。
[0016]根据本公开的第二方面,提供了一种医学实体关系抽取方法,包括:获取待处理电子病历对应的分词结果,根据预训练语言表征模型得到每个分词对应的语言特征向量;根据医学实体识别模型,识别出所述分词结果中的医学实体分词,并为识别出的所述医学实体分词添加标注,以得到每个分词的标注信息,所述标注信息用于表征所述分词是否为医学实体;将每个分词对应的语言特征向量输入到目标自注意力模型中,以确定出不同分词对对应的实体关系;基于所述标注信息从所述不同分词对的实体关系中,确定出医学分词实体对的实体关系,以抽取出所述待处理电子病历中的医学实体之间的关系;其中,所述目标自注意力模型基于第一方面述的医学实体关系抽取模型的训练方法训练得到。
[0017]根据本公开的第三方面,提供了一种医学实体关系抽取模型的训练装置,包括:训练样本集获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学实体关系抽取模型的训练方法,其特征在于,包括:获取训练样本集,所述训练样本集包括有标签训练样本集和全局无标签训练样本集;根据有标签训练样本集进行有监督学习训练,以得到初始自注意力模型;基于所述全局无标签训练样本集,重复执行以下训练过程,直到满足第一预设条件时,基于当前更新后的可靠样本训练集,确定出用于医学实体关系抽取的目标自注意力模型:获取全局无标签训练样本集中的无标签样本数据,根据当前的初始自注意力模型预测所述无标签样本数据属于不同预设实体关系类型的概率;基于所述概率确定出可靠数据,并根据所述可靠数据更新可靠训练样本集;在当前确定出的所述可靠数据的数量满足第二条件时,基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练,以更新所述初始自注意力模型;其中,所述有标签训练样本集中包括样本电子病历和其对应的标注数据,所述标注数据包括所述样本电子病历中包括的医学实体对以及各所述医学实体对的实体关系,所述无标签训练样本集中包括未标注的样本电子病历。2.根据权利要求1所述的医学实体关系抽取模型的训练方法,其特征在于,所述根据有标签训练样本集对一预设自注意力模型进行有监督学习训练,以得到初始自注意力模型,包括:将所述有标签训练样本集划分为训练集和测试集;根据所述训练集进行有监督学习训练,以得到待调整自注意力模型;根据所述测试对所述待调整自注意力模型进行测试,以得到所述待调整自注意力模型的模型评价指标的测试值;在所述模型评价指标的测试值满足第三预设条件时,确定所述待调整自注意力模型为所述初始自注意力模型。3.根据权利要求1所述的医学实体关系抽取模型的训练方法,其特征在于,所述基于所述概率确定出可靠数据,并根据所述可靠数据更新可靠训练样本集,包括:在预测出的所述无标签样本数据属于任一预设实体关系类型的概率大于或等于第一预设值时,将所述无标签样本数据确定为所述可靠数据,并将所述无标签样本数据添加至所述可靠训练样本集。4.根据权利要求3所述的医学实体关系抽取模型的训练方法,其特征在于,所述基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练,以更新所述初始自注意力模型,包括:将所述概率大于或等于第一预设值的预设实体关系类型确定为所述无标签样本数据的标签,以为所述无标签样本数据添加所述标签;基于所述有标签训练样本集和更新后的所述可靠训练样本集得到更新后的有标签训练样本集;根据更新后的所述有标签训练样本集进行有监督学习训练,以更新所述初始自注意力模型。5.根据权利要求4所述的医学实体关系抽取模型的训练方法,其特征在在于,所述根据更新后的所述有标签训练样本集进行有监督学习训练,以更新所述初始自注意力模型,包括:
获取所述更新后的所述有标签训练样本集中的样本电子病历,对所述样本电子病历进行分词处理,以得到出所述样本电子病历中包括的分词,根据预训练语言表征模型得到每个分词对应的语言特征向量;根据医学实体识别模型,识别出所述分词中的医学实体分词,并为识别出的所述医学实体分词添加标注,以得到每个分词的标注信息,所述标注信息用于表征所述分词是否为医学实体;将每个分词对应的语言特征向量输入到当前的初始自注意力模型中,以预测出不同分词对的实体关系;基于所述标注信息从各分词对对应的实体关系中确定出医学实体分词对的实体关系的预测结果;根据各所述医学实体分词对的实体关系的预测结果和所述医学实体分词对的实体关系的标签进行有监督学习训练,以更新所述初始自注意力模型。6.根据权利要求3所述的医学实体关系抽取模型的训练方法,将所述无标签样本数据确定为所述可靠数据后,所述方法还包括:从所述全局无标签样本训练集中删除所述无标签样本数据;所述第一预设条件包括所述全局无标签样本训练集中的无标签样本数据的数量小于或等于第二预设值。7.根据权利要求1所述的医学实体关系抽取模型的训练方法,其特征在在于,在当前确定出的所述可靠数据的数量满足第二条件时,基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练,包括:在当前确定出的所述可靠数据的...

【专利技术属性】
技术研发人员:王伟
申请(专利权)人:天津开心生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1