实体识别模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38681297 阅读:11 留言:0更新日期:2023-09-02 22:53
本发明专利技术涉及数字医疗领域,公开了一种实体识别模型训练方法,该方法包括获取训练数据集,训练数据集包括训练数据和真实标签;获取预设训练模型,通过预设训练模型对训练数据进行预测,得到预测标签;根据与同一训练数据对应的预测标签和真实标签,确定预设训练模型的散度损失值以及第一损失值;对所有第一损失值进行均值处理,得到平均损失值;根据平均损失值和散度损失值,确定预测损失值;在预测损失值达到收敛条件时,将收敛之后的预设训练模型确定为实体识别模型。本发明专利技术通过KL散度计算散度损失值,进而根据散度损失值和平均损失值对预设训练模型的损失值进行,减少了噪音数据的影响,防止了预设训练模型对噪音数据的过拟合。合。合。

【技术实现步骤摘要】
实体识别模型训练方法、装置、计算机设备及存储介质


[0001]本专利技术涉及自然语言
,尤其涉及一种实体识别模型训练方法、装置、计算机设备及存储介质。

技术介绍

[0002]命名实体识别((Named Entity Recognition,简称NER)是自然语言处理中基础的任务之一,一般使用计算机对语料进行自动标注,从而获取大规模的具备标注标签的语料,以形成命名实体识别模型的样本数据集,从而依据样本数据进行模型训练,得到命名实体识别模型以进行命名实体识别。例如,在数字医疗领域中,个人健康档案、处方、检查报告、病例等数据进行实体识别,得到对应的实体结果。
[0003]现有技术中,在数字医疗领域中往往是通过计算机自动标注的语料提高了模型的性能,但是此类语料通常并不准确,在自动标注过程中,会经常引入不完整标记或标注错误,使得自动标注获得的命名实体识别模型训练集存在噪声,在训练命名实体识别模型容易出现过拟合的现象,导致数字医疗领域中训练获得的识别模型精度不够。

技术实现思路

[0004]本专利技术实施例提供一种实体识别模型训练方法、装置、计算机设备及存储介质,以解决现有技术中训练获得的实体识别模型精度较低的问题。
[0005]一种实体识别模型训练方法,包括:
[0006]获取训练数据集,所述训练数据集包括至少一个训练数据和与所述训练数据对应的真实标签;
[0007]获取预设训练模型,通过所述预设训练模型对所有所述训练数据进行预测,得到与各所述训练数据对应的预测标签;/>[0008]根据与同一所述训练数据对应的所述预测标签和所述真实标签,确定所述预设训练模型的散度损失值,以及与各所述训练数据对应的第一损失值;
[0009]对所有所述第一损失值进行均值处理,得到所述预设训练模型的平均损失值;
[0010]根据所述平均损失值和所述散度损失值,确定所述预设训练模型的预测损失值;
[0011]在所述预测损失值达到收敛条件时,将收敛之后的所述预设训练模型确定为实体识别模型。
[0012]一种实体识别模型训练装置,包括:
[0013]数据获取模块,用于获取训练数据集,所述训练数据集包括至少一个训练数据和与所述训练数据对应的真实标签;
[0014]数据预测模块,用于获取预设训练模型,通过所述预设训练模型对所有所述训练数据进行预测,得到与各所述训练数据对应的预测标签;
[0015]损失确定模块,用于根据与同一所述训练数据对应的所述预测标签和所述真实标签,确定所述预设训练模型的散度损失值,以及与各所述训练数据对应的第一损失值;
[0016]均值处理模块,用于对所有所述第一损失值进行均值处理,得到所述预设训练模型的平均损失值;
[0017]预测损失模块,用于根据所述平均损失值和所述散度损失值,确定所述预设训练模型的预测损失值;
[0018]模型收敛模块,用于在所述预测损失值达到收敛条件时,将收敛之后的所述预设训练模型确定为实体识别模型。
[0019]一种中文命名实体识别方法,包括:
[0020]获取至少一个待识别数据;
[0021]调取实体识别模型,所述实体识别模型为根据上述实体识别模型训练方法训练得到的;
[0022]基于所述实体识别模型对所有所述待识别数据进行实体识别,得到与各所述待识别数据对应的实体识别结果。
[0023]一种中文命名实体识别装置,其特征在于,包括:
[0024]获取模块,用于获取至少一个待识别数据;
[0025]调用模块,用于调取实体识别模型,所述实体识别模型为根据上述实体识别模型训练方法训练得到的;
[0026]实体识别模块,用于基于所述实体识别模型对所有所述待识别数据进行实体识别,得到与各所述待识别数据对应的实体识别结果。
[0027]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实体识别模型训练方法,或所述处理器执行所述计算机程序时实现上述中文命名实体识别方法。
[0028]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实体识别模型训练方法,或所述计算机程序被处理器执行时实现上述中文命名实体识别方法。
[0029]本专利技术提供一种实体识别模型训练方法、装置、计算机设备及存储介质,该方法通过训练数据和真实标签对预设训练模型进行训练,从而实现了对预测标签的获取。根据与同一所述训练数据对应的所述预测标签和所述真实标签,从而实现了对散度损失值的确定,以及第一损失值的确定。通过对所有第一损失值进行汇总求平均,从而实现了对平均损失值的获取,进而通过平均损失值和散度损失值对预设训练模型的损失值,实现了对预测损失值的确定,减少了噪音数据的影响,防止了预设训练模型对噪音数据的过拟合。通过对模型的不断迭代更新,从而实现了在预测损失值在达到收敛条件时,对实体识别模型的确定。进一步地,通过基于transformer的FLAT结构的预设训练模型进行训练,从而实现了在数字医疗领域中充分考虑中文本身特性,充分利用词汇信息,最大程度避免词汇信息损失,进而通过位置向量融合了词汇信息和信息无损,加快了数字医疗领域中实体推断速度,提升了数字医疗领域中中文命名实体识别的准确率。
附图说明
[0030]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031]图1是本专利技术一实施例中实体识别模型训练方法的应用环境示意图;
[0032]图2是本专利技术一实施例中实体识别模型训练方法的流程图;
[0033]图3是本专利技术一实施例中中文命名实体识别方法的流程图;
[0034]图4是本专利技术一实施例中实体识别模型训练装置的原理框图;
[0035]图5是本专利技术一实施例中中文命名实体识别装置的原理框图;
[0036]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0037]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]本专利技术实施例提供的实体识别模型训练方法,该实体识别模型训练方法可应用如图1所示的应用环境中。具体地,该实体识别模型训练方法应用在实体识别模型训练装置中,该实体识别模型训练装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中训练获得的实体识别模型精度较低的问题。其中,该服务器可以是独立的服务器本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型训练方法,其特征在于,包括:获取训练数据集,所述训练数据集包括至少一个训练数据和与所述训练数据对应的真实标签;获取预设训练模型,通过所述预设训练模型对所有所述训练数据进行预测,得到与各所述训练数据对应的预测标签;根据与同一所述训练数据对应的所述预测标签和所述真实标签,确定所述预设训练模型的散度损失值,以及与各所述训练数据对应的第一损失值;对所有所述第一损失值进行均值处理,得到所述预设训练模型的平均损失值;根据所述平均损失值和所述散度损失值,确定所述预设训练模型的预测损失值;在所述预测损失值达到收敛条件时,将收敛之后的所述预设训练模型确定为实体识别模型。2.如权利要求1所述的实体识别模型训练方法,其特征在于,所述通过所述预设训练模型对所有所述训练数据进行预测,得到与各所述训练数据对应的预测标签,包括:通过所述预设训练模型的输入模块对所有所述训练数据进行初始化处理,得到与各所述训练数据对应的输入向量;获取与各所述输入向量对应的相对距离,通过所述预设训练模型的注意力模块对所有所述输入向量和所有所述相对距离进行注意力处理,得到与各所述训练数据对应的注意力向量;所述相对距离是指与所述输入向量对应的位置编码之间的距离;通过所述预设训练模型的前馈神经网络模块对所有所述注意力向量进行全连接处理,得到全连接向量;通过所述预设训练模型的输出模块对所有所述全连接向量进行预测处理,得到预测标签。3.如权利要求2所述的实体识别模型训练方法,其特征在于,所述获取与各所述输入向量对应的相对距离,包括:将所述输入向量输入到所述预设训练模型的转换模块中,通过所述转换模块对所述输入向量中的实体进行位置标注,得到与各所述输入向量中实体对应的开始位置编码和结束位置编码;对所述输入向量中实体的开始位置编码和结束位置编码进行转换处理,得到与各所述输入向量的相对距离。4.如权利要求2所述的实体识别模型训练方法,其特征在于,所述通过所述预设训练模型的前馈神经网络模块对所有所述注意力向量进行全连接处理,得到全连接向量,包括:通过所述前馈神经网络模块中的交叉层对所有所述注意力向量进行交叉处理,得到交叉向量;通过所述前馈神经网络模块中的隐藏层对所有所述交叉向量进行全连接处理,得到与所述注意力向量对应的全连接向量。5.如权利要求1所述的实体识别模型训练方法,其特征在于,所述确定所述预设训练模型的散度损失值之后,包括:对所有所述散度损失值进行排序,并确定所述散度损失值中的下四分位数、上四分位数以及四分位距,得到箱形图;
根据所述上四分位数以及所述四分位距,确定区间最小值;将所有所...

【专利技术属性】
技术研发人员:于凤英王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1