实体识别模型训练方法、装置、设备及实体识别方法制造方法及图纸

技术编号:32325346 阅读:23 留言:0更新日期:2022-02-16 18:32
本申请涉及一种实体识别模型训练方法、装置、设备及实体识别方法。该方法包括:利用第一训练样本训练初始模型,得到预训练模型,其中预训练模型用于自然语言处理;根据预训练模型建立初始多任务模型,初始多任务模型用于执行分词任务和实体识别任务;通过目标损失函数与第二训练样本对初始多任务模型进行训练得到目标多任务模型,目标损失函数用于联合分词任务和实体识别任务;将目标训练样本输入目标多任务模型,得到目标多任务模型输出的分词表示向量,以及目标多任务模型中的预训练模型输出的字向量和位置表示向量;利用分词表示向量、字向量和位置表示向量训练实体识别模型,得到目标模型。本申请解决了中文字词的实体识别准确度较低的问题。确度较低的问题。确度较低的问题。

【技术实现步骤摘要】
实体识别模型训练方法、装置、设备及实体识别方法


[0001]本申请涉及智能识别
,尤其涉及一种实体识别模型训练方法、装置、设备及实 体识别方法。

技术介绍

[0002]相关技术的实体识别方法,无法解决中文字词边界模糊的问题,中文与英文的边界标 识不相同,英文有明显的空格和一些独特的形式标志,例如首字母大写等作为英文的边界 标识,但是,中文字词没有像英文那样明显的切分标志,导致中文字词的前后边界模糊不 容易确定,分词不准确。因为,分词任务与实体识别任务是相互影响的,而相关技术中没 有考虑到分词任务与实体识别任务之间的关系,导致影响实体识别模型对中文字词进行实 体识别的准确度。

技术实现思路

[0003]本申请提供了一种实体识别模型训练方法、装置、设备及计算机可读存储介质,以解决 相关技术中没有考虑到分词任务与实体识别任务之间的关系,导致影响实体识别模型对中文 字词进行实体识别的准确度的问题。
[0004]第一方面,本申请提供了一种实体识别模型训练方法,利用第一训练样本训练初始模型, 得到预训练模型,其中预训练模型用于自然语言处理;根据预训练模型建立初始多任务模型, 初始多任务模型用于执行分词任务和实体识别任务;通过目标损失函数与第二训练样本对初 始多任务模型进行训练,得到目标多任务模型;将目标训练样本输入目标多任务模型,得到 目标多任务模型输出的分词表示向量,以及目标多任务模型中的预训练模型输出的字向量和 位置表示向量;利用分词表示向量、字向量和位置表示向量训练实体识别模型,得到目标模 型
[0005]第二方面,本申请提供一种实体识别方法,实体识别方法包括:通过第一方面任一实施 例的实体识别模型训练方法得到的目标模型对目标样本进行实体识别。
[0006]第三方面,本申请提供了一种实体识别模型训练装置,第一训练模块,利用第一训练样 本训练初始模型,得到预训练模型;第二训练模块,根据预训练模型建立初始多任务模型, 初始多任务模型用于执行分词任务和实体识别任务;第三训练模块,通过目标损失函数与第 二训练样本对初始多任务模型进行训练,得到目标多任务模型;第四训练模块,将目标训练 样本输入目标多任务模型,得到目标多任务模型输出的分词表示向量,以及目标多任务模型 中的预训练模型输出的字向量和位置表示向量;第五训练模块,利用分词表示向量、字向量 和位置表示向量训练实体识别模型,得到目标模型。
[0007]第四方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线, 其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0008]存储器,用于存放计算机程序;
[0009]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例的实体
识别模 型训练方法的步骤。
[0010]第五方面,提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序, 计算机程序被处理器执行时实现第一方面任一项实施例的实体识别模型训练方法的步骤。
[0011]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0012]本申请实施例提供的实体识别模型训练方法,应用于实体识别,利用第一训练样本训练 初始模型,得到预训练模型;根据预训练模型建立初始多任务模型,初始多任务模型用于执 行分词任务和实体识别任务,初始多任务模型建立了语义丰富的语言表征方法,增强了语言 模型的表征能力;通过目标损失函数与第二训练样本对初始多任务模型进行训练,得到目标 多任务模型,目标多任务模型通过目标损失函数和第二训练样本对初始多任务模型的分词任 务和实体识别任务进行训练,使得分词任务更为准确;将目标训练样本输入目标多任务模型, 得到目标多任务模型输出的分词表示向量,以及目标多任务模型中的预训练模型输出的字向 量和位置表示向量;利用分词表示向量、字向量和位置表示向量训练实体识别模型,得到目 标模型,考虑到分词任务对实体识别任务的影响,引入分词表示向量对实体识别模型进行训 练,有效提高了实体识别模型识别中文字词的准确度。
附图说明
[0013]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并 与说明书一起用于解释本专利技术的原理。
[0014]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不 付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为根据本申请实施例提供的一种可选的实体识别模型训练方法硬件环境示意图;
[0016]图2为根据本申请实施例提供的一种可选的实体识别模型训练方法流程示意图;
[0017]图3为根据本申请实施例提供的一种可选的目标多任务模型的结构示意图;
[0018]图4为根据本申请实施例提供的一种可选的实体识别模型的结构示意图;
[0019]图5为根据本申请实施例提供的一种可选的实体识别模型的结构示意图;
[0020]图6为根据本申请实施例提供的另一种可选的实体识别模型训练方法流程示意图;
[0021]图7为根据本申请实施例提供的另一种可选的实体识别模型训练方法流程示意图;
[0022]图8为根据本申请实施例提供的另一种可选的实体识别模型训练方法流程示意图;
[0023]图9为根据本申请实施例提供的另一种可选的实体识别模型训练方法流程示意图;
[0024]图10为根据本申请实施例提供的另一种可选的实体识别模型训练方法流程示意图;
[0025]图11为根据本申请实施例提供的另一种可选的实体识别模型训练方法流程示意
图;
[0026]图12为根据本申请实施例提供的一种可选的模型训练装置框图;
[0027]图13为本申请实施例提供的一种可选的电子设备结构示意图。
具体实施方式
[0028]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附 图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请 的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没 有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]相关技术的实体识别方法,无法解决中文字词边界模糊的问题,中文与英文的边界标识 不相同,英文有明显的空格和一些独特的形式标志,例如首字母大写等作为英文的边界标识, 但是,中文字词没有像英文那样明显的切分标志,导致中文字词的前后边界模糊不容易确定, 分词不准确,因为,分词任务与实体识别任务是相互影响的,而相关技术中没有考虑到分词 任务与实体识别任务之间的关系,导致影响实体识别模型对中文字词进行实体识别的准确 度。
[0030]为了解决
技术介绍
中提及的问题,根据本申请实施例的一方面,提供了一种实体识别模 型训练方法的实施例。
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型训练方法,其特征在于,包括:利用第一训练样本训练初始模型,得到预训练模型,其中所述预训练模型用于自然语言处理;根据所述预训练模型建立初始多任务模型,所述初始多任务模型用于执行分词任务和实体识别任务;通过目标损失函数与第二训练样本对所述初始多任务模型进行训练,得到目标多任务模型,所述目标损失函数用于联合所述分词任务和所述实体识别任务;将目标训练样本输入所述目标多任务模型,得到所述目标多任务模型输出的分词表示向量,以及所述目标多任务模型中的预训练模型输出的字向量和位置表示向量;利用所述分词表示向量、所述字向量和所述位置表示向量训练实体识别模型,得到目标模型。2.根据权利要求1所述的实体识别模型训练方法,其特征在于,根据所述预训练模型建立初始多任务模型,包括:将所述预训练模型分别与第一任务层和第二任务层连接,得到初始多任务模型,所述第一任务层用于执行所述实体识别任务,所述第二任务层用于执行所述分词任务。3.根据权利要求2所述的实体识别模型训练方法,其特征在于,通过目标损失函数与第二训练样本对所述初始多任务模型进行训练,得到目标多任务模型包括:通过所述第二训练样本对所述初始多任务模型进行训练;当所述目标损失函数的损失值达到阈值时,判定所述初始多任务模型训练完成,得到所述目标多任务模型;所述目标损失函数为,其中,Loss表示目标损失函数的损失值,loss1表示实体识别任务的损失值,loss2表示分词任务的损失值,Step表示训练初始多任务模型的总次数,i表示当前的训练次数。4.根据权利要求3所述的实体识别模型训练方法,其特征在于,通过目标损失函数与第二训练样本对所述初始多任务模型进行训练,还包括:通过更新所述第二训练样本对所述初始多任务模型的分词任务进行训练;当所述分词任务的损失值满足目标损失阈值时,通过更新所述第二训练样本对所述初始多任务模型的实体识别任务进行训练。5.根据权利要求1

4任意一项所述的实体识别模型训练方法,其特征在于,利用所述分词表示向量、所述字向量和所述位置表示向量训练实体识别模型,得到目标模型...

【专利技术属性】
技术研发人员:刘伟硕
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1