一种实体识别模型训练方法及装置、实体识别方法及装置制造方法及图纸

技术编号:36026688 阅读:39 留言:0更新日期:2022-12-21 10:25
本申请提供一种实体识别模型训练方法及装置、实体识别方法及装置,应用于数据处理技术领域,其中,实体识别模型训练方法包括:获取本轮迭代对应的样本实体集;其中,本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,第一文本表示为本轮迭代对应的初始实体集中的各个初始实体的文本表示,第二文本表示为上轮迭代对应的样本实体集中的各个样本实体的文本表示;根据本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。成的成本。成的成本。

【技术实现步骤摘要】
一种实体识别模型训练方法及装置、实体识别方法及装置


[0001]本申请涉及数据处理
,具体而言,涉及一种实体识别模型训练方法及装置、实体识别方法及装置。

技术介绍

[0002]命名实体识别是自然语言处理领域的热点研究方向之一,目的是从非结构化文本中识别出所需的实体和类型,其识别得到的结果可以应用于实体关系抽取、知识图谱构建等下游任务。在现有技术中,一般采用有监督的识别方法,但是采用该种方法,在对实体识别模型进行训练时需要大量人工标注的、具有领域特定性的语料和标签,导致训练成本较高且训练得到的实体识别模型的应用场景较少。

技术实现思路

[0003]本申请实施例的目的在于提供一种实体识别模型训练方法及装置、实体识别方法及装置,用以解决现有技术中对实体识别模型进行训练的训练成本较高且训练得到的实体识别模型的应用场景较少的技术问题。
[0004]第一方面,本申请实施例提供一种实体识别模型训练方法,包括:获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。在上述方案中,通过初始实体集中的各个初始实体对应的文本表示从初始实体集中筛选得到样本实体集,并利用上述筛选得到的样本实体集对实体识别模型进行训练。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
[0005]在可选的实施方式中,所述获取本轮迭代对应的样本实体集,包括:获取所述本轮迭代对应的初始实体集;将所述本轮迭代对应的初始实体集以及所述上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到所述本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及所述上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示;根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集。在上述方案中,由于初始实体集中不一定都是正确标记的结果,因此可以通过文本表示模型可以从初始实体集中筛选得到准确度较高的样本实体集。因此,在本申请实施例中,训练使用的样本数据无需人工标注便可以自动得到,从而可以减少训练过程中人工标注造成的成本。此外,本申请实施例得到的训练后的实体识别模型无需受特定领域的标签的限制,可以适用于多种应用场景。
[0006]在可选的实施方式中,所述根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集,包括:针对所述本轮迭代对应的初始实体集中的一个初始实体以及所述上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度;若所述实体置信度大于实体阈值,将该初始实体加入所述上轮迭代对应的样本实体集中。在上述方案中,可以通过计算初始实体的实体置信度,并将上述实体置信度与实体阈值进行比较,通过对样本实体集进行更新,以得到准确度更高的样本实体集。
[0007]在可选的实施方式中,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个预先相似度中的最大值确定为所述实体置信度。在上述方案中,可以通过计算每个初始实体的局部分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
[0008]在可选的实施方式中,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个余弦相似度中的最大值确定为该初始实体对应的局部分数;计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数;根据所述局部分数以及所述全局分数计算所述实体置信度。在上述方案中,可以通过计算每个初始实体的局部分数以及全局分数作为实体置信度,并基于实体置信度筛选实体集中的噪声数据,得到准确度更高的样本实体集。
[0009]在可选的实施方式中,所述计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数,包括:计算该样本实体子集中部分样本实体对应的第二文本表示的文本表示平均值;计算所述文本表示平均值与该初始实体对应的第一文本表示之间的余弦相似度,得到所述全局分数。在上述方案中,由于局部分数是基于样本实体集中的单个实例来估计的,因此,可以进一步计算基于样本实体集整体来估计的全局分数,以得到准确度更高的样本实体集。
[0010]在可选的实施方式中,所述根据所述局部分数以及所述全局分数计算所述实体置信度,包括:计算所述局部分数以及所述全局分数的几何平均值,得到所述实体置信度。在上述方案中,为了保证样本实体集中新样本实例的探索能力和可靠性,可以通过计算局部分数与全局分数的几何平均值得到某一个初始实体的实体置信度,以得到准确度更高的样本实体集。
[0011]在可选的实施方式中,在所述将该初始实体加入所述上轮迭代对应的样本实体集中之后,所述方法还包括:根据所述本轮迭代对应的样本实体集中的样本实体对应的实体置信度,对所述实体阈值进行更新。在上述方案中,由于不同迭代轮次中不同类别的实体阈值可能不同,因此可以设置一个可动态调整的实体阈值,以得到准确度更高的样本实体集。
[0012]在可选的实施方式中,在所述根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集之后,所述
方法还包括:根据所述本轮迭代对应的样本实体集对所述上轮迭代对应的文本表示模型进行训练,得到本轮迭代对应的文本表示模型。在上述方案中,可以利用更新后的样本实体集对文本表示模型进行更新,以用于下一轮的样本实体集的更新,从而可以得到准确度更高的样本实体集。
[0013]在可选的实施方式中,用于训练所述文本表示模型的损失函数包括:对比学习损失函数,和/或,掩码语言模型损失函数。在上述方案中,可以通过对比学习损失函数以及掩码语言模型损失函数来对文本表示模型进行更新,从而可以得到准确度更高的样本实体集。
[0014]在可选的实施方式中,所述对比学习损失函数为:
[0015][0016]其中,N为样本个数,k为同类的正样本,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型训练方法,其特征在于,包括:获取本轮迭代对应的样本实体集;其中,所述本轮迭代对应的样本实体集根据第一文本表示以及第二文本表示对上轮迭代对应的样本实体集更新得到,所述第一文本表示为所述本轮迭代对应的初始实体集中的各个初始实体的文本表示,所述第二文本表示为所述上轮迭代对应的样本实体集中的各个样本实体的文本表示;根据所述本轮迭代对应的样本实体集对上轮迭代对应的实体识别模型进行训练,得到本轮迭代对应的实体识别模型。2.根据权利要求1所述的实体识别模型训练方法,其特征在于,所述获取本轮迭代对应的样本实体集,包括:获取所述本轮迭代对应的初始实体集;将所述本轮迭代对应的初始实体集以及所述上轮迭代对应的样本实体集输入上轮迭代对应的文本表示模型中,分别得到所述本轮迭代对应的初始实体集中各个初始实体对应的第一文本表示以及所述上轮迭代对应的样本实体集中各个样本实体对应的第二文本表示;根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集。3.根据权利要求2所述的实体识别模型训练方法,其特征在于,所述根据所述第一文本表示以及所述第二文本表示对所述上轮迭代对应的样本实体集进行更新,得到所述本轮迭代对应的样本实体集,包括:针对所述本轮迭代对应的初始实体集中的一个初始实体以及所述上轮迭代对应的样本实体集中与该初始实体的类别相同的样本实体子集,根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度;若所述实体置信度大于实体阈值,将该初始实体加入所述上轮迭代对应的样本实体集中。4.根据权利要求3所述的实体识别模型训练方法,其特征在于,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个预先相似度中的最大值确定为所述实体置信度。5.根据权利要求3所述的实体识别模型训练方法,其特征在于,所述根据该初始实体对应的第一文本表示与该样本实体子集对应的第二文本表示计算该初始实体对应的实体置信度,包括:计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的多个余弦相似度;将多个余弦相似度中的最大值确定为该初始实体对应的局部分数;计算该初始实体对应的第一文本表示与该样本实体子集中的各个样本实体对应的第二文本表示之间的全局分数;根据所述局部分数以及所述全局分数计算所述实体置信度。
6.根据权利要求5所述的实体识别模型训练方...

【专利技术属性】
技术研发人员:穆晶晶李健铨胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1