一种实体识别领域迁移方法、装置、设备和存储介质制造方法及图纸

技术编号:38230016 阅读:10 留言:0更新日期:2023-07-25 17:58
本发明专利技术公开了一种实体识别领域迁移方法、装置、设备和存储介质。该方法包括:利用目标领域的已标注样本集,训练源模型,得到第一模型;使用第一模型对目标领域的无标注样本集中的各个无标注样本分别进行实体识别并且根据实体识别结果,在无标注样本集中筛选伪标注样本集;利用伪标注样本集,训练第一模型,得到第二模型;使用第一模型和第二模型分别对伪标注样本集中的每个伪标注样本进行实体识别并且根据实体识别结果,对各个伪标注样本进行排序;根据排序后的各个伪标注样本,按照预设的课程学习方式对所述第二模型执行目标轮次的训练,得到实体识别模型。本发明专利技术解决了领域迁移任务标注数据规模普遍较少的问题,最大程度的利用了无标注数据。了无标注数据。了无标注数据。

【技术实现步骤摘要】
一种实体识别领域迁移方法、装置、设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及一种实体识别领域迁移方法、装置、设备和存储介质。

技术介绍

[0002]领域迁移是指将原有领域内性能达标的模型迁移到其他的目标领域中,并且使该模型在目标领域内也能获得较佳的性能。
[0003]但是,在实体识别领域中,实体识别模型的性能和标注数据的规模呈正相关性,在将模型迁移到实体识别领域时,需要规模较大的标注数据对模型进行训练。然而,目前用于实体识别训练的标注数据规模较小而且标注数据难以获取,虽然存在大量的无标注数据,但是现有技术中缺乏对无标注数据的合理使用方法,无法将无标注数据运用到模型训练中,在这种情况下,即便将原有领域内的模型迁移到实体识别领域,也会因为标注数据量规模小,导致模型训练不充分,不能得到较好的识别效果。

技术实现思路

[0004]本专利技术的主要目的在于提出一种实体识别领域迁移方法、装置、设备和存储介质,旨在解决现有技术中缺乏对无标注数据的合理使用方法,无法将无标注数据运用到模型训练中。
[0005]为实现上述技术问题,本专利技术是通过以下技术方案来实现的:
[0006]本专利技术实施例提供了一种实体识别领域迁移方法,包括:获取目标领域对应的已标注样本集和无标注样本集;利用所述已标注样本集,训练待领域迁移的源模型,得到第一模型;使用所述第一模型对所述无标注样本集中的各个无标注样本分别进行实体识别,并且根据各个所述无标注样本分别对应的实体识别结果,在所述无标注样本集中筛选伪标注样本集;利用所述伪标注样本集,训练所述第一模型,得到第二模型;使用所述第一模型和所述第二模型分别对所述伪标注样本集中的每个伪标注样本进行实体识别,并且根据所述第一模型输出的各个所述伪标注样本分别对应的实体识别结果以及所述第二模型输出的各个所述伪标注样本分别对应的实体识别结果,对各个所述伪标注样本进行排序;根据排序后的各个所述伪标注样本,按照预设的课程学习方式对所述第二模型执行目标轮次的训练,得到实体识别模型。
[0007]其中,利用所述已标注样本集,训练待领域迁移的源模型,包括:在每轮训练中,将所述已标注样本集中的多个已标注样本顺序输入所述源模型,使所述源模型针对每个所述已标注样本都执行如下步骤:对本次接收到的已标注样本执行预处理,得到所述已标注样本中每个字对应的字向量;确定每个所述字对应的字向量在所述源模型中的最高层编码;针对每个所述字,根据所述字对应的字向量在所述源模型中的最高层编码,以及,所述字及其前一个字之间的传递概率,确定所述字对应的预测标签概率集;其中,所述预测标签概率集包括多个标签概率,每个所述标签概率对应一种实体标签;根据每个所述字对应的预测
标签概率集以及所述已标注样本中每个字对应的真实标签,调整所述源模型,直到针对所述源模型的第一预设轮次数的训练完成为止,得到第一模型。
[0008]其中,使用所述第一模型对所述无标注样本集中的各个无标注样本分别进行实体识别,并且根据各个所述无标注样本分别对应的实体识别结果,在所述无标注样本集中筛选伪标注样本集,包括:针对所述无标注样本集中的每个所述无标注样本,使所述第一模型确定所述无标注样本中每个字对应的预测标签概率集;其中,所述预测标签概率集包括多个标签概率,每个所述标签概率对应一种实体标签;针对所述无标注样本中每个字,确定所述字对应的预测标签概率集中的最大标签概率,并且,将所述字标注为所述最大标签概率对应的实体标签;根据所述无标注样本中每个所述字分别对应的最大标签概率,确定所述无标注样本对应的预测分值;针对所述无标注样本集中的各个所述无标注样本,将预测分值大于预设分值阈值的无标注样本作为所述伪标注样本集中的一个伪标注样本。
[0009]其中,利用所述伪标注样本集,训练所述第一模型,得到第二模型,包括:在每轮训练中,将所述伪标注样本集中的多个伪标注样本顺序输入所述第一模型,使所述第一模型针对每个所述伪标注样本执行如下步骤:对本次接收到的伪标注样本执行预处理,得到所述伪标注样本中每个字对应的字向量;确定每个所述字对应的字向量在所述第一模型中的最高层编码;针对每个所述字,根据所述字对应的字向量在所述第一模型中的最高层编码,以及,所述字及其前一个字之间的传递概率,确定所述字对应的预测标签概率集;根据每个所述字对应的预测标签概率集以及所述伪标注样本中每个字对应的实体标签,调整所述第一模型,直到针对所述第一模型的第二预设轮次数的训练完成为止,得到第二模型。
[0010]其中,使用所述第一模型和所述第二模型分别对所述伪标注样本集中的每个伪标注样本进行实体识别,并且根据所述第一模型输出的各个所述伪标注样本分别对应的实体识别结果以及所述第二模型输出的各个所述伪标注样本分别对应的实体识别结果,对各个所述伪标注样本进行排序,包括:针对所述伪标注样本集中的每个所述伪标注样本分别执行如下步骤:通过所述第一模型确定所述伪标注样本中每个字对应的预测标签概率集,确定每个所述字对应的预测标签概率集中的最大标签概率,并且根据每个所述字分别对应的最大标签概率,确定所述伪标注样本对应的第一平均标签概率;其中,所述预测标签概率集包括多个标签概率,每个所述标签概率对应一种实体标签;通过所述第二模型确定所述伪标注样本中每个字对应的预测标签概率集,确定每个所述字对应的预测标签概率集中的最大标签概率,并且根据每个所述字分别对应的最大标签概率,确定所述伪标注样本对应的第二平均标签概率;针对所述伪标注样本集中的各个伪标注样本,确定相同的伪标注样本的第一平均标签概率和第二平均标签概率的差值绝对值;根据所述伪标注样本集中的各个伪标注样本分别对应的差值绝对值,对所述伪标注样本集中的各个伪标注样本进行排序。
[0011]其中,根据排序后的各个所述伪标注样本,按照预设的课程学习方式对所述第二模型执行目标轮次的训练,包括:在每轮训练中,按照差值绝对值从小到大的顺序,从排序后的各个所述伪标注样本中,获取当前轮次对应比例的所述伪标注样本;其中,训练轮次及其对应的比例成正相关;使用当前轮次对应比例的所述伪标注样本训练所述第二模型。
[0012]其中,在获取每轮对应比例的所述伪标注样本之前,还包括:
[0013]采用如下公式,确定每轮对应的比例:
[0014][0015]其中,C
linear
(t)表示比例;t表示当前轮次;T表示所述目标轮次的值;c0表示预设的比例初始值;min函数表示取最小值。
[0016]本专利技术实施例还提供了一种实体识别领域迁移装置,包括:获取模块,用于获取目标领域对应的已标注样本集和无标注样本集;第一训练模块,用于利用所述已标注样本集,训练待领域迁移的源模型,得到第一模型;筛选模块,用于使用所述第一模型对所述无标注样本集中的各个无标注样本分别进行实体识别,并且根据各个所述无标注样本分别对应的实体识别结果,在所述无标注样本集中筛选伪标注样本集;第二训练模块,用于利用所述伪标注样本集,训练所述第一模型,得到第二模型;排序模块,用于使用所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别领域迁移方法,其特征在于,包括:获取目标领域对应的已标注样本集和无标注样本集;利用所述已标注样本集,训练待领域迁移的源模型,得到第一模型;使用所述第一模型对所述无标注样本集中的各个无标注样本分别进行实体识别,并且根据各个所述无标注样本分别对应的实体识别结果,在所述无标注样本集中筛选伪标注样本集;利用所述伪标注样本集,训练所述第一模型,得到第二模型;使用所述第一模型和所述第二模型分别对所述伪标注样本集中的每个伪标注样本进行实体识别,并且根据所述第一模型输出的各个所述伪标注样本分别对应的实体识别结果以及所述第二模型输出的各个所述伪标注样本分别对应的实体识别结果,对各个所述伪标注样本进行排序;根据排序后的各个所述伪标注样本,按照预设的课程学习方式对所述第二模型执行目标轮次的训练,得到实体识别模型。2.根据权利要求1所述的方法,其特征在于,利用所述已标注样本集,训练待领域迁移的源模型,包括:在每轮训练中,将所述已标注样本集中的多个已标注样本顺序输入所述源模型,使所述源模型针对每个所述已标注样本都执行如下步骤:对本次接收到的已标注样本执行预处理,得到所述已标注样本中每个字对应的字向量;确定每个所述字对应的字向量在所述源模型中的最高层编码;针对每个所述字,根据所述字对应的字向量在所述源模型中的最高层编码,以及,所述字及其前一个字之间的传递概率,确定所述字对应的预测标签概率集;其中,所述预测标签概率集包括多个标签概率,每个所述标签概率对应一种实体标签;根据每个所述字对应的预测标签概率集以及所述已标注样本中每个字对应的真实标签,调整所述源模型,直到针对所述源模型的第一预设轮次数的训练完成为止,得到第一模型。3.根据权利要求1所述的方法,其特征在于,使用所述第一模型对所述无标注样本集中的各个无标注样本分别进行实体识别,并且根据各个所述无标注样本分别对应的实体识别结果,在所述无标注样本集中筛选伪标注样本集,包括:针对所述无标注样本集中的每个所述无标注样本,使所述第一模型确定所述无标注样本中每个字对应的预测标签概率集;其中,所述预测标签概率集包括多个标签概率,每个所述标签概率对应一种实体标签;针对所述无标注样本中每个字,确定所述字对应的预测标签概率集中的最大标签概率,并且,将所述字标注为所述最大标签概率对应的实体标签;根据所述无标注样本中每个所述字分别对应的最大标签概率,确定所述无标注样本对应的预测分值;针对所述无标注样本集中的各个所述无标注样本,将预测分值大于预设分值阈值的无标注样本作为所述伪标注样本集中的一个伪标注样本。4.根据权利要求3所述的方法,其特征在于,利用所述伪标注样本集,训练所述第一模
型,得到第二模型,包括:在每轮训练中,将所述伪标注样本集中的多个伪标注样本顺序输入所述第一模型,使所述第一模型针对每个所述伪标注样本执行如下步骤:对本次接收到的伪标注样本执行预处理,得到所述伪标注样本中每个字对应的字向量;确定每个所述字对应的字向量在所述第一模型中的最高层编码;针对每个所述字,根据所述字对应的字向量在所述第一模型中的最高层编码,以及,所述字及其前一个字之间的传递概率,确定所述字对应的预测标签概率集;根据每个所述字对应的预测标签概率集以及所述伪标注样本中每个字对应的实体标签,调整所述第一模型,直到针对所述第一模型的第二预设轮次数的训练完成为止,得到第二模型。5.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:王亦宁刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1