实体识别模型的训练方法、实体识别方法及装置制造方法及图纸

技术编号:32784434 阅读:16 留言:0更新日期:2022-03-23 19:43
本公开提供了实体识别模型的训练方法、实体识别方法及装置,涉及数据处理技术领域,尤其涉及知识图谱、深度学习等人工智能技术领域。具体技术方案包括:对第一训练集进行数据增强,得到增强后的第二训练集;基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。本公开的技术方案可提到精度较高的实体识别模型,可适用于小样本场景下的实体识别。用于小样本场景下的实体识别。用于小样本场景下的实体识别。

【技术实现步骤摘要】
实体识别模型的训练方法、实体识别方法及装置


[0001]本公开涉及数据处理
,尤其涉及知识图谱、深度学习等人工智能
,具体涉及一种实体识别模型的训练方法、实体识别方法及装置。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是自然语言处理中非常基础和重要的任务之一,应用范围十分广泛。命名实体通常指文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。
[0003]目前很多命名实体识别的方法需要大量的标注训练数据,而在真实应用场景下,大量人工标注数据是很难获得的,且获得大量高质量的标注数据需要较高的人工成本,需要在标注数据不足的情况下,解决命名实体识别的任务。

技术实现思路

[0004]本公开提供了一种实体识别模型的训练方法、实体识别方法及装置。
[0005]根据本公开的第一方面,提供了一种实体识别模型的训练方法,包括:
[0006]对第一训练集进行数据增强,得到增强后的第二训练集;第一训练集包括已标注样本数据,已标注样本数据的数量小于第一指定数量;
[0007]基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;
[0008]通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;第三训练集包括未标注样本数据,未标注样本数据的数量大于或等于第一指定数量;
[0009]基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。
[0010]根据本公开的第二方面,提供了一种实体识别方法,包括:
[0011]获取待标注数据;
[0012]通过实体识别模型对待标注数据进行实体标注;实体识别模型是通过本公开任一实施例的实体识别模型的训练方法训练出的。
[0013]根据本公开的第三方面,提供了一种实体识别模型的训练装置,包括:
[0014]数据增强模块,用于对第一训练集进行数据增强,得到增强后的第二训练集;第一训练集包括已标注样本数据,已标注样本数据的数量小于第一指定数量;
[0015]第一训练模块,用于基于第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;
[0016]第一标注模块,用于通过第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;第三训练集包括未标注样本数据,未标注样本数据的数量大于或等于
第一指定数量;
[0017]第二训练模块,用于基于第四训练集对第一实体识别模型进行训练,得到训练出的第三实体识别模型。
[0018]根据本公开的第四方面,提供了一种实体识别装置,包括:
[0019]数据获取模块,用于获取待标注数据;
[0020]实体标注模块,用于通过实体识别模型对待标注数据进行实体标注;实体识别模型是通过本公开任一实施例提供的实体识别模型的训练装置训练出的。
[0021]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
[0022]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
[0023]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现本公开任一实施例提供的实体识别模型的训练方法或实体识别方法。
[0024]本公开的技术方案可至少实现如下有益效果:
[0025]从多种角度对实体识别模型进行训练和优化。在通过数据增强对训练集进行优化的基础上,可基于优化后的训练集对实体识别模型进行训练和优化,进而基于优化后的实体识别模型进一步对训练集进行优化,实现训练集和实体识别模型的相互优化,可提高实体识别模型的精度和可靠性,可适用于小样本场景下的实体识别。
[0026]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0027]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0028]图1是本公开实施例提供的一种实体识别模型的训练方法的流程示意图;
[0029]图2是图1所示的实体识别模型的训练方法的一个示例图;
[0030]图3是本公开实施例提供的另一种实体识别模型的训练方法的流程示意图;
[0031]图4是图3所示的实体识别模型的训练方法的一个示例图;
[0032]图5是本公开实施例提供的又一种实体识别模型的训练方法的部分流程示意图;
[0033]图6是图5所示的实体识别模型的训练方法的一个示例图;
[0034]图7是本公开实施例提供的再一种实体识别模型的训练方法的部分流程示意图;
[0035]图8是本公开实施例提供的一种实体识别方法的流程示意图;
[0036]图9是本公开实施例提供的一种实体识别模型的训练装置的结构框架示意图;
[0037]图10是本公开实施例提供的一种实体识别装置的结构框架示意图;
[0038]图11是本公开实施例提供的一种电子设备的结构框架示意图。
具体实施方式
[0039]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0040]在本公开实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0041]应该进一步理解的是,本公开实施例中使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0042]本
技术人员可以理解,除非另外定义,本公开实施例使用的所有术语(包括技术术语和科学术语),具有与本公开所属领域中的普通技术人员的一般理解相同的意义。
[0043]在解决小样本的命名实体识别任务时,通常采用数据增强、半监督自训练和少样本学习(meta learning)。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体识别模型的训练方法,包括:对第一训练集进行数据增强,得到增强后的第二训练集;所述第一训练集包括已标注样本数据,所述已标注样本数据的数量小于第一指定数量;基于所述第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;通过所述第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;所述第三训练集包括未标注样本数据,所述未标注样本数据的数量大于或等于所述第一指定数量;基于所述第四训练集对所述第一实体识别模型进行训练,得到训练出的第三实体识别模型。2.根据权利要求1所述的实体识别模型的训练方法,还包括:基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型,作为所述第一实体识别模型。3.根据权利要求1或2所述的实体识别模型的训练方法,还包括:通过所述第二实体识别模型对所述第一训练集进行实体标注,得到标注后的第五训练集;基于所述第五训练集对所述第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型。4.根据权利要求3所述的实体识别模型的训练方法,其中,每次迭代训练,包括:基于当前的第五训练集对当前的第三实体识别模型进行训练;通过训练后的第三实体识别模型对所述第四训练集和经所述第二实体识别模型标注后的第五训练集进行实体标注;在经所述训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本;所述模型难分样本为令所述训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据;确定所述模型难分样本的数量是否大于第二指定数量;在所述模型难分样本的数量大于所述第二指定数量的情况下,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;在所述模型难分样本的数量小于或等于所述第二指定数量的情况下,结束所述迭代训练。5.根据权利要求4所述的实体识别模型的训练方法,其中,将所述模型难分样本添加到当前的第五训练集中,包括:响应于添加指令,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;所述添加指令为对所述模型难分样本进行人工标注后生成的指令。6.根据权利要求4所述的实体识别模型的训练方法,每次迭代训练还包括:通过所述训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值;确定所述第一标注效果值是否小于第二标注效果值;所述第二标注效果值是上一次迭代训练中对所述测试集进行实体预测得到的标注效果值;
在所述第一标注效果值小于第二标注效果值的情况下,结束所述迭代训练。7.根据权利要求1或2所述的实体识别模型的训练方法,其中,至少部分未标注样本数据为指定领域的样本数据。8.一种实体识别方法,包括:获取待标注数据;通过实体识别模型对所述待标注数据进行实体标注;所述实体识别模型是通过权利要求1

7中任一项所述的实体识别模型的训练方法训练出的。9.一种实体识别模型的训练装置,包括:数据增强模块,用于对第一训练集进行数据增强,得到增强后的第二训练集;所述第一训练集包括已标注样本数据,所述已标注样本数据的数量小于第一指定数量;第一训练模块,用于基于所述第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;第一标注模块,用于通过所述第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;所述第三训练集包括未标注样本数据,所述未标注样本数据的数量大于或等于所述第一指定数量;第二训练模块,用...

【专利技术属性】
技术研发人员:张惠蒙黄昉史亚冰蒋烨柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1