实体抽取方法、第一实体抽取模型的训练方法及相关装置制造方法及图纸

技术编号:33027212 阅读:19 留言:0更新日期:2022-04-15 09:02
本申请公开了一种实体抽取方法、第一实体抽取模型的训练方法及相关装置,该实体抽取方法包括:获取待抽取文本;将待抽取文本输入至训练后的第一实体抽取模型中以获得待抽取文本中的实体以及实体的类型;其中,训练第一实体抽取模型时利用噪声数据集;且噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用错误标注片段集合、正确标注片段集合和无意义标注片段集合训练第一实体抽取模型,而禁止漏标注片段集合加入训练过程。这样不仅提升了模型对带噪声数据的泛化性能,而且无需人工参与便可训练得到高泛化性的实体抽取方法。的实体抽取方法。的实体抽取方法。

【技术实现步骤摘要】
实体抽取方法、第一实体抽取模型的训练方法及相关装置


[0001]本申请属于人工智能
,具体涉及一种实体抽取方法、第一实体抽取模型的训练方法及相关装置。

技术介绍

[0002]人工智能是研究如何通过机器来模拟人类认知能力的科学,深度学习是现阶段实现人工智能的主要手段。深度学习方法通常是从已知数据中学习规律或者判断规则,建立预测模型。在实际应用中,深度学习算法大多采用有监督学习模式,即需要在大量有标注数据上进行学习训练。而这些有标注的训练数据必须通过人工逐一标注,因为标注数据的质量对训练得到模型的效果同样有着很大的影响。但人工标注的过程毕竟是一个主观的工作,就算是经过训练的标注员也会有一定的错误率。例如情感分析标注,同样一个句子,在不同的人看来,会有不同的情感,标注结果也会不一致;再例如,对于需要专业标注知识、标注任务比较复杂的实体抽取、关系抽取、事件抽取等任务,标注人员很容易存在漏标注和错标注的情况。
[0003]通常情况下,为了避免训练数据中存在噪声,会将同一条数据分配给多人标注,最后对多人标注结果进行汇总,被大多数人都标注出来的结果作为真实标注结果。但这样做会带来较大的标注成本问题。因此,研究如何在有噪声的人工标注数据上建立高准确率的深度学习模型是一个非常有实用价值的方向。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种实体抽取方法、第一实体抽取模型的训练方法及相关装置,可以无需人工参与即可提升模型对带噪声数据的泛化性能。
[0005]为解决上述技术问题,本申请采用的一个技术方案是:提供一种实体抽取方法,包括:获取待抽取文本;将所述待抽取文本输入至训练后的第一实体抽取模型中以获得所述待抽取文本中的实体以及所述实体的类型;其中,训练所述第一实体抽取模型时利用噪声数据集;且所述噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,而禁止所述漏标注片段集合加入训练过程;其中,所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实体抽取模型正确预测出的实体片段,所述错误标注片段集合包括人工标注类型与对应的预测类型不同的实体片段,所述正确标注片段集合包括被人工标注类型与对应的预测类型相同的实体片段,所述无意义标注片段集合包括人工未标注且不属于所述漏标注片段集合的实体片段。
[0006]其中,训练所述第一实体抽取模型的过程包括:利用所述第二实体抽取模型获得所述噪声数据集中所有第一预测结果与人工标注结果不一致的实体片段构成的问题片段集合、以及第一预测结果与人工标注结果一致的实体片段构成的正确片段集合;其中,所述
第一预测结果包括预测实体及预测类型,所述人工标注结果包括人工标注实体及人工标注类型;对所述问题片段集合进行分类,以获得所述漏标注片段集合、错误标注片段集合和无意义标注片段集合;利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,且禁止利用所述漏标注片段集合训练所述第一实体抽取模型。
[0007]其中,所述利用所述第二实体抽取模型获得所述噪声数据集中所有预测结果与人工标注结果不一致的实体片段构成的问题片段集合的步骤,包括:将所述噪声数据集分割为多份子数据集;将其中一份子数据集作为测试数据,且将剩余所述子数据集作为训练数据;设置多个不同的随机种子以分别获得多个第二实体抽取模型;针对每个所述第二实体抽取模型,利用所述训练数据对所述第二实体抽取模型进行训练;利用训练后的所述第二实体抽取模型对所述测试数据进行预测以获得相应的第一预测结果,并根据所述第一预测结果获得与人工标注结果不一致的候选实体片段;对所有所述第二实体抽取模型获得的所有所述候选实体片段进行统计,且响应于同一所述候选实体片段累计的次数超过第一阈值,将所述候选实体片段确定为问题片段,并将所述问题片段加入所述问题片段集合;判断所有所述子数据集是否均轮流作为所述测试数据;若否,将另一所述子数据集作为所述测试数据,且将剩余所述子数据集作为训练数据,并返回至所述设置多个不同的随机种子以分别获得多个第二实体抽取模型的步骤。
[0008]其中,所述第二实体抽取模型包括第一预训练模型和第一全连接层,且所述第一预训练模型的输出为所述第一全连接层的输入;所述利用所述训练数据对所述第二实体抽取模型进行训练的步骤,包括:对所述训练数据中的文本数据进行分词处理后输入至第一预训练模型中,以获得所述文本数据中每个单词的第一语义向量;对所有所述第一语义向量进行负采样以获得多个第一组合片段;其中,所述第一组合片段中包括人工标注的实体片段以及非人工标注的实体片段;响应于所述第一组合片段的宽度小于或等于第二阈值,获得所述第一组合片段的第二语义向量;将所述第二语义向量输入至所述第一全连接层以获得第一预测分类logit向量;基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数。
[0009]其中,所述对所述训练数据中的训练文本进行分词处理后输入至第一预训练模型中,以获得所述训练文本中每个单词的第一语义向量的步骤之前,包括:随机初始化第一宽度限制向量矩阵;其中,所述第一宽度限制向量矩阵中包含多个宽度特征向量;所述响应于所述第一组合片段的宽度小于或等于第二阈值,获得所述第一组合片段的第二语义向量的步骤,包括:获得所述第一组合片段中起始单词的第一语义向量以及结束单词的第一语义向量;将所述起始单词的第一语义向量、结束单词的第一语义向量以及对应的宽度特征向量进行拼接以获得所述第二语义向量;所述基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数时,一并调整所述第一宽度限制向量矩阵中的参数。
[0010]其中,所述第一实体抽取模型包括第二预训练模型和第二全连接层,且所述第二预训练模型的输出为所述第二全连接层的输入;所述利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,且禁止利用所述漏标注片段集合训练所述第一实体抽取模型的步骤,包括:将所述噪声数据集中的文本数
据进行分词处理后输入至第二预训练模型中,以获得所述文本数据中每个单词的第三语义向量;对所有所述第三语义向量进行负采样组合以获得多个第二组合片段;响应于所述第二组合片段的宽度小于或等于第二阈值,获得所述第二组合片段的第四语义向量;将所述第四语义向量输入至所述第二全连接层以获得第二预测分类logit向量;响应于所述第二组合片段的跨度在所述正确标注片段集合、所述无意义标注片段集合和所述错误标注片段集合,根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失,基于所述第一损失调整所述第一实体抽取模型中的参数。
[0011]其中,所述根据至少部分所述第二组合片段所属的集合类型获得相应的第一损失的步骤,包括:响应于所述第二组合片段的跨度在所述正确标注片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体抽取方法,其特征在于,包括:获取待抽取文本;将所述待抽取文本输入至训练后的第一实体抽取模型中以获得所述待抽取文本中的实体以及所述实体的类型;其中,训练所述第一实体抽取模型时利用噪声数据集;且所述噪声数据集预先经过第二实体抽取模型获得漏标注片段集合、错误标注片段集合、正确标注片段集合和无意义标注片段集合,且利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,而禁止所述漏标注片段集合加入训练过程;其中,所述漏标注片段集合包括所述噪声数据集中人工漏标注但被所述第二实体抽取模型正确预测出的实体片段,所述错误标注片段集合包括人工标注类型与对应的预测类型不同的实体片段,所述正确标注片段集合包括被人工标注类型与对应的预测类型相同的实体片段,所述无意义标注片段集合包括人工未标注且不属于所述漏标注片段集合的实体片段。2.根据权利要求1所述的实体抽取方法,其特征在于,训练所述第一实体抽取模型的过程包括:利用所述第二实体抽取模型获得所述噪声数据集中所有第一预测结果与人工标注结果不一致的实体片段构成的问题片段集合、以及第一预测结果与人工标注结果一致的实体片段构成的正确片段集合;其中,所述第一预测结果包括预测实体及预测类型,所述人工标注结果包括人工标注实体及人工标注类型;对所述问题片段集合进行分类,以获得所述漏标注片段集合、所述错误标注片段集合和所述无意义标注片段集合;利用所述错误标注片段集合、所述正确标注片段集合和所述无意义标注片段集合训练所述第一实体抽取模型,且禁止利用所述漏标注片段集合训练所述第一实体抽取模型。3.根据权利要求2所述的实体抽取方法,其特征在于,所述利用所述第二实体抽取模型获得所述噪声数据集中所有预测结果与人工标注结果不一致的实体片段构成的问题片段集合的步骤,包括:将所述噪声数据集分割为多份子数据集;将其中一份子数据集作为测试数据,且将剩余所述子数据集作为训练数据;设置多个不同的随机种子以分别获得多个第二实体抽取模型;针对每个所述第二实体抽取模型,利用所述训练数据对所述第二实体抽取模型进行训练;利用训练后的所述第二实体抽取模型对所述测试数据进行预测以获得相应的第一预测结果,并根据所述第一预测结果获得与人工标注结果不一致的候选实体片段;对所有所述第二实体抽取模型获得的所有所述候选实体片段进行统计,且响应于同一所述候选实体片段累计的次数超过第一阈值,将所述候选实体片段确定为问题片段,并将所述问题片段加入所述问题片段集合;判断所有所述子数据集是否均轮流作为所述测试数据;若否,将另一所述子数据集作为所述测试数据,且将剩余所述子数据集作为训练数据,并返回至所述设置多个不同的随机种子以分别获得多个第二实体抽取模型的步骤。4.根据权利要求3所述的实体抽取方法,其特征在于,
所述第二实体抽取模型包括第一预训练模型和第一全连接层,且所述第一预训练模型的输出为所述第一全连接层的输入;所述利用所述训练数据对所述第二实体抽取模型进行训练的步骤,包括:对所述训练数据中的文本数据进行分词处理后输入至第一预训练模型中,以获得所述文本数据中每个单词的第一语义向量;对所有所述第一语义向量进行负采样以获得多个第一组合片段;其中,所述第一组合片段中包括人工标注的实体片段以及非人工标注的实体片段;响应于所述第一组合片段的宽度小于或等于第二阈值,获得所述第一组合片段的第二语义向量;将所述第二语义向量输入至所述第一全连接层以获得第一预测分类logit向量;基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数。5.根据权利要求4所述的实体抽取方法,其特征在于,所述对所述训练数据中的训练文本进行分词处理后输入至第一预训练模型中,以获得所述训练文本中每个单词的第一语义向量的步骤之前,包括:随机初始化第一宽度限制向量矩阵;其中,所述第一宽度限制向量矩阵中包含多个宽度特征向量;所述响应于所述第一组合片段的宽度小于或等于第二阈值,获得所述第一组合片段的第二语义向量的步骤,包括:获得所述第一组合片段中起始单词的第一语义向量以及结束单词的第一语义向量;将所述起始单词的第一语义向量、结束单词的第一语义向量以及对应的宽度特征向量进行拼接以获得所述第二语义向量;所述基于所述人工标注的实体片段和部分所述非人工标注的实体片段的预测结果调整所述第二实体抽取模型中的参数时,一并调整所述第一宽度限制向量矩阵中的参数。6.根据权利要求2所述的实体抽取方法,其特...

【专利技术属性】
技术研发人员:张浩宇汪小斌吴飞方四安
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1