实体文本提取模型的训练方法、装置及设备制造方法及图纸

技术编号:33194638 阅读:28 留言:0更新日期:2022-04-24 00:23
本申请实施例提供了一种实体文本提取模型的训练方法、装置及设备,该方法包括:获取训练样本集,训练样本集包括第一样本集和第二样本集;针对每个训练样本,分别执行以下操作:将原始文本输入第一模型,输出目标实体文本;将问题模板文本和目标实体文本输入第二模型,输出目标问题文本;根据目标实体文本及其对应的实体标签文本、目标问题文本及其对应的问题模板文本生成指标数据;当指标数据不满足预设阈值时,调整第一模型参数和第二模型参数;返回将原始文本输入第一模型,直至指标数据满足预设阈值,将第一模型确定为实体文本提取模型;本申请实施例能够解决现有技术中基于深度学习进行实体抽取的方法的性能较差的问题。习进行实体抽取的方法的性能较差的问题。习进行实体抽取的方法的性能较差的问题。

【技术实现步骤摘要】
实体文本提取模型的训练方法、装置及设备


[0001]本申请属于深度强化学习领域,尤其涉及一种实体文本提取模型的训练方法、装置及设备。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER),又称作专名识别,是自然语言处理中的一项基础任务,命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体,故而使得NER的应用范围非常广泛。
[0003]例如,在医疗领域中,NER旨在从非结构化的文本描述中识别出其中的命名实体(例如疾病、药物名称等),是构建医疗知识图谱的重要部分;而医疗知识图谱作为医疗AI最重要的底层基础设施之一,在很多应用场景都是不可或缺的部分。
[0004]现有技术中已有基于深度学习进行NER的方法,但是现有的基于深度学习进行实体抽取的方法的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体文本提取模型的训练方法,其特征在于,包括:获取训练样本集,所述训练样本集包括第一样本集和第二样本集;所述第一样本集包括多个第一训练样本,每个所述第一训练样本包括原始文本和其对应的多个实体标签文本;所述第二样本集包括多个第二训练样本,每个所述第二训练样本包括根据所述实体标签文本生成的问题模板文本;针对每个训练样本,分别执行以下操作:将所述原始文本输入第一模型,输出目标实体文本;将所述问题模板文本和所述目标实体文本输入第二模型,输出目标问题文本;根据所述目标实体文本及其对应的所述实体标签文本、所述目标问题文本及其对应的所述问题模板文本生成指标数据;当所述指标数据不满足预设阈值时,调整所述第一模型参数和所述第二模型参数;返回所述将所述原始文本输入第一模型,直至所述指标数据满足预设阈值,将所述第一模型确定为所述实体文本提取模型。2.如权利要求1所述的实体文本提取模型的训练方法,其特征在于,所述第一模型,包括:第一BERT语言模型、第一Transformer模型、前馈神经网络模型、以及Z-gate模型;所述将所述原始文本输入第一模型,输出目标实体文本,包括:将所述原始文本输入所述第一BERT语言模型,输出指示所述原始文本中多个单词与所述多个单词相应的单词向量的映射关系的第一向量;将所述第一向量输入所述第一Transformer模型的解码器,输出隐状态向量、所述隐状态向量与所述第一向量之间的第一注意力分布向量、以及指示经分隔符分隔的所述原始文本的第二向量;根据预设掩码规则调整所述第一注意力分布向量,以生成第二注意力分布向量;将所述第二注意力分布向量输入所述前馈神经网络模型,输出多个包含实体的单词;将所述第二向量与所述多个包含实体的单词输入所述Z-gate模型,输出所述目标实体文本,所述目标实体文本为被所述分隔符分隔后的所述多个包含实体的单词。3.如权利要求2所述的实体文本提取模型的训练方法,其特征在于,所述第二模型,包括:与所述第一BERT语言模型参数相同的第二BERT语言模型、第二Transformer模型、以及GPT-2模型;所述将所述问题模板文本和所述目标实体文本输入第二模型,输出目标问题文本,包括:将所述问题模板文本输入所述第二BERT语言模型进行编码,输出所述问题模板文本对应的文本向量;将所述目标实体文本输入所述第二BERT语言模型,输出所述目标实体文本对应的多个单词向量;将所述目标实体文本对应的多个单词向量和所述问题模板文本对应的文本向量输入所述第二Transformer模型的编码器进行拼接,输出拼接向量;将所述拼接向量输入所述GPT-2模型,输出所述目标问题文本。4.如权利要求1所述的实体文本提取模型的训练方法,其特征在于,所述根据所述目标
实体文本及其对应的所述实体标签文本、所述目标问题文本及其对应的所述问题模板文本生成指标数据,包括:根据所述目标实体文本及其对应的所述实体标签文本构建F1分数,将所述F1分数输出的结果作为第一指标数据;根据所述目标问题文本及其对应的所述问题模板文本构建BLUE分数,将所述BLUE分数输出的结果作为第二指标数据。5.如权利要求4所述的实体文本提取模型的训练方法,其特征在于,经过N次训练得到所述实体文本提取模型;所述当所述指标数据不满足预设阈值时,调整所述第一模型和所述第二模型参数,包括:对于前预设N1次训练,当所述第一指标数据和所述第二指标数据不满足其各自的预设阈值时,分别调整所述第一模型和所述第二模型各自的参数;对于后预设N-N1次训练,根据所述第一指标数据和所述第二指标数据以及所述第一指标数据和所述第二指标数据分别对应的预设权重计算出整合指标数...

【专利技术属性】
技术研发人员:柳岸马靖博袁磊黄承基
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1