【技术实现步骤摘要】
文本抽取模型的训练与文本抽取的方法、装置
本公开涉及人工智能
,尤其涉及深度学习、知识图谱、自然语言处理
提供了一种文本抽取模型的训练与文本抽取的方法、装置、电子设备和可读存储介质。
技术介绍
文本中的实体词具有独立的语义,可以清晰地表达人、物品或者概念,而文本中与实体词对应的方面词用于刻画该实体词的一个方面。现有技术已存在多种从文本中抽取与实体词对应的三元组的方案,但用于提取上述三元组的方案,无法解决从文本中抽取实体词及其对应的方面词所组成的二元组的技术问题。
技术实现思路
根据本公开的第一方面,提供了一种文本抽取模型的训练方法,包括:获取训练数据,所述训练数据中包含多个文本与多个文本的方面词标注结果;构建包含第一抽取模型与第二抽取模型的神经网络模型,所述第一抽取模型的输出为所述第二抽取模型的输入;将多个文本分别输入所述第一抽取模型,得到所述第一抽取模型针对每个文本输出的实体词预测结果;使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练,直至 ...
【技术保护点】
1.一种文本抽取模型的训练方法,包括:/n获取训练数据,所述训练数据中包含多个文本与多个文本的方面词标注结果;/n构建包含第一抽取模型与第二抽取模型的神经网络模型,所述第一抽取模型的输出为所述第二抽取模型的输入;/n将多个文本分别输入所述第一抽取模型,得到所述第一抽取模型针对每个文本输出的实体词预测结果;/n使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练,直至所述第二抽取模型收敛,将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。/n
【技术特征摘要】
1.一种文本抽取模型的训练方法,包括:
获取训练数据,所述训练数据中包含多个文本与多个文本的方面词标注结果;
构建包含第一抽取模型与第二抽取模型的神经网络模型,所述第一抽取模型的输出为所述第二抽取模型的输入;
将多个文本分别输入所述第一抽取模型,得到所述第一抽取模型针对每个文本输出的实体词预测结果;
使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练,直至所述第二抽取模型收敛,将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。
2.根据权利要求1所述的方法,其中,所述训练数据中还包括多个文本的实体词标注结果。
3.根据权利要求1所述的方法,其中,所述使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练,直至所述第二抽取模型收敛包括:
将多个文本与多个文本的实体词预测结果进行融合;
使用多个文本的融合结果与多个文本的方面词标注结果对所述第二抽取模型进行训练,直至所述第二抽取模型收敛。
4.根据权利要求2所述的方法,其中,所述使用多个文本、多个文本的实体词预测结果与多个文本的方面词标注结果对所述第二抽取模型进行训练,直至所述第二抽取模型收敛,将所述第一抽取模型与训练得到的第二抽取模型组成文本抽取模型包括:
根据多个文本的实体词预测结果与多个文本的实体词标注结果对所述第一抽取模型进行训练,直至所述第一抽取模型收敛;
将训练得到的第一抽取模型与训练得到的第二抽取模型组成文本抽取模型。
5.一种文本抽取的方法,包括:
获取待处理文本;
将所述待处理文本输入文本抽取模型,将所述文本抽取模型的输出结果作为所述待处理文本的抽取结果;
其中,所述文本抽取模型是根据权利要求1-4中任一项方法预先训练得到的。
6.根据权利要求5所述的方法,其中,所述将所述待处理文本输入文本抽取模型包括:
将所述待处理文本中位于预设词典中的实体词,作为目标实体词;
将所述待处理文本与所述目标实体词输入所述文本抽取模型。
7.一种文本抽取模型的训练装置,包括:
第一获取单元,用于获取训练数据,所述训练数据中包含多个文本与多个文本的方面词标注结果;
构建单元,用于构建包含第一抽取模型与第二抽取模型的神经网络模型,所述第一抽取模型的输出为所述第二抽取模型的输入;
处理单元,用于将多个文本分别输入所述第一抽取模型,得到所述第一抽取模型针对每个文本输出的实体词预测结果;
训练单元,用于使用...
【专利技术属性】
技术研发人员:刘同阳,王述,常万里,郑伟,冯知凡,柴春光,朱勇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。