一种实体关系抽取方法技术

技术编号:26478739 阅读:16 留言:0更新日期:2020-11-25 19:22
本发明专利技术提出了一种实体关系抽取方法,属于实体关系抽取领域,本发明专利技术的方法为:构建语料库;选取语料库的数据进行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行标注得到扩充数据集;将标注数据集和扩充数据集分为训练集和测试集;利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;利用正则模板对测试集进行匹配得到分类结果;根据关系分类结果和匹配分类结果得到最终关系抽取结果。本发明专利技术克服了现有技术中仅使用神经网络模型进行实体关系抽取,抽取时标注数据量较少且抽取效果不佳的不足,本发明专利技术通过利用正则模板可以扩充标注数据量,并且可提高实体关系抽取的效果。

【技术实现步骤摘要】
一种实体关系抽取方法
本专利技术属于实体关系抽取领域,具体地说,涉及一种实体关系抽取方法。
技术介绍
实体关系抽取的任务是对文本中的实体对进行语义识别,根据其在文本和语句中的含义,判断他们之间是否具有关系或者属于什么类型的关系。目前主流的技术有基于依存分析和基于模板匹配的方式,由于在英文语句中,文本成分间相互依存和被依存的现象普遍存在,并且词的词性较为明确,可以准确挖掘出依存分析的核心谓词,所以依存分析的关系抽取适用于英文文本,单纯的模板匹配则需要大量专家的参与,并且人工成本很大,并且在将抽取规则应用于别的领域时候,往往受到限制,具有很强的专业性和局限性。随着深度学习时代来临,神经网络模型则为实体关系抽取带来了新的突破。机器学习的方法在实体关系抽取中应用非常广泛,无监督、弱监督和有监督的机器学习方法都在实体关系抽取中得到了相应的研究,基于无监督、弱监督的学习方法不需要太多的人工标注好的样本数据,在训练学习中减少了对样本数据标签的依赖,但是训练过程容易被噪声干扰,降低实体关系抽取性能。除了无监督和弱监督的实体关系抽取方法,基于有监督学习的抽取方法在多个领域得到了研究和应用,也取得较好的抽取效果。有监督学习的实体关系抽取方法相对需要更多的精力投入,抽取模型会依赖于较多的已经标注好的数据集,需要充分的标注数据才能使实体关系抽取模型的训练过程顺利进行,而得到这些标注数据较为费时费力,所以有监督学习的一般前提是要有足够的人工劳动量的投入。现有技术中一般是采用神经网络对实体关系进行抽取,例如专利技术创造名称为:一种基于深度学习的实体关系抽取方法(申请日:2020年3月26日;申请号:202010222471.2)。该方案使用卷积神经网络和循环神经网络对实体关系抽取,在CNN和LSTM神经网络上加入文本中的词向量特征和位置特征、局部特征和序列特征等。然后将卷积神经网络和循环神经网络组合在一起,分别组合成串联、并联的组合模型对实体关系进行抽取,从不同角度去学习特征,获得更加充分全面的学习能力,还在多种不同结构的神经网络的基础上,将卷积神经网络和循环神经网络组合在一起,分别使用了串联、并联的方式对样本进行自动抽取。最后联合了多个基于深度学习的模型,将利用之前设计的多个关系抽取模型,将这些模型联合在一起进行实体关系抽取,进而选择出样本较优的实体关系。但是该方案的不足之处在于:抽取时标注数据量较少,且仅使用神经网络模型抽取会造成抽取效果不佳。
技术实现思路
1.要解决的问题本专利技术克服了现有技术中仅使用神经网络模型进行实体关系抽取,抽取时标注数据量较少且抽取效果不佳的不足,提供了一种实体关系抽取方法,通过利用正则模板可以扩充标注数据量,进一步将正则模板匹配的分类结果和由神经网络模型得到的分类结果相结合,通过优先级策略选择更有可能的关系语句分类,提高了实体关系抽取的效果。2.技术方案为了解决上述问题,本专利技术所采用的技术方案如下:本专利技术的一种实体关系抽取方法,其特征在于,包括构建语料库;选取语料库的数据进行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行标注得到扩充数据集;再将标注数据集和扩充数据集分为训练集和测试集;之后利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;而后利用正则模板对测试集进行匹配得到分类结果;再根据关系分类结果和匹配分类结果得到最终关系抽取结果。更进一步地,根据语料库构建正则模板的具体过程为:步骤2-1:从语料库中随机抽取若干篇文本,根据若干篇文本构建正则模板;步骤2-2:通过标注数据集对正则模板进行测试得到测试结果,测试结果包括准确率和召回率;根据测试结果中的召回率补充对应的正则模板;步骤2-3:重复步骤2-2,直至测试结果的准确率和召回率达到阈值,得到构建完毕的正则模板。更进一步地,获取关系分类结果的具体过程为:将训练集导入神经网络模型;神经网络模型根据训练集获取实体特征和文本特征;再根据实体特征和文本特征对测试集进行处理获取关系分类结果。更进一步地,根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为:若关系分类结果和匹配分类结果相同,则将关系分类结果和匹配分类结果作为最终关系抽取结果;若关系分类结果和匹配分类结果不同,则将匹配分类结果作为最终关系抽取结果。更进一步地,准确率的阈值为0.9,召回率的阈值为0.8。更进一步地,神经网络模型根据训练集获取实体特征和文本特征的具体过程为:神经网络模型对训练集进行处理得到有类型跨度,再利用最大池化的方式对有类型跨度进行处理得到实体特征和文本特征。更进一步地,神经网络模型对训练集进行处理得到有类型跨度的具体过程为:神经网络模型包括预训练模型Bert,先通过预训练模型Bert获取训练集中文本的向量表示,而后神经网络模型采用优化负采样的方式获取跨度;神经网络模型利用跨度分类器对跨度进行识别分类得到有类型跨度和无类型跨度。更进一步地,对有类型跨度进行处理得到实体特征和文本特征的具体过程为:将有类型跨度作为实体,神经网络模型选择若干对实体组成关系集合;再对两个实体之间的文本进行最大池化得到关系的向量表示,该关系的向量表示包括实体特征和文本特征。更进一步地,获取关系分类结果的具体过程为:对实体特征和文本特征进行连接得到关系特征,再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果。3.有益效果相比于现有技术,本专利技术的有益效果为:本专利技术的一种实体关系抽取方法,可以通过少量标注的关系数据,利用正则模板从爬取的大量文本中抽取高准确率的关系语句,并扩充神经网络模型的数据集,解决领域关系抽取标注数据量少的问题。进一步地将正则模板匹配的分类结果和由神经网络模型得到的分类结果相结合,通过优先级策略选择更有可能的关系语句分类,提高了实体关系抽取的效果。附图说明图1为本专利技术的一种实体关系抽取方法的流程示意图;图2为实施例1的方法流程示意图;图3为引入跨度的联合实体关系抽取模型示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为进一步了解本专利技术的内容,结合附图和实施例对本专利技术作详细描述。实施例1结合图1和图2所示,本专利技术的一种实体关系抽取方法,包括以下步骤:1)构建语料库通过采集文本信息本文档来自技高网
...

【技术保护点】
1.一种实体关系抽取方法,其特征在于,包括/n构建语料库;/n选取语料库的数据进行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行标注得到扩充数据集;/n将标注数据集和扩充数据集分为训练集和测试集;/n利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;/n利用正则模板对测试集进行匹配得到分类结果;/n根据关系分类结果和匹配分类结果得到最终关系抽取结果。/n

【技术特征摘要】
1.一种实体关系抽取方法,其特征在于,包括
构建语料库;
选取语料库的数据进行标注得到标注数据集;并根据语料库构建正则模板,再通过正则模板对语料库的数据进行标注得到扩充数据集;
将标注数据集和扩充数据集分为训练集和测试集;
利用训练集训练神经网络模型,再利用训练后的神经网络模型对测试集进行处理得到关系分类结果;
利用正则模板对测试集进行匹配得到分类结果;
根据关系分类结果和匹配分类结果得到最终关系抽取结果。


2.根据权利要求1所述的一种实体关系抽取方法,其特征在于,根据语料库构建正则模板的具体过程为:
步骤2-1:从语料库中随机抽取若干篇文本,根据若干篇文本构建正则模板;
步骤2-2:通过标注数据集对正则模板进行测试得到测试结果,测试结果包括准确率和召回率;根据测试结果中的召回率补充对应的正则模板;
步骤2-3:重复步骤2-2,直至测试结果的准确率和召回率达到阈值,得到构建完毕的正则模板。


3.根据权利要求1所述的一种实体关系抽取方法,其特征在于,获取关系分类结果的具体过程为:
将训练集导入神经网络模型;
神经网络模型根据训练集获取实体特征和文本特征;
根据实体特征和文本特征对测试集进行处理获取关系分类结果。


4.根据权利要求1所述的一种实体关系抽取方法,其特征在于,根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为:
若关系分类结果和匹配分类结果相同,则将关系分类结果和匹配分类结果作为最...

【专利技术属性】
技术研发人员:张雨豪吴刚
申请(专利权)人:南京柯基数据科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1