基于双模型增强的垂直领域关系抽取方法及系统技术方案

技术编号:35016775 阅读:16 留言:0更新日期:2022-09-21 15:21
本发明专利技术涉及信息处理技术领域,且公开了基于双模型增强的垂直领域关系抽取方法及系统,本发明专利技术采用原始文本的实体信息配合设置双模型的方式,利用从垂直领域现有的知识图谱中的提取的属性信息文本进行关系抽取,最后结合双模型的关系抽取,能够在少量样本结合现有的知识图谱情况下,共同得出更准确的结果,节省大量的预训练计算资源。量的预训练计算资源。量的预训练计算资源。

【技术实现步骤摘要】
基于双模型增强的垂直领域关系抽取方法及系统


[0001]本专利技术涉及信息处理
,具体为基于双模型增强的垂直领域关系抽取方法及系统。

技术介绍

[0002]关系抽取是从一段文本中抽取出(主体,关系,客体)这样的三元组。目前最主流的关系抽取模型是基于深度学习的监督学习模型,这类模型大多都是在大规模通用数据集上训练得到的(如Bert),在一些垂直领域,进行关系抽取时,采用通用数据训练的模型往往效果不佳,针对此问题,通常的方案是使用该垂直领域的数据来进行训练,得到引入该领域信息的预训练模型,问题是,预训练需要大量样本才能有好的效果,而现实基本属于低资源的情况。因此,现有采用单模型进行关系抽取在低资源的情况下往往效果不佳。

技术实现思路

[0003]本专利技术主要是提供基于双模型增强的垂直领域关系抽取方法及系统。
[0004]为了解决上述技术问题,本专利技术采用如下技术方案:基于双模型增强的垂直领域关系抽取方法,包括:采集原始文本,基于所述原始文本抽取实体信息;基于所述实体信息嵌入所述原始文本获取第一句子输入序列;基于所述实体信息在知识图谱中提取属性信息,并将所述实体信息与属性信息拼接获取第二句子输入序列;设置主模型和辅模型,将所述第一句子输入序列输入主模型,将所述第二句子输入序列输入辅模型,基于主模型和辅模型的输出结果加权并获取关系概率值;基于主模型的输出结果预测主关系类型,基于辅模型的输出结果预测辅关系类型,基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。
[0005]进一步,所述采集原始文本,基于所述原始文本抽取实体信息,包括:采集原始文本,提取所述原始文本中的实体头、实体尾和实体跨度,并基于所述实体头、实体尾和实体跨度获取实体跨度信息;基于所述实体跨度信息获取实体类型信息。
[0006]进一步,所述基于所述实体信息嵌入所述原始文本获取第一句子输入序列;基于所述实体信息在知识图谱中提取属性信息,并将所述实体信息与属性信息拼接获取第二句子输入序列,包括:将实体跨度信息和实体类型信息嵌入所述原始文本获取第一句子输入序列;基于实体头和实体尾在知识图谱中提取属性信息,并将实体跨度信息、实体类型信息和属性信息拼接获取第二句子输入序列。
[0007]进一步,所述设置主模型和辅模型,将所述第一句子输入序列输入主模型,将所述第二句子输入序列输入辅模型,基于主模型和辅模型的输出结果加权并获取关系概率值,包括:
设置主模型和辅模型;将所述第一句子输入序列输入主模型获取主实体对向量;将所述第二句子输入序列输入辅模型获取辅实体对向量;基于所述主实体对向量和辅实体对向量加权并获取关系概率值。
[0008]进一步,所述基于主模型的输出结果预测主关系类型,基于辅模型的输出结果预测辅关系类型,基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果,包括:基于主实体对向量预测主关系类型,基于辅实体对向量预测辅关系类型;基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。
[0009]基于双模型增强的垂直领域关系抽取系统,包括:原始文本处理模块,用于采集原始文本,基于所述原始文本抽取实体信息;句子输入序列获取模块,用于基于所述实体信息嵌入所述原始文本获取第一句子输入序列;基于所述实体信息在知识图谱中提取属性信息,并将所述实体信息与属性信息拼接获取第二句子输入序列;关系概率值计算模块,用于设置主模型和辅模型,将所述第一句子输入序列输入主模型,将所述第二句子输入序列输入辅模型,基于主模型和辅模型的输出结果加权并获取关系概率值;最终关系抽取模块,用于基于主模型的输出结果预测主关系类型,基于辅模型的输出结果预测辅关系类型,基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。
[0010]进一步,所述原始文本处理模块,包括:实体跨度信息获取子模块,用于采集原始文本,提取所述原始文本中的实体头、实体尾和实体跨度,并基于所述实体头、实体尾和实体跨度获取实体跨度信息;实体类型信息获取子模块,用于基于所述实体跨度信息获取实体类型信息。
[0011]进一步,所述句子输入序列获取模块,包括:第一序列获取子模块,用于将实体跨度信息和实体类型信息嵌入所述原始文本获取第一句子输入序列;第二序列获取子模块,用于基于实体头和实体尾在知识图谱中提取属性信息,并将实体跨度信息、实体类型信息和属性信息拼接获取第二句子输入序列。
[0012]进一步,所述关系概率值计算模块,包括:双模型设置子模块,用于设置主模型和辅模型;主实体对向量获取子模块,用于将所述第一句子输入序列输入主模型获取主实体对向量;辅实体对向量获取子模块,用于将所述第二句子输入序列输入辅模型获取辅实体对向量;关系概率值计算子模块,用于基于所述主实体对向量和辅实体对向量加权并获取关系概率值。
[0013]进一步,所述最终关系抽取模块,包括:关系类型预测子模块,用于基于主实体对向量预测主关系类型,基于辅实体对向量预测辅关系类型;
最终预测结果抽取子模块,用于基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。
[0014]有益效果:本专利技术采用原始文本的实体信息配合设置双模型的方式,利用从垂直领域现有的知识图谱中的提取的属性信息文本进行关系抽取,最后结合双模型的关系抽取,能够在少量样本结合现有的知识图谱情况下,共同得出更准确的结果,节省大量的预训练计算资源。
附图说明
[0015]图1为本专利技术的基于双模型增强的垂直领域关系抽取方法流程图;图2为本专利技术的基于双模型增强的垂直领域关系抽取系统框图。
具体实施方式
[0016]以下将结合实施例对本专利技术涉及的基于双模型增强的垂直领域关系抽取方法及系统技术方案进一步详细说明。
[0017]如图1所示,本专利技术的基于双模型增强的垂直领域关系抽取方法,包括:S1~S4;S1、采集原始文本,基于所述原始文本抽取实体信息;S2、基于所述实体信息嵌入所述原始文本获取第一句子输入序列;基于所述实体信息在知识图谱中提取属性信息,并将所述实体信息与属性信息拼接获取第二句子输入序列;S3、设置主模型和辅模型,将所述第一句子输入序列输入主模型,将所述第二句子输入序列输入辅模型,基于主模型和辅模型的输出结果加权并获取关系概率值;S4、基于主模型的输出结果预测主关系类型,基于辅模型的输出结果预测辅关系类型,基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。
[0018]进一步,步骤S1中所述采集原始文本,基于所述原始文本抽取实体信息,包括:S11、采集原始文本,提取所述原始文本中的实体头、实体尾和实体跨度,并基于所述实体头、实体尾和实体跨度获取实体跨度信息;其中,将原始文本表示为X,实体跨度信息为:上式中,为实体跨度的实体头,为实体跨度的实体尾,为实体跨度的宽度特征。
[0019]S12、基于所述实体跨度信息获取实体类型信息。
[0020]其中,实体类型信息为:上式为使用ReLU函数激活的两层前馈神经网络进行实体类型信息的预测。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于双模型增强的垂直领域关系抽取方法,其特征在于,包括:采集原始文本,基于所述原始文本抽取实体信息;基于所述实体信息嵌入所述原始文本获取第一句子输入序列;基于所述实体信息在知识图谱中提取属性信息,并将所述实体信息与属性信息拼接获取第二句子输入序列;设置主模型和辅模型,将所述第一句子输入序列输入主模型,将所述第二句子输入序列输入辅模型,基于主模型和辅模型的输出结果加权并获取关系概率值;基于主模型的输出结果预测主关系类型,基于辅模型的输出结果预测辅关系类型,基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。2.根据权利要求1所述的方法,其特征在于,所述采集原始文本,基于所述原始文本抽取实体信息,包括:采集原始文本,提取所述原始文本中的实体头、实体尾和实体跨度,并基于所述实体头、实体尾和实体跨度获取实体跨度信息;基于所述实体跨度信息获取实体类型信息。3.根据权利要求2所述的方法,其特征在于,所述基于所述实体信息嵌入所述原始文本获取第一句子输入序列;基于所述实体信息在知识图谱中提取属性信息,并将所述实体信息与属性信息拼接获取第二句子输入序列,包括:将实体跨度信息和实体类型信息嵌入所述原始文本获取第一句子输入序列;基于实体头和实体尾在知识图谱中提取属性信息,并将实体跨度信息、实体类型信息和属性信息拼接获取第二句子输入序列。4.根据权利要求3所述的方法,其特征在于,所述设置主模型和辅模型,将所述第一句子输入序列输入主模型,将所述第二句子输入序列输入辅模型,基于主模型和辅模型的输出结果加权并获取关系概率值,包括:设置主模型和辅模型;将所述第一句子输入序列输入主模型获取主实体对向量;将所述第二句子输入序列输入辅模型获取辅实体对向量;基于所述主实体对向量和辅实体对向量加权并获取关系概率值。5.根据权利要求4所述的方法,其特征在于,所述基于主模型的输出结果预测主关系类型,基于辅模型的输出结果预测辅关系类型,基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果,包括:基于主实体对向量预测主关系类型,基于辅实体对向量预测辅关系类型;基于所述主关系类型、辅关系类型和关系概率值获取最终预测结果。...

【专利技术属性】
技术研发人员:朱宁许娟杨雅婷宋佳祥白焜太刘硕
申请(专利权)人:神州医疗科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1