一种文档级关系抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:25439320 阅读:22 留言:0更新日期:2020-08-28 22:27
本发明专利技术公开了一种文档级关系抽取方法、装置、设备及存储介质,该方法包括:获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。该方法实现提升抽取结果的准确性。

【技术实现步骤摘要】
一种文档级关系抽取方法、装置、设备及存储介质
本专利技术涉及计算机
,特别是涉及一种文档级关系抽取方法、装置、设备及存储介质。
技术介绍
目前,机器人通过计算机系统与操作员或程序员进行人机对话,实现对机器人的控制与操作。随着人工智能技术的高速发展,各种各样的智能对话机器人在日常生活的不同领域中大放异彩。自然语言理解作为对话系统的唯一输入接口,对于整个系统的重要性不言而喻。其接受纯文本形式的自然语言,也可通过语音技术将语音转为文字。首先必须经过实体识别和关系抽取将无结构化的数据转化为结构化数据,才能进行后续的意图识别、对话管理和答案生成等步骤。一个性能良好的实体关系抽取模型,对于对话系统中的自然语言理解和知识库的构建起到了至关重要的作用。句子级别的关系抽取方法只能识别包含两个实体的句子文本,远不能满足实际的工业应用。自此,基于文档级别的多实体关系抽取方法开始进入到了人们的视线当中。但是当前的文档级关系抽取方法仅仅对单个实体对即目标实体本身对进行关系抽取,得到关系抽取结果,单个目标实体对数据比较单一,这样抽取结果的准确性较低。因此,如何提升抽取结果的准确性是亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种文档级关系抽取方法、装置、设备及存储介质,以实现提升抽取结果的准确性。为解决上述技术问题,本专利技术提供一种文档级关系抽取方法,该方法包括:获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。优选的,所述对文档文本进行转换得到目标实体对向量、非目标实体对向量,包括:对文档文本进行向量转换,生成单词词嵌入向量、单词字符嵌入向量;从文档文本中识别出单词类型向量、单词共线信息向量;将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特征融合,得到融合结果;将融合结果输入至人工神经网络,输出得到隐层状态向量;利用隐层状态向量得到目标实体对向量、非目标实体对向量。优选的,所述利用隐层状态向量得到目标实体对向量、非目标实体对向量,包括:从文档文本中获取目标实体对、非目标实体对;利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算,得到每一个实体的向量;对于目标实体对和非目标实体对中每一个实体,将实体的向量和实体的位置嵌入向量进行融合,得到实体的融合向量;对实体的融合向量进行拼接处理,得到目标实体对向量、非目标实体对向量。优选的,所述将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量,包括:基于非目标实体对向量,计算得到上下文实体对信息向量;将上下文实体对信息向量和目标实体对向量进行结合,得到实体对结合向量。优选的,上下文实体对信息向量的计算公式如下:其中,oc为上下文实体对信息向量,m为非目标实体对的个数,αi为权重,oi为非目标实体对向量。优选的,权重αi的计算公式如下:其中,g(oi,os)=oiAos,函数g()表示计算上下文关系相对于目标关系的注意力得分,A为训练参数,os为目标实体对向量。优选的,所述实体对结合向量的计算公式为:o=[os,oc];其中,o为实体对结合向量,os为目标实体对向量,oc为上下文实体对信息向量。本专利技术还提供一种文档级关系抽取装置,包括:转换模块,用于获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;结合模块,用于将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;输入模块,用于将实体对结合向量输入分类器,得到关系抽取结果。本专利技术还提供一种文档级关系抽取设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一项所述的文档级关系抽取方法的步骤。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的文档级关系抽取方法的步骤。本专利技术所提供的一种文档级关系抽取方法、装置、设备及存储介质,获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。可见,将目标实体对向量和非目标实体对向量相结合,最后进行关系抽取的数据是目标实体对向量和非目标实体对向量相结合后的数据,这样除了目标实体对即要进行关系预测的实体对之外,还从文档中提取其他实体关系即非目标实体对来辅助目标实体预测,即结合文档中的上下文信息对目标实体进行关系预测,用于关系分析的实体对数据不仅包括目标实体对,还结合了非目标实体对,这样抽取结果的准确性高,实现提升抽取结果的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术所提供的一种文档级关系抽取方法的流程图;图2为文档级别关系抽取示意图;图3为字符嵌入模型图;图4为词嵌入模型图;图5为本专利技术所提供的一种文档级关系抽取装置结构示意图;图6为本专利技术所提供的一种文档级关系抽取设备结构示意图。具体实施方式本专利技术的核心是提供一种文档级关系抽取方法、装置、设备及存储介质,以实现提升抽取结果的准确性。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术所提供的一种文档级关系抽取方法的流程图,该方法包括以下步骤:S11:获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;S12:将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;S13:将实体对结合向量输入分类器,得到关系抽取结果。可见,该方法中,将目标实体对向量和非目标实体对向量相结合,最后进行关系抽取的数据是目标实体对向量和非目标实体对向量相结合后的数据,这样除了目标实体对即要进行关系预测的实体对之外,还从文档中提取其他实体关系即非目标实体对来辅助目标实体预测,即结合文档中的上下文信息对目标实体进行关系预测,用于关系分析的实体对数据不仅包括目标实体对,还结合了非目标实体对,这样抽取结果的准确性高,实现提本文档来自技高网
...

【技术保护点】
1.一种文档级关系抽取方法,其特征在于,包括:/n获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;/n将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;/n将实体对结合向量输入分类器,得到关系抽取结果。/n

【技术特征摘要】
1.一种文档级关系抽取方法,其特征在于,包括:
获取文档文本,对文档文本进行转换得到目标实体对向量、非目标实体对向量;
将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;
将实体对结合向量输入分类器,得到关系抽取结果。


2.如权利要求1所述的方法,其特征在于,所述对文档文本进行转换得到目标实体对向量、非目标实体对向量,包括:
对文档文本进行向量转换,生成单词词嵌入向量、单词字符嵌入向量;
从文档文本中识别出单词类型向量、单词共线信息向量;
将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特征融合,得到融合结果;
将融合结果输入至人工神经网络,输出得到隐层状态向量;
利用隐层状态向量得到目标实体对向量、非目标实体对向量。


3.如权利要求2所述的方法,其特征在于,所述利用隐层状态向量得到目标实体对向量、非目标实体对向量,包括:
从文档文本中获取目标实体对、非目标实体对;
利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算,得到每一个实体的向量;
对于目标实体对和非目标实体对中每一个实体,将实体的向量和实体的位置嵌入向量进行融合,得到实体的融合向量;
对实体的融合向量进行拼接处理,得到目标实体对向量、非目标实体对向量。


4.如权利要求1所述的方法,其特征在于,所述将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量,包括:
基于非目标实体对向量,计算得到上下文实体对信息向量;
将上下文实体对信息向量和目标实体对...

【专利技术属性】
技术研发人员:李净
申请(专利权)人:北京慧闻科技集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1