一种文档级关系抽取方法、装置、设备及存储介质制造方法及图纸

技术编号：25439320 阅读：22 留言：0更新日期：2020-08-28 22:27

本发明专利技术公开了一种文档级关系抽取方法、装置、设备及存储介质，该方法包括：获取文档文本，对文档文本进行转换得到目标实体对向量、非目标实体对向量；将目标实体对向量和非目标实体对向量相结合，得到实体对结合向量；将实体对结合向量输入分类器，得到关系抽取结果。该方法实现提升抽取结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文档级关系抽取方法、装置、设备及存储介质
本专利技术涉及计算机
，特别是涉及一种文档级关系抽取方法、装置、设备及存储介质。
技术介绍
目前，机器人通过计算机系统与操作员或程序员进行人机对话，实现对机器人的控制与操作。随着人工智能技术的高速发展，各种各样的智能对话机器人在日常生活的不同领域中大放异彩。自然语言理解作为对话系统的唯一输入接口，对于整个系统的重要性不言而喻。其接受纯文本形式的自然语言，也可通过语音技术将语音转为文字。首先必须经过实体识别和关系抽取将无结构化的数据转化为结构化数据，才能进行后续的意图识别、对话管理和答案生成等步骤。一个性能良好的实体关系抽取模型，对于对话系统中的自然语言理解和知识库的构建起到了至关重要的作用。句子级别的关系抽取方法只能识别包含两个实体的句子文本，远不能满足实际的工业应用。自此，基于文档级别的多实体关系抽取方法开始进入到了人们的视线当中。但是当前的文档级关系抽取方法仅仅对单个实体对即目标实体本身对进行关系抽取，得到关系抽取结果，单个目标实体对数据比较单一，这样抽取结果的准确性较低。因此，如何提升抽取结果的准确性是亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种文档级关系抽取方法、装置、设备及存储介质，以实现提升抽取结果的准确性。为解决上述技术问题，本专利技术提供一种文档级关系抽取方法，该方法包括：获取文档文本，对文档文本进行转换得到目标实体对向量、非目标实体对向量；将目标实体对向量和非目标实体对向量相...

【技术保护点】
1.一种文档级关系抽取方法，其特征在于，包括：/n获取文档文本，对文档文本进行转换得到目标实体对向量、非目标实体对向量；/n将目标实体对向量和非目标实体对向量相结合，得到实体对结合向量；/n将实体对结合向量输入分类器，得到关系抽取结果。/n

【技术特征摘要】
1.一种文档级关系抽取方法，其特征在于，包括：
获取文档文本，对文档文本进行转换得到目标实体对向量、非目标实体对向量；
将目标实体对向量和非目标实体对向量相结合，得到实体对结合向量；
将实体对结合向量输入分类器，得到关系抽取结果。

2.如权利要求1所述的方法，其特征在于，所述对文档文本进行转换得到目标实体对向量、非目标实体对向量，包括：
对文档文本进行向量转换，生成单词词嵌入向量、单词字符嵌入向量；
从文档文本中识别出单词类型向量、单词共线信息向量；
将单词词嵌入向量、单词字符嵌入向量、单词类型向量、单词共线信息向量进行特征融合，得到融合结果；
将融合结果输入至人工神经网络，输出得到隐层状态向量；
利用隐层状态向量得到目标实体对向量、非目标实体对向量。

3.如权利要求2所述的方法，其特征在于，所述利用隐层状态向量得到目标实体对向量、非目标实体对向量，包括：
从文档文本中获取目标实体对、非目标实体对；
利用隐层状态向量对目标实体对和非目标实体对中每一个实体进行计算，得到每一个实体的向量；
对于目标实体对和非目标实体对中每一个实体，将实体的向量和实体的位置嵌入向量进行融合，得到实体的融合向量；
对实体的融合向量进行拼接处理，得到目标实体对向量、非目标实体对向量。

4.如权利要求1所述的方法，其特征在于，所述将目标实体对向量和非目标实体对向量相结合，得到实体对结合向量，包括：
基于非目标实体对向量，计算得到上下文实体对信息向量；
将上下文实体对信息向量和目标实体对...

【专利技术属性】
技术研发人员：李净，
申请(专利权)人：北京慧闻科技集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人