【技术实现步骤摘要】
基于句法树和图注意力机制的实体关系抽取方法及装置
本专利技术涉及一种计算机
,是一种基于句法树和图注意力机制的实体关系抽取方法及装置。
技术介绍
关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中识别实体并抽取实体之间的语义关系。关系抽取以实体识别的结果为输入,旨在判断处于同一个文本中的实体之间是否存在关系,存在什么样的关系。现有的关系抽取技术大多数没有使用到图卷积神经网络和图注意力机制来提取句子的句法结构,对于依存树所包含的结构信息并不能完整地表示和利用,仅仅使用了句法信息使得降低了对传统语义信息的重视。同时在获得依存树节点信息时可能只着眼于与它直接关联的节点,但依存分析的结果中一些密切相关的词语是通过一个中心词连接起来的(如主谓关系和动宾关系中,主语和宾语用谓语间接关联),只使用一级邻居会使得这些关联被忽视,但若过多的考虑其他所有节点与本节点的联系,又会造成模型提取了过多无效信息。并且现有的技术普遍认为每个待抽取的句子的权重是相同的,强行从中提取关系可能导致结果中错误三元组 ...
【技术保护点】
1.一种基于句法树和图注意力机制的实体关系抽取方法,其特征在于,包括:/n对文本进行文本分析,其中文本分析包括分词及词性分析和依存分析;/n对分词及词性分析后的文本进行实体识别,标记其中的实体所在位置和实体类型;/n获得待抽取文本,并输入至关系抽取模型中抽取关系,获得关系与句子里实体组合的三元组输出,其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型,待抽取文本包括实体识别后的文本和依存分析后的文本。/n
【技术特征摘要】
1.一种基于句法树和图注意力机制的实体关系抽取方法,其特征在于,包括:
对文本进行文本分析,其中文本分析包括分词及词性分析和依存分析;
对分词及词性分析后的文本进行实体识别,标记其中的实体所在位置和实体类型;
获得待抽取文本,并输入至关系抽取模型中抽取关系,获得关系与句子里实体组合的三元组输出,其中关系抽取模型为包括Bi-GRU网络层、改进GAT层和双粒度注意力层的关系抽取模型,待抽取文本包括实体识别后的文本和依存分析后的文本。
2.根据权利要求1所述的基于句法树和图注意力机制的实体关系抽取方法,其特征在于,所述获得待抽取文本,并输入至关系抽取模型中抽取关系,获得关系与句子里实体组合的三元组输出,包括:
对待抽取文本进行预处理,将待抽取文本中同一篇文章中的句子作为一个包,且使得每个包中的每个句子里有且仅有2个实体被标记;
利用词向量嵌入获得句子中词语的词向量和位置向量,并将二者连接起来生成词语的初始词向量;
Bi-GRU网络通过从前向后和从后向前两个方式学习句子的特征,获得词语的基础词向量,得到句子的基础表达形式;
改进GAT对句子的依存树结构编码,为依存树上的每一个连边赋予权重,将基础词向量作为树上节点的初始向量,通过句法依存关系学习节点的表示,获取句子中包含的语法信息;
双粒度注意力层包括词语注意层和句子注意力层,将Bi-GRU网络层和改进GAT层输出的句子的嵌入表示连接起来,通过词语注意力层提高关键词语的权重,再通过句子注意力层提高每个包中高质量句子的权重;
将把每个包中的句子输入至分类器中,对其中表达的实体间关系类型进行分类,并获得关系与句子里实体组合的三元组输出。
3.根据权利要求1或2所述的基于句法树和图注意力机制的实体关系抽取方法,其特征在于,所述对分词及词性分析后的文本进行实体识别,标记其中的实体所在位置和实体类型,包括:
获得分词及词性分析后的文本中每个句子中每个词的n维浮点数向量和m维向量,将两个向量拼接组合成词的初始词向量,输出由初始词向量组成的句子矩阵;
CNN网络层提取句子矩阵中的隐含信息;
Bi-L...
【专利技术属性】
技术研发人员:张红岩,张伟,张宇,王垚,高雁平,
申请(专利权)人:北京熙紫智数科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。