一种基于多依存关系表示机制的图卷积网络关系抽取方法技术

技术编号:29614670 阅读:25 留言:0更新日期:2021-08-10 18:29
本发明专利技术提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;基于前馈神经网络获取实体关系特征信息,进行实体关系分类。本发明专利技术能够更好地辅助关系抽取,提升了识别精度。

【技术实现步骤摘要】
一种基于多依存关系表示机制的图卷积网络关系抽取方法
本专利技术涉及自然语言处理领域,具体涉及一种基于多依存关系表示机制的图卷积网络关系抽取方法。
技术介绍
大数据时代,互联网信息激增,如何有效地从海量非结构化文本中挖掘出高质量、结构化的知识信息,是自然语言处理技术研究的难点。关系抽取是信息抽取的一项重要环节,其目的是对文本中的实体进行语义关系分类。关系分类分为有监督分类法、无监督分类法、半监督分类法以及开放域分类法。目前,基于深度神经网络的有监督式抽取方式是关系抽取的主流。深度神经网络可习得文本的语义特征。近年来,由于图卷积网络(GraphConvolutionalNetwork,GCN)在表征句子结构及语义依存关系方面的强大优势,被广泛应用于关系抽取、文本分类、情感分类。并且,其并行式的运算框架,使模型在运算效率上得到大幅提升。关系抽取中,句子通常含有指示实体关系的特征词,如“马云创建阿里巴巴”中的“创建”。通过句法分析构建句子依存关系树(图),并通过一定方式筛选出依存关系树(图)上的关系指示词,可帮助关系抽取模型提升分类效果。因此,有些学者通过抽取最短依存路径上节点作为关系关键词辅助关系抽取;有些则将最短依存路径上的节点信息扩展到其所连接的子树;还有则是通过设定依存关系树的层数来控制输入节点数量。以上方法都是基于预定义的依存路径方式来获取表征实体关系的关键词,它潜在假设关系关键词一定会在预先设定的依存路径上出现,但由于语言的多样性以及句式结构的复杂性,使得这种预定义的筛选方式适用性不强,导致模型容易忽略掉分散在句子某处的重要关系指示词,限制了关系模型的识别精度和识别范围。
技术实现思路
本专利技术的目的在于提出了一种基于多依存关系表示机制的图卷积网络关系抽取方法,以解决现有基于图卷积网络的关系抽取模型需依赖预定义方式抽取关系关键词,导致模型的句式兼容性差、筛选方式不灵活、容易忽略分散于句子非主干路径上的关系指示词的问题。实现本专利技术目的的技术解决方案为:一种基于多依存关系表示机制的图卷积网络关系抽取方法,包括如下步骤:步骤1,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;步骤2,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;步骤3,根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;步骤4,基于前馈神经网络获取实体关系特征信息,进行实体关系分类。进一步的,步骤1中,对采集到的非结构化文本开展预处理,包括分词、词性标注、实体类型标注、关系类型标注,并将这些词转化为计算机可处理的嵌入向量编码,具体方法为:步骤1.1,首先,以句号为分隔符,对文本开展分句;其次,对句子进行分词、词性分析、依存关系分析;然后,以句子为单位,标注实体对和实体关系类型,形成有标注的句子语料;步骤1.2,将经过预处理的语句分词映射到语义向量空间中的一个d维子空间,即语义嵌入,具体过程按照以下公式进行:其中,et是嵌入后对应于每个分词的语义嵌入向量,分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量,为向量连接运算,词嵌入向量由语言模型生成的编码库表生成,实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。进一步的,步骤2中,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征,具体方法为:双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成,其各自网络的隐藏层状态向量计算如下:其中,LSTM(·)为长短期记忆单元运算,et是每个分词的语义嵌入向量,和分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量,ht为对应于各分词在双向长短期记忆循环神经网络中的输出向量,也即句子的上下文语义特征。进一步的,步骤3中,基于依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量,具体方法为:1)依存关系结构的矩阵表示a)构建全邻接矩阵全邻接矩阵用于表征依存关系树上所有节点之间的邻接关系,具体地,具有n个节点的图或树的全邻接矩阵定义为n阶方阵A=(aij)n×n,其中:b)构建集中邻接矩阵将最短依存路径上的节点信息作为反映实体关系的强特征信息,将最短依存路径提供的节点信息用集中邻接矩阵表示,具体地,集中邻接矩阵定义为n阶方阵Ac=(cij)n×n,其中:即在全邻接矩阵中将不属于最短依存路径的边所对应的元素设为0,换句话说,这也等价于将完整的原句依存关系树修剪为仅保留最短依存路径的子树;c)构建距离权重邻接矩阵与集中邻接矩阵相反,基于节点间的距离,也就是节点间路径包含边的数量,构造保留更多依存关系结构信息的距离权重矩阵,具体地,距离权重邻接矩阵定义为n阶方阵Aw=(wij)n×n,其中:式中,dij为节点i,j之间的距离,这也等价于将原句依存关系树转换为一个由节点距离决定权中的带权完全图,距离权重邻接矩阵比原本的全邻接矩阵更完整地表示了节点间直接或间接关联关系;2)图卷积网络运算图卷积运算GCN(·)定义为:为全邻接矩阵A的再标准化形式,σ(·)为激活函数,选用ReLU函数,H(m)为图卷积网络第m层的输出及第m+1层的输入,和分别为与A对应的图卷积参数矩阵和仿射偏置矩阵;将步骤2捕获的句子的上下文语义特征作为三个并行图卷积网络的输入,结合上述三种依存关系表示方式,采用图卷积网络按照下列公式进行运算:式中,h1,…,hs为双向长短期记忆循环神经网络模型输出表示所有分词的状态向量,s为句子中分词的总数,l为图卷积网络总层数,分别为对应于全邻接矩阵、集中邻接矩阵、距离权重邻接矩阵的图卷积子网络最终层输出,H(l)为并行图卷积网络的最终综合输出;3)最大值池化处理使用最大池化函数fmax对图卷积网络的最终综合H(l)进行降维处理:hsent=fmax(h(l))(12)式中,hsent均为H(l)经最大值集中化处理后得到的句子表示向量。进一步的,步骤4中,基于模型获取的实体关系特征信息辅助句子实体关系分类,具体方法为:将步骤3得到的句子表示向量输入到一个前馈神经网络关系分类器,并用softmax函数获得每种关系分类的预测概率,具体公式如下所示:hf=FFNN(hsent)(13)P=softmax(Whf+b)(本文档来自技高网
...

【技术保护点】
1.一种基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,包括如下步骤:/n步骤1,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;/n步骤2,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;/n步骤3,根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;/n步骤4,基于前馈神经网络获取实体关系特征信息,进行实体关系分类。/n

【技术特征摘要】
1.一种基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,包括如下步骤:
步骤1,对采集到的非结构化文本开展预处理,包括分句、分词、词性标注、实体类型标注、关系类型标注,生成每个分词的语义嵌入向量,对句子进行依存关系分析,生成依存关系树;
步骤2,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征;
步骤3,根据依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量;
步骤4,基于前馈神经网络获取实体关系特征信息,进行实体关系分类。


2.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤1中,对采集到的非结构化文本开展预处理,包括分词、词性标注、实体类型标注、关系类型标注,并将这些词转化为计算机可处理的嵌入向量编码,具体方法为:
步骤1.1,首先,以句号为分隔符,对文本开展分句;其次,对句子进行分词、词性分析、依存关系分析;然后,以句子为单位,标注实体对和实体关系类型,形成有标注的句子语料;
步骤1.2,将经过预处理的语句分词映射到语义向量空间中的一个d维子空间,即语义嵌入,具体过程按照以下公式进行:



其中,et是嵌入后对应于每个分词的语义嵌入向量,分别为词嵌入向量、实体类别嵌入向量、词性嵌入向量,为向量连接运算,词嵌入向量由语言模型生成的编码库表生成,实体类型嵌入向量和词性嵌入向量则是根据文本预处理中实体识别和词性分析的结果进行编码而得。


3.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤2中,基于双向长短期记忆循环神经网络捕捉句子的上下文语义特征,具体方法为:
双向长短期记忆循环神经网络分别由一个正向LSTM网络传播层和一个反向LSTM网络传播层叠加而成,其各自网络的隐藏层状态向量计算如下:









其中,LSTM(·)为长短期记忆单元运算,et是每个分词的语义嵌入向量,和分别为对应于各分词的正向和反向循环神经网络隐藏层状态向量,ht为对应于各分词在双向长短期记忆循环神经网络中的输出向量,也即句子的上下文语义特征。


4.根据权利要求1所述的基于多依存关系表示机制的图卷积网络关系抽取方法,其特征在于,步骤3中,基于依存关系树生成全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵,结合句子的上下文语义特征,对全邻接矩阵、集中邻接矩阵和距离权重邻接矩阵进行卷积运算,再对卷积运算后的结果进行最大池化处理,获得句子表示向量,具体方法为:
1)依存关系结构的矩阵表示
a)构建全邻接矩阵
全邻接矩阵用于表征依存关系树上所有节点之间的邻接关系,具体地,具有n个节点的图或树的全邻接矩阵定义为n阶方阵A=(aij)n×n,其中:



b)构建集中邻接矩阵
将最短依存路径上的节点信息作为反映实体关系的强特征信息,将最短依存路径提供的节点信息用集中邻接矩阵表示,具体地,...

【专利技术属性】
技术研发人员:沈红刘欣刘午凌罗晋彭晨闵飞乔雪
申请(专利权)人:中国科学院电子学研究所苏州研究院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1