【技术实现步骤摘要】
一种基于句法信息及注意力机制的实体关系抽取方法及装置
[0001]本专利技术涉及实体关系抽取的
,尤其涉及一种基于句法信息及注意力机制的实体关系抽取方法及装置。
技术介绍
[0002]实体是文本中常见的概念,既可以是具体的个人、事件、物体,也可以是抽象的概念或联系。关系抽取的目标是通过抽取句子中的实体,判断他们之间存在的关系类型,关系抽取是构建知识库、知识图谱的重要步骤之一。关系抽取任务的缺点在于过多依赖已经标注的语料,标注过程费时费力,导致标注的成本十分高昂,所以关系抽取任务存在着语料匮乏问题。于是有研究提出了远程监督方法,对一知识库中文本的实体进行一个启发式标注,这种方式能够解决一定程度的语料稀缺问题,但其存在着大量噪声的缺点,同时语料中存在着长尾分布的问题。为了解决远程监督方法出现的大量噪声语料以及长尾问题,有研究提出了一种全新的关系抽取任务,即少样本关系抽取任务。
[0003]少样本关系抽取(FSRE)任务是近年来新兴的研究课题,是关系抽取任务与少样本学习任务的结合。Han等提出的FewRel 1.0任 ...
【技术保护点】
【技术特征摘要】
1.一种基于句法信息及注意力机制的实体关系抽取方法,其特征在于,包括以下步骤:S10将待抽取实体关系的句子的每个词转换为词向量;将所述句子的每个词与指定实体的相对位置和句法关系转换为相对位置向量和句法关系向量,将相对位置向量和句法关系向量进行拼接处理,得到每个词的实体关联向量;S20对所述每个词的实体关联向量进行特征提取处理,得到每个词的实体关联特征向量,并对所述实体关联特征向量进行线性和非线性处理,得到每个词的实体关联特征门控向量;S30对所述词向量和所述实体关联特征门控向量进行多层自注意力机制处理,得到含门控自注意力表示的句子特征向量,并对含门控自注意力表示的句子特征向量依次进行拼接、线性和最大池化处理,得到去除冗余信息的句子最终向量;S40计算句子最终向量与原型网络的分类原型中心的距离,选取与原型中心距离最小的值作为待抽取实体关系的句子中实体关系的分类。2.根据权利要求1所述的实体关系抽取方法,其特征在于,步骤S10所述的实体关联向量的表达式为:其中,表示第i个词与指定实体间的相对位置向量,表示第i个词与指定实体间的句法关系向量。3.根据权利要求1所述的实体关系抽取方法,其特征在于,步骤S20所述的非线性处理采用sigmoid激活函数进行处理,所述的实体关联特征门控向量的表达式为:G=sigmoid(W
g
h
p
+b
g
)其中,W
g
表示线性处理的权重矩阵,b
g
表示线性处理的偏置向量。4.根据权利要求1
‑
3任一项所述的实体关系抽取方法,其特征在于,步骤S30所述的多层自注意力机制的各层的门控自注意力权值满足下述表达式:其中,Q
t
表示第t层的查询矩阵,K
t
表示第t层的键矩阵,d
k
表示词向量的维度,G表示实体关联特征门控向量。5.根据权利要求4所述的实体关系抽取方法,其特征在于,步骤S40采用欧式距离计算句子最终向量与原型中心C的距离δ,所述距离δ满足下述关系式:δ=(||s
q
‑
C1||2,...,||s
q
‑
C
N
||2)其中,s
q
表示句子最终向量,C1表示第1个分类的原型中心,C
N
表示第N个分类的原型中心。6.根据权利要求4所述的实体关系抽取方法,其特征在于,步骤S40所述原型网络的分类原型中心通过下述方式得到:SA1将第u个分类的第v个实例中的词映射到实值嵌入将第v个实例中的第i个词与该实例中的两个实体的相对距离转换成两个维度为d
p
维的向量,并将两个d
p
维
向量拼接成第i个词的...
【专利技术属性】
技术研发人员:曾碧卿,周斯颖,陈鹏飞,冯灵聪,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。