【技术实现步骤摘要】
一种关系抽取方法及系统
[0001]本专利技术涉及计算机自然语言处理领域,具体提供一种关系抽取方法及系统。
技术介绍
[0002]信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取研究问题进一步得到广泛的关注和深入研究。
[0003]实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效果。方法,而且还可以通过其中的偏旁部首与结构成分来推断词组的词性及词意。
[0004]最近,神经网络方法在关系抽取任务中逐渐流行起来。比如使用递归神经网络来解决实体关系抽取问题。该方法对句子进行了句法解析,能够有效地考虑句子的句法结构信息,但同时该方法无法很好地考虑两个实体在句子中的位置和语义信息。再比如利用词向量和词的位置向量作为卷积神经网络的输入,引入了实体和其他词的距离信息,可以很好的把句子中实体的信息考虑到关系抽取中。随后,又有学者提出了一种新的损失函数的卷积神经网络,采用了新的损失函数,能够有效提高不同实体关 ...
【技术保护点】
【技术特征摘要】
1.一种关系抽取方法,其特征在于,基于长短时记忆网络和上下文感知模型,具有如下步骤:S1、关系编码器为句子中两个实体之间的关系o
s
生成一个固定大小的向量表示;S2、将句子中的每个标记标记为属于第一个实体e1,或属于第二个实体e2,或要么不属于这两个实体;S3、将递归神经网络应用于标记嵌入;S4、将每个单词的所有两词向量嵌入连接起来;S5、输入到长短时记忆网络与上下文感知网络结合的网络模型中,网络模型获取每个输入向量进行运算,后续将得到的文本特征进行序列标注得到实体识别结果。2.根据权利要求1所述的一种关系抽取方法,其特征在于,在步骤S1中,首先,句子的每个标记x={x1,x2,...,x
n
}使用矩阵映射到k维嵌入向量W∈R
|V|*k
,|V|是单词表的大小。3.根据权利要求2所述的一种关系抽取方法,其特征在于,在步骤S2中,一个标记嵌入矩阵P∈R
3*d
随机初始化,d为位置嵌入的维数,有三种标记类型,对于每个单词,将标记嵌入与单词嵌入拼接起来(W
n
,P
n
)。4.根据权利要求3所述的一种关系抽取方法,其特征在于,在步骤S3中,句子长度n因句子而异,递归神经网络提供了一种容纳各种大小输入的方法,将n个向量的序列映射到一个固定大小的输出向量o
s
∈R
o
;将输出向量o
s
作为句子中目标实体之间关系的表示,使用之前成功应用于信息提取的递归神经网络的变体
‑
长短时记忆网络。5.根据权利要求4所述的一种关系抽取方法,其特征在于,在步骤S4中,将每个单词的所有两词向量嵌入连接起来,输入的句子被转换成一个矩阵X=[w1,w2,...,w
n
],其中每个词向量为n为句子长度。6.一种关系抽取系统,其特征在于,首先,使用关系编码器为句子中两个实体之间的关...
【专利技术属性】
技术研发人员:王光耀,
申请(专利权)人:山东浪潮科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。