当前位置: 首页 > 专利查询>重庆大学专利>正文

一种关注关联词的实体关系抽取方法技术

技术编号:22022349 阅读:30 留言:0更新日期:2019-09-04 01:18
本发明专利技术公开了一种关注关联词的实体关系抽取方法,所述关注关联词的实体关系抽取方法,包括以下步骤:S1,输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;S2,将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;S3,将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;S4,将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,得到最后的关系分类结果输出。

An Entity Relation Extraction Method Concerning Associative Words

【技术实现步骤摘要】
一种关注关联词的实体关系抽取方法
本专利技术涉及深度学习与自然语言处理领域,具体涉及一种关注关联词的实体关系抽取方法。
技术介绍
实体关系抽取是信息抽取领域的热点问题,其主要任务是在实体识别的基础上,在无结构的文本中进行实体关系抽取,实现实体关系的结构化存储与利用。该技术打破了人工阅读理解文本语义及获取关系的限制,在面对大量文本信息处理时具有速度优势,可应用于众多自然语言处理应用领域。例如,通过实体关系抽取,可以辅助知识图谱或者本体知识库的构建;也可以为自动问答系统提供支持。从研究上看,该技术还可以提供理论支持,对目前语义网络标注,篇章理解,机器翻译方面都有着重要意义。目前,基于机器学习方法的关系实体抽取技术主要分为有监督的学习方法、无监督的学习方法和半监督学习方法三种。有监督学习方法是最基本的关系抽取方法,他的思想主要是将已标记的训练数据用来训练关系抽取模型,然后就用这个模型实现数据中实体具备的关系类型进行预测。半监督的学习方法主要采用Bootstrapping进行关系抽取和充分利用现有的freebase进行的远程监督关系抽取。无监督的学习方法通过对所有实体对的语义关系进行聚类,并在此基础上实现关系的识别。中文文本语言特点复杂,大多使用关联词来进一步增强语义信息,而关联词更多倾向于使用两个词语来共同表示实体之间存在的语义关联,例如“因为”和“所以”表示因果关系;但现有的实体抽取方法并未关注关联词对实体提取的影响,难以适应于语言特点复杂的中文文本,实体抽取的准确率不高。例如申请公布号为CN106202044A的专利技术专利申请公开了一种基于深度神经网络的实体关系抽取方法,该方法通过提取字特征、句子特征和类别特征,使用卷积神经网络分析得到抽取结果,解决了长短句问题,提高了实体关系抽取的性能,但未关注词语之间的联系,对于语言特点复杂的中文关系,仍存在实体抽取准确率不高的问题。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种关注关联词的实体关系抽取方法,通过关注关联词,提高多关联词出现时,实体抽取结果的准确性。为了实现上述专利技术目的,本专利技术提供了以下技术方案:一种关注关联词的实体关系抽取方法,包括以下步骤:S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中,充分利用了关联词在中文表达中的语义信息。再与语义特征拼接,结合成一个信息含量很大的向量,最后送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。优选地,所述步骤S1具体包括以下步骤:S11:输入已标签文本和待测文本,文本分词,获取词向量;S12:获取词语相对于句中特征实体对的相对位置的表示向量;S13:拼接词向量和两个相对位置的表示向量,得到句子的实值向量。获得句子的实值向量,以获取二元组合特征向量。优选地,所述步骤S2具体包括以下步骤:S21:两个词语对应的实值向量组合获取二元组合特征向量,通过将所有词语对应的实值向量两两组合,得到一个特征矩阵X,即特征矩阵X维度为(n2,d),Xi为特征矩阵的第i个维度;S22:训练词级注意力矩阵,并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量,计算二元组合特征向量与关系标签的相关性。通过步骤S2计算二元组合特征向量与关系标签的相关性。优选地,所述步骤S22具体包括以下步骤:S221:定义词级注意力矩阵的维度,计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi,然后通过比较权重向量与文本的真实值,采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数,得到训练完成的词级注意力矩阵;S222:通过训练完成的词级注意力矩阵计算待测文本的二元组合特征向量与各个关系标签的权重向量,基于权重向量得到经过词级关注的最终句子表示;权重向量的具体计算方法如式(1)和式(2)所示,文本的最终句子表示计算方法如式(3)所示:gi=Xir,(1)其中,r是本专利技术需要进行分类的关系标签在词级机器学习网络中的嵌入向量embedding向量,gi表示每个二元词组与关系标签的相关性;αi为权重向量,也为词级注意力矩阵,表示对于一个句子当中的所有二元词组与关系向量相似度的归一化值,即在一句文本中,不同的二元词组,根据与关系标签的相似性而所得到的关注权重不同;y为经过上述词级关注的最终句子表示。训练词级注意力矩阵,以更好地计算待测文本的二元组合特征向量与各个关系标签的权重向量,得到句子经过词级关注的最终句子表示。优选地,所述步骤S3采用BGRU网络层获取文本的语义结构和特征向量表示,句子的语义特征记做h,第i个句子的语义特征记为hi,获取文本的语义特征。优选地,所述步骤S4得到关系分类结果输出的具体过程如下:第i个句子的向量表示为zi,其中然后再利用句子级别的注意力机制来充分关注具有相同实体对且具有相同实体关系的语义信息,得到最后的结果分类输出;其中,通过句子级别的注意力机制获取分类结果的计算公式如式(4)至式(8)所示:ei=ziAr,(4)o=Ws+b,(7)其中,A为句子级别注意力的对角矩阵,d为本专利技术需要进行分类的关系标签在句子级学习网络中的嵌入向量embedding向量,ei表示句子与关系标签的相关性;k指的是文本包含的句子总数,βi是表示每个句子与标签相似度的权重;s指经过句子级别关注的文本表示;W表示维度转换网络层内所有关系标签的embedding矩阵,b表示预训练的偏置矩阵bias矩阵;nr表示关系类别数量,ok表示文本与第k个关系标签相关的关系概率值,or表示所有关系概率值里面数值最大的关系概率值。二元词组特征与语义特征拼接,结合成一个信息含量很大的向量,送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。与现有技术相比,本专利技术的有益效果:本算法将可能存在二元关联词组显式表达语义关系的信息融合到词级的关注层中,充分利用了关联词在中文表达中的语义信息。再与从BGRU网络层提取的特征拼接,结合成一个信息含量很大的向量,最后送入至句子级别的关注层,使整个网络层能够自动学习到更多有助于关系分类的特征,使分类的准确率更高。附图说明:图1为本专利技术示例性实施例1的一种关注关联词的实体关系抽取方法的算法流程图;图2为本专利技术示例性实施例1的一种关注关联词的实体关系抽取方法的算法详细流程图;图3为本专利技术示例性实施例1的文本内容关联抽取方法步骤S2的算法流程图;图4为本专利技术示例性实施例1的文本内容关联抽取方法步骤S4的算法流程图。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主本文档来自技高网
...

【技术保护点】
1.一种关注关联词的实体关系抽取方法,其特征在于,包括以下步骤:S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。

【技术特征摘要】
1.一种关注关联词的实体关系抽取方法,其特征在于,包括以下步骤:S1:输入已标签文本和待测文本,进行文本分词,获取每个词语映射的对应的实值向量;S2:将所有词语对应的实值向量两两组合,获取二元组合特征向量,计算二元组合特征向量与关系标签的权重向量,获取句子的二元词组特征;S3:将实值向量输入到神经网络层中,获取文本的语义结构和特征向量表示;S4:将步骤2输出的二元词组特征与步骤3输出的语义特征串联作为最终文本句子的表示,然后将最终文本句子的表示输入至句子级别的关注层,获得句子对于不同关系类型的权重,输出最后的关系分类结果。2.根据权利要求1所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S1具体包括以下步骤:S11:输入已标签文本和待测文本,文本分词,获取词向量;S12:获取词语相对于句中特征实体对的相对位置的表示向量;S13:拼接词向量和两个相对位置的表示向量,得到句子的实值向量。3.根据权利要求1所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S2具体包括以下步骤:S21:两个词语对应的实值向量组合获取二元组合特征向量,通过将所有词语对应的实值向量两两组合,得到一个特征矩阵X,即特征矩阵X维度为(n2,d),Xi为特征矩阵的第i个维度;S22:训练词级注意力矩阵,并采用训练完成的词级注意力矩阵重点关注可能存在的影响关系分类的二元词组向量,计算二元组合特征向量与关系标签的相关性。4.根据权利要求3所述的关注关联词的实体关系抽取方法,其特征在于,所述步骤S22具体包括以下步骤:S221:定义词级注意力矩阵的维度,计算已标签文本的二元组合特征向量与各个关系标签的权重向量αi,然后通过比较权重向量与文本的真实值,采用机器学习的方式自动通过梯度下降的方式学习调节词级注意力矩阵的参数,得到训练完成的词级注意力矩阵;S222:通过训练完成的词级注...

【专利技术属性】
技术研发人员:钟将袁红阳李青
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1