当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于概念定义与数据增强的上下位关系抽取方法技术

技术编号:38343380 阅读:5 留言:0更新日期:2023-08-02 09:23
本发明专利技术提出一种基于概念定义与数据增强的上下位关系抽取方法,包括,利用关键词抽取技术将自然文本中的概念对抽取出来,基于概念对和概念对对应的上下文关系构建概念三元组,将概念三元组的集合作为训练数据集;获取训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量;构建输入是训练数据集,输出是概念向量之间的偏移向量、概念向量、概念定义的向量融合后的向量的上下位关系预测模型,根据训练数据集和融合后的向量对上下位关系预测模型进行训练;获取测试文本中的待预测概念三元组,将待预测概念三元组输入训练完成的上下位关系预测模型,根据输出的分量对待预测概念三元组的是否存在上下位关系进行预测。下位关系进行预测。下位关系进行预测。

【技术实现步骤摘要】
一种基于概念定义与数据增强的上下位关系抽取方法


[0001]本专利技术属于自然语言处理中的关系抽取领域。

技术介绍

[0002]随着“以知识为驱动,以事实为导向”的知识图谱逐渐成为组织、管理和分析科技大数据的主要技术手段,对构建科技知识图谱的重要组成要素之一的上下位关系进行识别也成为科技大数据领域的主要研究方向。上下位关系是自然语言中基本的语义关系,通常被用来描述概念之间的层次隶属关系,一般表示为概念对之间存在的“is

a”关系,是人类认知的核心,也是构建语言分类法的重要一环,比如“国家”和“中国”、“苹果”和“水果”。上下位关系作为一种重要的语义资源,几乎成为任何领域本体、词典、语义网络、知识图谱等核心支撑与处理要素。
[0003]常规的上下位关系抽取的方法主要包括以赫斯特模式为主的基于模式的方法、无监督的上下位关系抽取方法以及有监督的上下位关系抽取方法,主要依靠构建“X such as Y”等固定结构的语法,依靠语句匹配的方法从文本中对上下位关系进行抽取。另一类无监督的上下位关系抽取方法主要依据分布式包含假设(Distributional Inclusion Hypothesis)根据概念出现的广泛性来判断概念之间的上下位关系。有监督的上下位关系抽取方式是通过词嵌入等方式,对将概念转换为稠密的向量,并利用概念之间的各种向量组合关系使用神经网络模型对上下位关系进行预测。
[0004]然而,已有的有监督的上下位关系抽取方法重点关注于概念本身,忽略了概念定义中包含的语义关系,这些语义关系能够有效的对上下位关系进行预测。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术的目的在于提出一种基于概念定义与数据增强的上下位关系抽取方法,用于判断给定对象是否存在上下位关系。
[0007]为达上述目的,本专利技术第一方面实施例提出了一种基于概念定义与数据增强的上下位关系抽取方法,包括:
[0008]利用关键词抽取技术将自然文本中的概念对抽取出来,基于所述概念对和所述概念对对应的上下文关系构建概念三元组,将所述概念三元组的集合作为训练数据集,其中所述训练数据集包括正例集合和负例集合;
[0009]通过使用双向LSTM与预训练语言模型BERT相结合的方法,并借助注意力机制关注重要语义部分获取所述训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量;
[0010]构建输入是所述训练数据集,输出是所述概念向量之间的偏移向量、所述概念向量、所述概念定义的向量融合后的向量的上下位关系预测模型,根据所述训练数据集和所述融合后的向量对所述上下位关系预测模型进行训练;
[0011]获取测试文本中的待预测概念三元组,将所述待预测概念三元组输入训练完成的上下位关系预测模型,根据输出的分量对所述待预测概念三元组的是否存在上下位关系进行预测。
[0012]另外,根据本专利技术上述实施例的一种基于概念定义与数据增强的上下位关系抽取方法还可以具有以下附加的技术特征:
[0013]进一步地,在本专利技术的一个实施例中,在将所述概念三元组的集合作为训练数据集之后,还包括:
[0014]根据赫斯特模式与预训练语言模型BERT对所述训练数据集进行数据增强。
[0015]进一步地,在本专利技术的一个实施例中,所述根据赫斯特模式与预训练语言模型BERT对所述训练数据集进行数据增强,包括:
[0016]将正例中同一个上位词对应的所有下位词进行两两配对,之后结合四种赫斯特模式,并使用MASK指代待预测的候选概念,生成四种遮盖语句;
[0017]使用预训练语言模型BERT对所述四种遮盖语句中存在的MASK标签指代的缺失概念进行预测,并根据预测结果中概念的出现频率来选择最有可能的概念作为增强概念,构建更多的正例。
[0018]进一步地,在本专利技术的一个实施例中,所述根据赫斯特模式与预训练语言模型BERT对所述训练数据集进行数据增强,包括:
[0019]采用三种策略进行生成负例,定义如下:
[0020]使用上位词概念的配对作为反例;
[0021]使用下位词之间的配对;
[0022]随机选择上下位词进行负例生成。
[0023]进一步地,在本专利技术的一个实施例中,所述通过使用双向LSTM与预训练语言模型BERT相结合的方法,并借助注意力机制关注重要语义部分获取所述训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量,包括:
[0024]通过使用双向LSTM与所述BERT相结合的方法,并借助注意力机制关注重要语义部分,获取所述训练数据集中的概念定义向量表示。
[0025]通过使用BERT模型与类型增强矩阵映射的方法,获取所述训练集中的概念向量以及概念之间的偏移向量。
[0026]进一步地,在本专利技术的一个实施例中,所述根据所述训练数据集和所述融合后的向量对所述上下位关系预测模型进行训练,包括:
[0027]使用交叉熵损失函数:
[0028][0029]其中,l是真实标签,p
i
表示概念对的概率,N表示为参与训练的概念对总数。
[0030]进一步地,在本专利技术的一个实施例中,所述融合后的向量,包括:
[0031][0032]其中,表示上位词概念定义的嵌入向量,代表增强的上位词概念表示,表示两个概念向量的偏移量,表示下位词概念定义的嵌入向量,代表增强的下位词概念表示;
[0033][0034]其中W是参数矩阵,是融合后的向量,c是分量总和为1的二维向量,如果c[1]>0.5则说明该概念对存在上下位关系。为达上述目的,本专利技术第二方面实施例提出了一种基于概念定义与数据增强的上下位关系抽取装置,包括以下模块:
[0035]获取模块,用于利用关键词抽取技术将自然文本中的单词对抽取出来,基于所述单词对和所述单词对对应的上下文关系构建概念三元组,将所述概念三元组的集合作为训练数据集,其中所述训练数据集包括正例集合和负例集合,所述概念三元组包括原始概念对和标签;
[0036]概念表示模块,通过使用双向LSTM与预训练语言模型BERT相结合的方法,并借助注意力机制关注重要语义部分获取所述训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量;
[0037]训练模块,用于构建输入是所述训练数据集,输出是所述概念向量之间的偏移向量、所述概念向量、所述概念定义的向量融合后的向量的上下位关系预测模型,根据所述训练数据集和所述融合后的向量对所述上下位关系预测模型进行训练;
[0038]预测模块,用于获取测试文本中的待预测概念三元组,将所述待预测概念三元组输入训练完成的上下位关系预测模型,根据输出的分量对所述待预测概念三元组的是否存在上下位关系进行预测。
[0039]为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,其特征在于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于概念定义与数据增强的上下位关系抽取方法,其特征在于,包括以下步骤:利用关键词抽取技术将自然文本中的概念对抽取出来,基于所述概念对和所述概念对对应的上下文关系构建概念三元组,将所述概念三元组的集合作为训练数据集,其中所述训练数据集包括正例集合和负例集合;通过使用双向LSTM与预训练语言模型BERT相结合的方法,并借助注意力机制关注重要语义部分获取所述训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量;构建输入是所述训练数据集,输出是所述概念向量之间的偏移向量、所述概念向量、所述概念定义的向量融合后的向量的上下位关系预测模型,根据所述训练数据集和所述融合后的向量对所述上下位关系预测模型进行训练;获取测试文本中的待预测概念三元组,将所述待预测概念三元组输入训练完成的上下位关系预测模型,根据输出的分量对所述待预测概念三元组的是否存在上下位关系进行预测。2.根据权利要求1所述的方法,其特征在于,在将所述概念三元组的集合作为训练数据集之后,还包括:根据赫斯特模式与预训练语言模型BERT对所述训练数据集进行数据增强。3.根据权利要求2所述的方法,其特征在于,所述根据赫斯特模式与预训练语言模型BERT对所述训练数据集进行数据增强,包括:将正例中同一个上位词对应的所有下位词进行两两配对,之后结合四种赫斯特模式,并使用MASK指代待预测的候选概念,生成四种遮盖语句;使用预训练语言模型BERT对所述四种遮盖语句中存在的MASK标签指代的缺失概念进行预测,并根据预测结果中概念的出现频率来选择最有可能的概念作为增强概念,构建更多的正例。4.根据权利要求2所述的方法,其特征在于,所述根据赫斯特模式与预训练语言模型BERT对所述训练数据集进行数据增强,包括:采用三种策略进行生成负例,定义如下:使用上位词概念的配对作为反例;使用下位词之间的配对;随机选择上下位词进行负例生成。5.根据权利要求1所述的方法,其特征在于,所述通过使用双向LSTM与预训练语言模型BERT相结合的方法,并借助注意力机制关注重要语义部分获取所述训练数据集中的每个三元组中的概念向量、概念向量之间的偏移向量以及概念定义的向量,包括:通过使用双向LSTM与所述BERT相结合的方法,并借助注意力机制关注重要语义部分,获取所述训练数据集中的概念定义向量表示;通过使用BERT模型与类型增...

【专利技术属性】
技术研发人员:赵姝郭双瑞殷俊张金磊段震陈洁
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1