【技术实现步骤摘要】
关系抽取方法、装置、设备和存储介质
[0001]本申请要求于2021年09月06日提交的申请号为202111037638.9、专利技术名称为“关系抽取方法、装置、设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
[0002]本申请实施例涉及人工智能、智慧交通等
,特别涉及一种关系抽取方法、装置、设备和存储介质。
技术介绍
[0003]关系抽取是指获取文本中包含的各个实体之间的关系。例如,以人物关系抽取为例,从文本中识别得到两个人物名称,然后基于文本中包含的信息,确定这两个人物名称之间的人物关系,如子女、配偶等关系。
[0004]在相关技术中,提供了一种利用Bootstrapping构建语义模板进行关系抽取的方案。
[0005]但是利用Bootstrapping进行关系抽取的缺点主要是模板的泛化性不足,在具有复杂语境的文本上效果不佳,不能得到很完善、正确的实体间关系。
技术实现思路
[0006]本申请实施例提供了一种关系抽取方法、装置、设备和存储介质,提供 ...
【技术保护点】
【技术特征摘要】
1.一种关系抽取方法,其特征在于,所述方法包括:获取包含第一实体和第二实体的目标文本;对所述目标文本中的所述第一实体、所述第二实体和关键词进行标注,得到带标注的目标文本;其中,所述关键词是指所述目标文本中能够体现所述第一实体和所述第二实体间的关系的字词;对所述带标注的目标文本进行编码处理,得到所述第一实体对应的编码表示向量和实体关键词表示向量,以及所述第二实体对应的编码表示向量和实体关键词表示向量;其中,所述编码表示向量用于反映实体的特征信息,所述实体关键词表示向量用于反映实体与所述关键词之间的关联度;根据所述第一实体对应的编码表示向量和实体关键词表示向量,以及所述第二实体对应的编码表示向量和实体关键词表示向量,确定所述第一实体和所述第二实体间的关系。2.根据权利要求1所述的方法,其特征在于,所述对所述带标注的目标文本进行编码处理,得到所述第一实体对应的编码表示向量和实体关键词表示向量,以及所述第二实体对应的编码表示向量和实体关键词表示向量,包括:通过编码网络对所述带标注的目标文本进行编码处理,得到所述第一实体对应的编码表示向量和所述第二实体对应的编码表示向量;获取所述编码网络的中间层特征向量;采用注意力机制对所述中间层特征向量进行处理,得到所述第一实体对应的实体关键词表示向量和所述第二实体对应的实体关键词表示向量。3.根据权利要求2所述的方法,其特征在于,所述采用注意力机制对所述中间层特征向量进行处理,得到所述第一实体对应的实体关键词表示向量和所述第二实体对应的实体关键词表示向量,包括:从所述中间层特征向量中,筛选出所述第一实体对应的中间特征向量、所述第二实体对应的中间特征向量,以及所述关键词对应的中间特征向量;以所述第一实体为锚点,计算所述第一实体对应的中间特征向量相对于所述第二实体对应的中间特征向量和所述关键词对应的中间特征向量的注意力,得到所述第一实体对应的实体关键词表示向量;以所述第二实体为锚点,计算所述第二实体对应的中间特征向量相对于所述第一实体对应的中间特征向量和所述关键词对应的中间特征向量的注意力,得到所述第二实体对应的实体关键词表示向量。4.根据权利要求1所述的方法,其特征在于,所述对所述带标注的目标文本进行编码处理,得到所述第一实体对应的编码表示向量和实体关键词表示向量,以及所述第二实体对应的编码表示向量和实体关键词表示向量之后,还包括:获取所述第一实体对应的实体关键词表示向量和所述第二实体对应的实体关键词表示向量之间的差异表示向量;其中,所述差异表示向量用于结合所述第一实体对应的编码表示向量和实体关键词表示向量以及所述第二实体对应的编码表示向量和实体关键词表示向量,确定所述第一实体和所述第二实体间的关系。5.根据权利要求4所述的方法,其特征在于,所述获取所述第一实体对应的实体关键词
表示向量和所述第二实体对应的实体关键词表示向量之间的差异信息,包括:将所述第一实体对应的实体关键词表示向量减去所述第二实体对应的实体关键词表示向量,得到第一差值向量;将所述第二实体对应的实体关键词表示向量减去所述第一实体对应的实体关键词表示向量,得到第二差值向量;将所述第一差值向量和所述第二差值向量进行拼接,得到所述差异表示向量。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一实体对应的编码表示向量和实体关键词表示向量,以及所述第二实体对应的编码表示向量和实体关键词表示向量,确定所述第一实体和所述第二实体间的关系,包括:将所述第一实体对应的编码表示向量、所述第二实体对应的编码表示向量、所述第一实体对应的实体关键词表示向量和所述第二实体对应的实体关键词表示向量进行拼接,得到拼接向量;通过分类网络对所述拼接向量进行处理,输出多个候选关系分别对应的置信度;基于所述多个候选关系分别对应的置信度,确定所述第一实体和所述第二实体间的关系。7.根据权利要求6所述的方法,其特征在于,所述基于所述多个候选关系分别对应的置信度,确定所述第一实体和所述第二实体间的关系,包括:根据所述多个候选关系分别对应的置信度,选择置信度最大的目标候选关系;若所述目标候选关系满足条件,则将所述目标候选关系确定为所述第一实体和所述第二实体间的关系;其中,所述条件包括以下至少一项:所述目标文本中包含所述目标候选关系对应的白名单中的字词,和/或,所述目标文本中不包含所述目标候选关系对应的黑名单中的字词;所述目标候选关系对应的置信度大于或等于第一阈值;所述第一实体、所述第二实体和所述目标候选关系在素材文本中的出现次数大于或等于第二阈值。8.根据权利要求1所述的方法,其特征在于,所述获取包含第一实体和第二实体的目标文本,包括:获取候选实体集合,所述候选实体集合中包括多个实体;将所述候选实体集合中的实体两两组合,得到多个实体对;对于所述多个实体对中包含所述第一实体和所述第二实体的目标实体对,从素材文本中选取包含所述第一实体和所述第二实体的目标文本。9.一种关系抽取模型的训练方法,其特征在于,所述方法包括:获取关系抽取模型的训练样本,所述训练样本包括:包含第一实体和第二实体的样本...
【专利技术属性】
技术研发人员:刘康龙,荆宁,罗雨,梁海金,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。