一种文本匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35193898 阅读:25 留言:0更新日期:2022-10-12 18:19
本申请实施例公开了一种文本匹配方法、装置、计算机设备和存储介质;本申请实施例可以获取文本信息和知识图谱;对文本信息进行编码处理,得到文本信息对应的语义特征,以及对知识图谱进行编码处理,得到知识图谱对应的语义特征;基于文本信息对应的语义特征,对知识图谱对应的语义特征进行注意力特征提取,得到知识图谱对应的注意力特征;基于知识图谱对应的语义特征,对文本信息对应的语义特征进行注意力特征提取,得到文本信息对应的注意力特征;基于知识图谱对应的注意力特征和文本信息对应的注意力特征在知识图谱中的至少一个参考实体对象中筛选出和文本信息中的实体对象相匹配的目标参考实体对象,可以提高实体链指的准确性。准确性。准确性。

【技术实现步骤摘要】
一种文本匹配方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,具体涉及一种文本匹配方法、装置、计算机设备和存储介质。

技术介绍

[0002]互联网网页,如新闻、博客等文本信息里涉及大量实体对象。大部分网页本身并没有关于这些实体对象的相关说明和背景介绍。为了帮助人们更好地了解网页内容,很多网站或作者会把网页中出现的实体对象链接到相应的知识库词条上,为读者提供更详尽的背景材料。这种做法实际上将互联网网页与实体对象之间建立了链接关系,因此被称为实体链指。本申请的专利技术人对现有技术的实践发现,现有的实体链指方法存在准确性较低的问题。

技术实现思路

[0003]本申请实施例提出了一种文本匹配方法、装置、计算机设备和存储介质,可以提高实体链指的准确性。
[0004]本申请实施例提供了一种文本匹配方法,包括:
[0005]获取文本信息和知识图谱,所述文本信息包括实体对象,其中,所述知识图谱包括至少一个参考实体对象;
[0006]对所述文本信息进行编码处理,得到所述文本信息对应的语义特征,以及对所述知识图谱进行编码处理,得到所述知识图谱对应的语义特征;
[0007]基于所述文本信息对应的语义特征,对所述知识图谱对应的语义特征进行注意力特征提取,得到所述知识图谱对应的注意力特征;
[0008]基于所述知识图谱对应的语义特征,对所述文本信息对应的语义特征进行注意力特征提取,得到所述文本信息对应的注意力特征;
[0009]基于所述知识图谱对应的注意力特征和文本信息对应的注意力特征在所述知识图谱中的至少一个参考实体对象中筛选出和所述文本信息中的实体对象相匹配的目标参考实体对象。
[0010]相应的,本申请实施例还提供了一种文本匹配装置,包括:
[0011]获取单元,用于获取文本信息和知识图谱,所述文本信息包括实体对象,其中,所述知识图谱包括至少一个参考实体对象;
[0012]编码单元,用于对所述文本信息进行编码处理,得到所述文本信息对应的语义特征,以及对所述知识图谱进行编码处理,得到所述知识图谱对应的语义特征;
[0013]第一注意力特征提取单元,用于基于所述文本信息对应的语义特征,对所述知识图谱对应的语义特征进行注意力特征提取,得到所述知识图谱对应的注意力特征;
[0014]第二注意力特征提取单元,用于基于所述知识图谱对应的语义特征,对所述文本信息对应的语义特征进行注意力特征提取,得到所述文本信息对应的注意力特征;
[0015]筛选单元,用于基于所述知识图谱对应的注意力特征和文本信息对应的注意力特征在所述知识图谱中的至少一个参考实体对象中筛选出和所述文本信息中的实体对象相匹配的目标参考实体对象。
[0016]在一实施例中,所述第一注意力特征提取单元,可以包括:
[0017]第一全连接映射子单元,用于对所述文本信息对应的语义特征进行全连接映射,得到所述文本信息对应的全连接特征;
[0018]第一归一化子单元,用于对所述文本信息对应的全连接特征进行归一化处理,得到所述文本信息对应的归一化特征;
[0019]第一注意力映射子单元,用于利用所述文本信息对应的归一化特征将所述知识图谱对应的语义特征进行注意力映射,得到所述知识图谱对应的注意力特征。
[0020]在一实施例中,所述全连接映射子单元,可以包括:
[0021]数量确定模块,用于确定所述知识图谱中参考实体对象的数量信息;
[0022]信息生成模块,用于基于所述数量信息,生成全连接映射信息和偏置信息;
[0023]乘法运算模块,用于将所述文本信息对应的语义特征和所述全连接映射信息进行乘法运算,得到文本信息的初始全连接特征;
[0024]加法运算,用于将所述文本信息的初始全连接特征和所述偏置信息进行加法运算,得到所述文本信息的全连接特征。
[0025]在一实施例中,所述注意力映射子单元,可以包括:
[0026]逻辑运算模块,用于将知识图谱的语义特征元素和对应的文本信息的归一化特征元素进行逻辑运算处理,得到注意力特征元素;
[0027]整合模块,用于将注意力特征元素进行整合,得到所述知识图谱对应的注意力特征。
[0028]在一实施例中,所述第二注意力特征提取单元,可以包括:
[0029]统计子单元,用于对所述知识图谱对应的语义特征进行统计运算,得到所述知识图谱对应的统计特征;
[0030]第二全连接映射子单元,用于对所述知识图谱的统计特征进行全连接映射,得到所述知识图谱对应的全连接特征;
[0031]第二归一化子单元,用于对所述知识图谱的全连接特征进行归一化处理,得到所述知识图谱对应的归一化特征;
[0032]第二注意力映射子单元,用于利用所述知识图谱对应的归一化特征将所述文本信息对应的语义特征进行注意力映射,得到所述文本信息对应的注意力特征。
[0033]在一实施例中,所述编码单元,可以包括:
[0034]特征提取子单元,用于对所述文本信息进行特征提取,得到所述文本信息的初始特征;
[0035]特征挖掘子单元,用于对所述文本信息的初始特征进行特征挖掘,得到所述文本信息的挖掘后特征;
[0036]第一映射子单元,用于将所述文本信息的挖掘后特征映射至预设语义空间中,得到所述文本信息对应的语义特征。
[0037]在一实施例中,所述编码单元,还可以包括:
[0038]知识图谱识别子单元,用于对所述知识图谱进行识别,得到所述知识图谱对应的实体信息和实体关系信息;
[0039]空间特征提取子单元,用于对所述知识图谱的实体信息和所述实体关系信息进行空间特征提取,得到所述实体信息对应的空间特征和所述实体关系信息对应的空间特征;
[0040]第一特征融合子单元,用于将所述实体信息对应的空间特征和所述实体关系信息对应的空间特征进行融合,得到目标空间特征;
[0041]第二映射子单元,用于将所述目标空间特征映射至知识图谱语义空间,得到所述知识图谱对应的语义特征。
[0042]在一实施例中,所述筛选单元,可以包括:
[0043]第二特征融合子单元,用于将所述知识图谱对应的注意力特征和文本信息对应的注意力特征进行融合,得到融合后注意力特征;
[0044]概率分布映射子单元,用于对所述融合后注意力特征进行概率分布映射,得到概率分布映射结果;
[0045]筛选子单元,用于基于所述概率分布映射结果在所述知识图谱中的至少一个参考实体对象中筛选出和所述文本信息中的实体对象相匹配的目标参考实体对象。
[0046]在一实施例中,本申请实施例提出的文本匹配装置还可以包括:
[0047]对象确定单元,用于确定所述知识图谱中和所述目标参考实体对象具有的关联关系的关联实体对象;
[0048]清洗单元,用于采集所述关联实体对象的属性信息,并对所述关联实体对象的属性信息进行清洗处理,得到所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,其特征在于,包括:获取文本信息和知识图谱,所述文本信息包括实体对象,其中,所述知识图谱包括至少一个参考实体对象;对所述文本信息进行编码处理,得到所述文本信息对应的语义特征,以及对所述知识图谱进行编码处理,得到所述知识图谱对应的语义特征;基于所述文本信息对应的语义特征,对所述知识图谱对应的语义特征进行注意力特征提取,得到所述知识图谱对应的注意力特征;基于所述知识图谱对应的语义特征,对所述文本信息对应的语义特征进行注意力特征提取,得到所述文本信息对应的注意力特征;基于所述知识图谱对应的注意力特征和文本信息对应的注意力特征在所述知识图谱中的至少一个参考实体对象中筛选出和所述文本信息中的实体对象相匹配的目标参考实体对象。2.根据权利要求1所述的方法,其特征在于,所述基于所述文本信息对应的语义特征,对所述知识图谱对应的语义特征进行注意力特征提取,得到所述知识图谱对应的注意力特征,包括:对所述文本信息对应的语义特征进行全连接映射,得到所述文本信息对应的全连接特征;对所述文本信息对应的全连接特征进行归一化处理,得到所述文本信息对应的归一化特征;利用所述文本信息对应的归一化特征将所述知识图谱对应的语义特征进行注意力映射,得到所述知识图谱对应的注意力特征。3.根据权利要求2所述的方法,其特征在于,所述对所述文本信息对应的语义特征进行全连接映射,得到所述文本信息对应的全连接特征,包括:确定所述知识图谱中参考实体对象的数量信息;基于所述数量信息,生成全连接映射信息和偏置信息;将所述文本信息对应的语义特征和所述全连接映射信息进行乘法运算,得到文本信息的初始全连接特征;将所述文本信息的初始全连接特征和所述偏置信息进行加法运算,得到所述文本信息的全连接特征。4.根据权利要求2所述的方法,其特征在于,所述文本信息对应的归一化特征包括多个归一化特征元素;所述知识图谱的语义特征包括多个语义特征元素;所述利用所述文本信息对应的归一化特征将所述知识图谱对应的语义特征进行注意力映射,得到所述知识图谱对应的注意力特征,包括:将知识图谱的语义特征元素和对应的文本信息的归一化特征元素进行逻辑运算处理,得到注意力特征元素;将注意力特征元素进行整合,得到所述知识图谱对应的注意力特征。5.根据权利要求1所述的方法,其特征在于,所述基于所述知识图谱对应的语义特征,对所述文本信息对应的语义特征进行注意力特征提取,得到所述文本信息对应的注意力特征,包括:
对所述知识图谱对应的语义特征进行统计运算,得到所述知识图谱对应的统计特征;对所述知识图谱的统计特征进行全连接映射,得到所述知识图谱对应的全连接特征;对所述知识图谱的全连接特征进行归一化处理,得到所述知识图谱对应的归一化特征;利用所述知识图谱对应的归一化特征将所述文本信息对应的语义特征进行注意力映射,得到所述文本信息对应的注意力特征。6.根据权利要求1所述的方法,其特征在于,所述对所述文本信息进行编码处理,得到所述文本信息对应的语义特征,包括:对所述文本信息进行特征提取,得到所述文本信息的初始特征;对所述文本信息的初始特征进行特征挖掘,得到所述文本信息的挖掘后特征;将所述文本信息的挖掘后特征映射至预设语义空间中,得到所述文本信息对应的语义特征。7.根据权利要求1所述的方法,其特征在于,所述对所述知识图谱进行编码处理,得到所述知识图谱对应的语义特征,包括:对所述知识图谱进行识别,得到所述知识图谱对应的实体信息和实体关系信息;对所述知识图谱的实体信息和所述实体关系信息进行空间特征提取,得到所述实体信息对应的空间特征和所述实体关系信息对应的空间特征;将所述实体信息对应的空间特征和所述实体关系信息对应的空间特征进行融合,得到目标空间特征;将所述目标空间特征映射至知识图谱语义空间,得到所述知识图谱对应的语义特征。8.根据权利要求1所述的方法,其特征在于,所述基于所述知识图谱对应的注意力特征和文本信息对应的注意力特征在所述知识图谱中的至少一个参考实体对象中筛选出和所述文本信息中的实体对象相匹配的目标参考实体对象,包括:将所述知识图谱对应的注意力特征和文本信息对应的注意力特征进行融合,得到融合后注意力特征;对所述融合后注意力特征进行概率分布映射,得到概率分布映射结果;基于所述概率分布映射结果在所述知识图谱中的至...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1