属性三元组合并方法、装置、终端及计算机可读存储介质制造方法及图纸

技术编号:36683883 阅读:9 留言:0更新日期:2023-02-27 19:44
本发明专利技术提供一种属性三元组合并方法、装置、终端及计算机可读存储介质,属性三元组合并方法通过对获取的检索文本进行属性检测,得到检索文本包含的N个属性信息,并生成N个属性信息分别对应的属性三元组,其中,N为大于或等于2的正整数;基于任意两个属性信息和检索文本,生成两个属性信息对应的检测输入模板;基于两个属性信息对应的检测输入模板,确定两个属性信息对应检测类别;基于两个属性信息对应检测类别,确定是否将两个属性三元组进行合并。本申请通过检索文本及其对应的属性信息生成检测输入模板,进而确定属性信息之间的检测类别,根据检测类别确定是否将对应的属性信息进行合并,进而提高属性三元组的合并准确率。进而提高属性三元组的合并准确率。进而提高属性三元组的合并准确率。

【技术实现步骤摘要】
属性三元组合并方法、装置、终端及计算机可读存储介质


[0001]本专利技术涉及信息处理
,特别是涉及一种属性三元组合并方法、装置、终端及计算机可读存储介质。

技术介绍

[0002]随着社会各行各业数字化的迅速发展,前所未有的大量数据,已经远远超过了现有传统计算机技术和信息系统处理能力,并且数据之间存在大量孤岛数据、异构数据的现象,缺乏高效的处理、存储和计算手段,无法真正挖掘数据的价值。伴随着人工智能、大数据的成熟,快速而廉价的算力,为构建一种支撑快速部署数据驱动模型的高性能存储技术和更广泛的大数据应用场景提供了可能,而知识图谱通过建立数据之间的关联链接,将碎片化的数据有机组织起来,让数据更加容易被人和机器理解和处理,并为搜索、挖掘、分析等上层应用提供便利。
[0003]在针对知识图谱进行信息检索时,普遍采用的方法都是对检索语句进行语义解析,生成对应的三元组,其中包括属性三元组和关系三元组,其次再利用三元组信息生成知识图谱查询语句进行检索,检索结果的准确性取决于三元组生成的准确率。

技术实现思路

[0004]本专利技术主要解决的技术问题是提供一种属性三元组合并方法、装置、终端及计算机可读存储介质,解决现有技术中三元组的合并准确率比较低的问题。
[0005]为解决上述技术问题,本专利技术采用的第一个技术方案是:提供一种属性三元组合并方法,属性三元组合并方法包括:对获取的检索文本进行属性检测,得到检索文本包含的N个属性信息,并生成N个属性信息分别对应的属性三元组,其中,N为大于或等于2的正整数;基于任意两个属性信息和检索文本,生成两个属性信息对应的检测输入模板;基于两个属性信息对应的检测输入模板,确定两个属性信息对应检测类别;基于两个属性信息对应检测类别,确定是否将两个属性信息分别对应的属性三元组进行合并。
[0006]其中,属性三元组合并方法还包括:构建类别标签

标签相关文本对应关系表;其中,类别标签

标签相关文本对应关系表中包括至少两个类别标签以及各类别标签分别映射的标签相关文本;标签相关文本的单词数量与类别标签的单词数量一致。
[0007]其中,属性三元组合并方法还包括:构建预设模板,预设模板包括原始检索文本、第一属性信息、第二属性信息以及预设数量个掩码文本;基于任意两个属性信息和检索文本,生成两个属性信息对应的检测输入模板,包括:将两个属性信息和检索文本填充到预设模板中,生成两个属性信息对应的检测输入模板。
[0008]其中,基于两个属性信息对应的检测输入模板,确定两个属性信息对应检测类别,包括:将两个属性信息对应的检测输入模板输入到BERT模型,确定两个属性信息对应的检测类别;检测类别对应的单词文本的数量与掩码文本的数量一致。
[0009]其中,BERT模型的训练方法包括:获取训练数据集,训练数据集包括多个训练数据
模板,训练数据模板为两个属性三元组对应的模板;训练数据模板关联有标注类别;将训练数据模板输入到BERT模型,得到预测类别;基于训练数据模板对应的预测类别与标注类别之间的误差值,迭代训练BERT模型。
[0010]其中,类别标签包括第一预设类别和第二预设类别;基于两个属性信息对应检测类别,确定是否将两个属性信息分别对应的属性三元组进行合并,包括:计算得到检测类别对应的单词文本与第一预设类别对应的文本信息的相似度为第一相似度;计算得到检测类别对应的单词文本与第二预设类别对应的文本信息的相似度为第二相似度;将第一相似度和第二相似度进行比较,确定是否将两个属性信息分别对应的属性三元组进行合并。
[0011]其中,第一预设类别对应的文本信息为同一主体,第二预设类别对应的文本信息为不同主体;将第一相似度和第二相似度进行比较,确定是否将两个属性信息分别对应的属性三元组进行合并,包括:响应于第一相似度大于第二相似度,则将两个属性信息分别对应的属性三元组进行合并;响应于第一相似度不大于第二相似度,则将两个属性信息分别对应的属性三元组归属于不同主体。
[0012]为解决上述技术问题,本专利技术采用的第二个技术方案是:提供一种属性三元组合并装置,属性三元组合并装置包括:预处理模块,用于对获取的检索文本进行属性检测,得到检索文本包含的N个属性信息,并生成N个属性信息分别对应的属性三元组,其中,N为大于或等于2的正整数;生成模块,用于基于任意两个属性信息和检索文本,生成两个属性信息对应的检测输入模板;检测模块,用于基于两个属性信息对应的检测输入模板,确定两个属性信息对应检测类别;处理模块,用于基于两个属性信息对应检测类别,确定是否将两个属性信息分别对应的属性三元组进行合并。
[0013]为解决上述技术问题,本专利技术采用的第三个技术方案是:提供一种终端,该终端包括存储器、处理器以及存储于存储器中并在处理器上运行的计算机程序,处理器用于执行程序数据以实现上述属性三元组合并方法中的步骤。
[0014]为解决上述技术问题,本专利技术采用的第四个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述属性三元组合并方法中的步骤。
[0015]本专利技术的有益效果是:区别于现有技术的情况,提供的一种属性三元组合并方法、装置、终端及计算机可读存储介质,属性三元组合并方法通过对获取的检索文本进行属性检测,得到检索文本包含的N个属性信息,并生成N个属性信息分别对应的属性三元组,其中,N为大于或等于2的正整数;基于任意两个属性信息和检索文本,生成两个属性信息对应的检测输入模板;基于两个属性信息对应的检测输入模板,确定两个属性信息对应检测类别;基于两个属性信息对应检测类别,确定是否将两个属性信息分别对应的属性三元组进行合并。本申请通过检索文本及其对应的属性信息生成检测输入模板,进而确定属性信息之间的检测类别,根据检测类别确定是否将对应的属性信息进行合并,进而提高属性三元组的合并准确率。
附图说明
[0016]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0017]图1是本专利技术提供的属性三元组合并方法的流程示意图;
[0018]图2是本专利技术提供的属性三元组合并方法一具体实施例的流程示意图;
[0019]图3是图2提供的属性三元组合并方法中步骤S23一具体实施例的流程示意图;
[0020]图4是本专利技术提供的属性三元组合并装置一实施例的框架示意图;
[0021]图5是本申请提供的终端一实施例的框架示意图;
[0022]图6为本申请提供的计算机可读存储介质一实施例的框架示意图。
具体实施方式
[0023]下面结合说明书附图,对本申请实施例的方案进行详细说明。
[0024]以下描述中,为了说明而不是为了限定,提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种属性三元组合并方法,其特征在于,所述属性三元组合并方法包括:对获取的检索文本进行属性检测,得到所述检索文本包含的N个属性信息,并生成所述N个属性信息分别对应的属性三元组,其中,N为大于或等于2的正整数;基于任意两个所述属性信息和所述检索文本,生成所述两个属性信息对应的检测输入模板;基于所述两个属性信息对应的所述检测输入模板,确定所述两个属性信息对应检测类别;基于所述两个属性信息对应所述检测类别,确定是否将所述两个属性信息分别对应的所述属性三元组进行合并。2.根据权利要求1所述的属性三元组合并方法,其特征在于,所述属性三元组合并方法还包括:构建类别标签

标签相关文本对应关系表;其中,所述类别标签

标签相关文本对应关系表中包括至少两个类别标签以及各所述类别标签分别映射的标签相关文本;所述标签相关文本的单词数量与所述类别标签的单词数量一致。3.根据权利要求1所述的属性三元组合并方法,其特征在于,所述属性三元组合并方法还包括:构建预设模板,所述预设模板包括原始检索文本、第一属性信息、第二属性信息以及预设数量个掩码文本;所述基于任意两个所述属性信息和所述检索文本,生成所述两个属性信息对应的检测输入模板,包括:将两个所述属性信息和所述检索文本填充到所述预设模板中,生成两个所述属性信息对应的所述检测输入模板。4.根据权利要求3所述的属性三元组合并方法,其特征在于,所述基于所述两个属性信息对应的所述检测输入模板,确定所述两个属性信息对应检测类别,包括:将所述两个属性信息对应的所述检测输入模板输入到BERT模型,确定所述两个属性信息对应的检测类别;所述检测类别对应的单词文本的数量与所述掩码文本的数量一致。5.根据权利要求4所述的属性三元组合并方法,其特征在于,所述BERT模型的训练方法包括:获取训练数据集,所述训练数据集包括多个训练数据模板,所述训练数据模板为两个属性三元组对应的模板;所述训练数据模板关联有标注类别;将所述训练数据模板输入到所述BERT模型,得到预测类别;基于所述训练数据模板对应的所述预测类别与所述标注类别之间的误差值,迭代训练所述BERT模型。6.根据...

【专利技术属性】
技术研发人员:钱佳佳刘伟棠陈立力周明伟范鹏召郑燕玲
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1