一种属性三元组合并方法、装置、设备及介质制造方法及图纸

技术编号:34012084 阅读:27 留言:0更新日期:2022-07-02 14:50
本申请实施例提供了一种属性三元组合并方法、装置、设备及介质,针对任一属性三元组,在该原始文本中标识该属性三元组分别对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取该合并模型输出的该两个属性值的相似度;根据该相似度和/或该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一个实体,从而提高了属性三元组合并的准确率。率。率。

【技术实现步骤摘要】
一种属性三元组合并方法、装置、设备及介质


[0001]本申请涉及知识图谱
,尤其涉及一种属性三元组合并方法、装置、设备及介质。

技术介绍

[0002]随着技术的发展,通过知识图谱建立数据之间的关联的技术越来越常见,知识图谱将碎片化的数据组织起来,让数据更加容易被人和机器理解和处理,并为数据的搜索、挖掘、分析等上层应用提供便利。
[0003]在使用知识图谱进行信息检索时,普遍采用的方法都是识别原始文本中的三元组,其中三元组包括属性三元组和关系三元组,再利用三元组生成知识图谱查询语句进行检索,检索结果的准确性取决于生成的三元组准确率。其中,在生成属性三元组时,如果出现多个属性三元组,则需要对该多个属性三元组中属于同一个实体的属性三元组进行合并,生成对应的实体三元组,然后再组成关系三元组。
[0004]但是现有技术中在进行属性三元组合并时,是根据每个属性三元组的属性值在原始文本中的语义信息,确定每个属性三元组对应的实体的类型。针对每两个属性三元组,若该两个属性三元组对应的实体的类型一致,则确定该两个属性三元组属于同一个实体,并将属于同一个实体的至少两个属性三元组进行合并。但是,根据语义信息确定每个属性三元组对应的实体的类型时,可能出现确定的实体的类型不准确的情况,这就导致了现有技术在进行属性三元组合并时,合并结果易出错、准确率低等问题。

技术实现思路

[0005]本申请提供了一种属性三元组合并方法、装置、设备及介质,用以解决现有技术中的属性三元组合并结果易出错、准确率低的问题。
>[0006]本申请实施例提供了一种属性三元组合并方法,所述方法包括:
[0007]识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
[0008]根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
[0009]针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
[0010]进一步地,所述根据所述相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0011]若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组
属于同一实体。
[0012]进一步地,所述根据所述相似度和与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0013]若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;
[0014]若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0015]进一步地,若确定该属性三元组与所述第一其他属性三元组属于同一实体之后,所述针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组之前,所述方法还包括:
[0016]在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;
[0017]若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
[0018]进一步地,所述将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度包括:
[0019]将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;
[0020]将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;
[0021]将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
[0022]进一步地,所述合并模型的训练过程包括:
[0023]将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;
[0024]根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
[0025]本申请实施例还提供了一种属性三元组合并装置,所述装置包括:
[0026]处理模块,用于识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
[0027]确定模块,用于根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
[0028]合并模块,用于针对任一属性三元组,识别与该属性三元组属于同一实体的第二
其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
[0029]进一步地,所述确定模块,具体用于若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0030]进一步地,所述确定模块,具体用于若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0031]进一步地,所述确定模块,还用于在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
[0032]进一步地,所述处理模块,具体用于将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;将所述第二文本输入到所述合并模型的第三子模型中,接收所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种属性三元组合并方法,其特征在于,所述方法包括:识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。2.根据权利要求1所述的方法,其特征在于,所述根据所述相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。3.根据权利要求1所述的方法,其特征在于,所述根据所述相似度和与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。4.根据权利要求1所述的方法,其特征在于,若确定该属性三元组与所述第一其他属性三元组属于同一实体之后,所述针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组之前,所述方法还包括:在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。5.根据权利要求1所述的方法,其特征在于,所述将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度包括:将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。6.根据权利要求1所述的方法,其特征在于,所述合并模型的训练过程包括:
将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进...

【专利技术属性】
技术研发人员:范鹏召刘伟棠陈立力周明伟钱佳佳郑燕玲
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1