实体属性值的识别方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:33478720 阅读:41 留言:0更新日期:2022-05-19 00:53
本申请提供了一种实体属性值的识别方法、装置、设备、介质及程序产品;可以应用于人工智能领域的游戏技术;方法包括:获取第一知识图谱;基于每个三元组的权重,确定每个实体属性分别在所对应的多个来源上的权重,接着确定每个实体属性所对应的多个来源的来源优先级排序;获取多个待识别三元组;从每个实体属性所对应的多个来源的来源优先级排序中,获取待识别实体属性对应的不同来源的来源优先级排序;基于待识别实体属性对应的不同来源的来源优先级排序,确定待识别实体属性的每个属性值的最高优先级来源,并将出自最高优先级来源的属性值,确定为待识别实体属性的目标属性值。通过本申请能够准确识别出待识别实体属性的属性值。性值。性值。

【技术实现步骤摘要】
实体属性值的识别方法、装置、设备、介质及程序产品


[0001]本申请涉及人工智能技术,尤其涉及一种实体属性值的识别方法、装置、设备、介质及程序产品。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
[0003]随着人工智能的飞速发展,知识图谱(Knowledge Graph,KG)以其强大的数据描述能力,受到了广泛关注。为了构建准确的知识图谱,需要准确确定出实体的每个实体属性对应的属性值。
[0004]相关技术中,通常是基于人工设定的实体属性对应的来源优先级顺序,从实体属性的多个候选属性值中确定出目标属性值。然而,用于构建知识图谱的实体属性和属性值的来源数量巨大,相关技术缺乏节约计算资源且准确的识别方案。
专利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体属性值的识别方法,其特征在于,所述方法包括:获取第一知识图谱;其中,所述第一知识图谱包括多个三元组以及对应的权重,每个所述三元组包括实体、实体属性和属性值;基于每个所述三元组的权重,确定每个所述实体属性分别在所对应的多个来源上的权重;其中,每个所述实体属性所对应的多个来源是所述实体属性的不同所述属性值的来源;基于每个所述实体属性在所对应的多个来源上的权重,确定每个所述实体属性所对应的多个来源的来源优先级排序;获取多个待识别三元组;其中,所述多个待识别三元组包括相同的待识别实体和待识别实体属性,且包括对应不同来源的属性值;从每个所述实体属性所对应的多个来源的来源优先级排序中,获取所述待识别实体属性对应的不同来源的来源优先级排序;基于所述待识别实体属性对应的不同来源的来源优先级排序,确定所述待识别实体属性的每个所述属性值的最高优先级来源,并将出自所述最高优先级来源的所述属性值,确定为所述待识别实体属性的目标属性值。2.根据权利要求1所述的方法,其特征在于,所述获取第一知识图谱,包括:从样本文本中获取多个样本三元组;按照以下方式构建第二知识图谱:生成与所述多个样本三元组分别对应的节点;在满足第一条件的任意两个所述样本三元组之间,生成所述第二知识图谱中的第一种边,其中,所述第一条件为任意两个所述样本三元组包括的样本实体属性的属性值的来源相同;在满足第二条件的任意两个所述样本三元组之间,生成所述第二知识图谱中的第二种边,其中,所述第二条件为任意两个所述样本三元组包括的样本实体和样本实体属性相同;确定所述多个样本三元组对应的权重,并确定所述第一种边以及所述第二种边分别对应的权重;在所述第二知识图谱中增加所述多个样本三元组、所述第一种边以及所述第二种边分别对应的权重,得到第一传播图;对所述第一传播图进行迭代更新处理,基于得到的第一迭代更新处理结果生成所述第一知识图谱;其中,所述第一迭代更新处理结果包括:每个所述样本三元组的迭代更新后的权重。3.根据权利要求2所述的方法,其特征在于,所述确定所述多个样本三元组对应的权重,包括:将所述多个样本三元组中的种子三元组的权重确定为第一权重;其中,所述种子三元组的权重是标注的权重,且所述第一权重落入第一取值范围,所述第一取值范围为由第一阈值和第二阈值构成的闭区间,且所述第一阈值小于所述第二阈值;将所述多个样本三元组中的非种子三元组的权重确定为第二权重;其中,所述非种子三元组的权重是标注的权重,且所述第二权重的取值为所述第一取值范围的中间值。4.根据权利要求3所述的方法,其特征在于,所述将所述多个样本三元组中的种子三元组的权重确定为第一权重,包括:确定所述第二知识图谱中的第一数量的样本三元组的权重;
确定所述第二知识图谱中的所述第一种边和所述第二种边分别对应的权重;其中,所述第一种边是满足所述第一条件的任意两个所述样本三元组之间的边;所述第二种边是满足所述第二条件的任意两个所述样本三元组之间的边;在所述第二知识图谱中增加所述第一数量的样本三元组、所述第一种边以及所述第二种边分别对应的权重,得到第二传播图;基于所述第二传播图中的所述第一数量的样本三元组、所述第一种边以及所述第二种边分别对应的权重,对所述第二传播图中的每个所述样本三元组的权重进行迭代更新处理,得到第二迭代更新处理结果;其中,所述第二迭代更新处理结果包括:每个所述样本三元组的迭代更新后的权重;将所述迭代更新后的权重大于权重阈值的所述样本三元组确定为种子三元组;将所述种子三元组的权重确定为第一权重。5.根据权利要求3所述的方法,其特征在于,在所述将所述多个样本三元组中的种子三元组的权重确定为第一权重之前,所述方法还包括:将在所述第二知识图谱中出现的次数大于数量阈值的样本实体,确定为种子实体;从包括每个所述种子实体的所述多个样本三元组中,获取一个所述样本三元组,并将获取的所述样本三元组确定为所述种子实体对应的种子三元组;获取每个所述种子三元组对应的多个标注权重,并将所述多个标注权重的平均值确定为所述种子三元组对应的权重。6.根据权利要求3所述的方法,其特征在于,所述确定所述第一种边以及所述第二种边分别对应的权重,包括:将满足所述第一条件的任意两个所述样本三元组之间的所述第一种边的权重,确定为第三权重;其中,所述第三权重落入第二取值范围,所述第二取值范围为由所述第二权重和所述第二阈值构成的开区间,且所述第二权重小于所述第二阈值;基于启发式规则,确定满足所述第二条件的任意两个所述样本三元组之间的所述第二种边的权重。7.根据权利要求6所述的方法,其特征在于,所述基于启发式规则,确定满足所述第二条件的任意两个所述样本三元组之间的所述第二种边的权重,包括:在任意两个所述样本三元组包括的所述样本实体属性为类别型样本实体属性的情况下,通过第一方式确定任意两个所述样本三元组之间的所述第二种边的权重;在任意两个所述样本三元组包括的所述样本实体属性为数值型样本实体属性的情况下,通过第二方式确定任意两个所述样本三元组之间的所述第二种边的权重。8.根据权利要求7所述的方法,其特征在于,所述通过第一方式确定任意两个所述样本三元组之间的所述第二种边的权重,包括:确定任意两个所述样本三元组包括的两个样本实体属性的属性值之间的编辑距离、以及两个所述样本实体属性的属性值之间的字符长度最大值;确定所述编辑距离与第三阈值的乘积,并确定所述乘积与所述字符长度最大值的比值;其中,所述第三阈值大于所述第二阈值;
将1减去所述比值得到的差值,确定为任意两个所述样本三元组之间的归一化编辑距离;将任意两个所述样本三元组之间的所述归一化编辑距离,确定为任意两个所述样本三元组之间的所述第二种边的权重。9.根据权利要求7所述的方法,其特征在于,所述通过第二方式确定任意两个所述样本三元组之间的所述第二种边的权重,包括:在任意两个所述样本三元组包括的两个样本实体属性的属性值相同的情况下,确定任意两个所述样本三元组之间的所述第二种边的权重为第四权重;其中,所述第四权重的取值为所述第二阈值;在任意两个所述样本三元组包括的两个所述样本实体属性的属性值不相同的情况下,确定任意两个所述样本三元组之间的所述第二种边的权重...

【专利技术属性】
技术研发人员:叶志秀谢思发程序李雪莲聂丰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1