System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,尤其涉及一种属性对齐方法、装置、电子设备及存储介质。
技术介绍
1、知识图谱为当下的多种数据应用和分析场景提供了强大的数据支持,这种数据能力要依靠数据的统一性来维持,包括实体、属性名、属性值格式等内容的统一。属性对齐解决的是将单源或多源知识图谱中表示相同含义的属性统一成同一个标准属性名,例如a知识图谱中的“生日”和b知识图谱中的“出生日期”都表示出生日期这个含义,属性对齐后将这些属性的名称都改为“出生日期”。属性对齐是知识融合的一个组成部分,是知识图谱构建的重要步骤。
2、在相关技术中的属性对齐方案普遍存在成本高、对齐效果不佳的问题。
技术实现思路
1、有鉴于此,本申请的目的在于提出一种属性对齐方法、装置、电子设备及存储介质。
2、基于上述目的,本申请提供了一种属性对齐方法,包括:
3、获取分别来自不同知识图谱且已完成实体对齐的第一实体和第二实体;其中,所述第一实体具有第一属性值,所述第二实体具有第二属性值;
4、根据所述第一属性值对所述第二实体进行分类预测,得到所述第二实体对应的目标第一属性值;
5、确定对应有相同所述目标第一属性值的至少两个目标第二实体;
6、对至少部分所述目标第二实体的所述第二属性值进行数量统计,以确定目标第二属性值;
7、将所述目标第一属性值和所述目标第二属性值进行对齐。
8、在一些实施方式中,所述根据所述第一属性值对所述第二实体进行分类预测,得
9、根据所述第二实体生成输入特征;
10、根据所述输入特征和预先训练好的异源属性预测模型,得到所述第二实体对应的目标第一属性值;其中,所述异源属性预测模型是通过基于所述第一实体和所述第二实体构建的训练数据集训练得到的;所述训练数据集中的任一样本包括训练用第二实体以及所述训练用第二实体对应的第一属性值。
11、在一些实施方式中,所述根据所述第二实体生成输入特征,包括:
12、确定所述第二实体的名称信息;
13、确定所述第二实体的摘要信息;
14、确定所述第二实体具有的所述第二属性值的文本信息;
15、根据所述名称信息、所述摘要信息和所述文本信息,生成所述输入特征。
16、在一些实施方式中,所述对至少部分所述目标第二实体的所述第二属性值进行数量统计,以确定目标第二属性值,包括:
17、统计每个所述第二属性值的数量,将数量最大的所述第二属性值确定为所述目标第二属性值。
18、在一些实施方式中,将数量最大的所述第二属性值确定为所述目标第二属性值,包括:
19、响应于确定数量最大的所述第二属性值在全部所述第二属性值中的占比超过预定的比例阈值,以及确定所述第二属性值的总数量超过定的数量阈值,将数量最大的所述第二属性值确定为所述目标第二属性值。
20、在一些实施方式中,所述根据所述目标第一属性值和所述目标第二属性值,进行属性对齐,包括:
21、确定所述目标第一属性值的第一置信度;
22、确定所述目标第二属性值的第二置信度;
23、根据所述第一置信度和所述第二置信度,进行属性对齐。
24、在一些实施方式中,所述获取分别来自不同知识图谱且已完成实体对齐的第一实体和第二实体,包括:
25、获取分别来自不同知识图谱且已完成实体对齐的待选第一实体和待选第二实体;
26、确定所述待选第一实体和所述待选第二实体的准确率和/或召回率;
27、响应于确定所述准确率满足预定的准确率阈值,和/或确定所述召回率满足预定的召回率阈值,将所述待选第一实体和所述待选第二实体确定为所述第一实体和所述第二实体。
28、基于同一技术构思,本申请还提供了一种属性对齐装置,包括:
29、获取模块,被配置为获取分别来自不同知识图谱且已完成实体对齐的第一实体和第二实体;其中,所述第一实体具有第一属性值,所述第二实体具有第二属性值;
30、分类模块,被配置为根据所述第一属性值对所述第二实体进行分类预测,得到所述第二实体对应的目标第一属性值;
31、确定模块,被配置为确定对应有相同所述目标第一属性值的至少两个目标第二实体;
32、统计模块,被配置为对至少部分所述目标第二实体的所述第二属性值进行数量统计,以确定目标第二属性值;
33、对齐模块,被配置为根据所述目标第一属性值和所述目标第二属性值,进行属性对齐。
34、基于同一技术构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一项所述的属性对齐方法。
35、基于同一技术构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上任意一项所述的属性对齐方法。
36、从上面所述可以看出,本申请提供的属性对齐方法、装置、电子设备及存储介质,对于异源且已完成实体对齐的第一实体和第二实体,基于其中一实体的属性值对另一实体进行多标签分类预测得到目标第一属性值,以使得异源实体的属性值具有相同的维度;基于实体本身具有的属性值以及分类预测得到的属性值,通过统计的方式确定目标第二属性值;之后再基于第一属性值和目标第二属性值进行属性对齐。本申请的方案基于已有的对齐实体的数据,将已对齐实体的属性值进行充分的利用,能够在较低的实施成本下实现更加的属性对齐效果。
本文档来自技高网...【技术保护点】
1.一种属性对齐方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一属性值对所述第二实体进行分类预测,得到所述第二实体对应的目标第一属性值,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二实体生成输入特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述对至少部分所述目标第二实体的所述第二属性值进行数量统计,以确定目标第二属性值,包括:
5.根据权利要求4所述的方法,其特征在于,将数量最大的所述第二属性值确定为所述目标第二属性值,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标第一属性值和所述目标第二属性值,进行属性对齐,包括:
7.根据权利要求1所述的方法,其特征在于,所述获取分别来自不同知识图谱且已完成实体对齐的第一实体和第二实体,包括:
8.一种属性对齐装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行如权利要求1至7任意一项所述的方法。
...【技术特征摘要】
1.一种属性对齐方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一属性值对所述第二实体进行分类预测,得到所述第二实体对应的目标第一属性值,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二实体生成输入特征,包括:
4.根据权利要求1所述的方法,其特征在于,所述对至少部分所述目标第二实体的所述第二属性值进行数量统计,以确定目标第二属性值,包括:
5.根据权利要求4所述的方法,其特征在于,将数量最大的所述第二属性值确定为所述目标第二属性值,包括:
6.根据权利要求1所述的方法,其特征在于...
【专利技术属性】
技术研发人员:郑宇宇,
申请(专利权)人:北京有竹居网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。