实体归一化处理方法、装置、设备及存储介质制造方法及图纸

技术编号:24167619 阅读:43 留言:0更新日期:2020-05-16 01:56
本申请公开了实体归一化处理方法、装置、设备及存储介质,涉及实体归一化处理技术。具体实现方案为:接收用户输入的实体归一化策略相关的规则参数;根据规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;运行实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归一判定,以将相同实体进行聚类。用户只需要输入实体归一化策略相关的规则参数,可根据规则参数以及预设的代码生成规则自动生成实体归一化策略对应的程序代码,不需要用户编程,降低人力开发成本和学习成本,降低了数据生产的门槛,便于修改实体归一化策略,提高了实体归一化处理的效率,可应用于对任意领域的数据进行实体归一化处理。

Method, device, equipment and storage medium of entity normalization

【技术实现步骤摘要】
实体归一化处理方法、装置、设备及存储介质
本申请涉及数据处理
,具体涉及实体归一化处理技术。
技术介绍
在进行知识图谱数据的构建中,由于知识图谱的构建经常需要利用多种不同的数据源,因此对于不同数据源中的相同实体进行归一融合是一项重要的工作。例如对于电影“天气之子”的数据来源于三个不同网站,其相关属性如上映时间分别为2019-11-01(中国)、2019-07-19(日本)、2019-11-01(中国),导演均为新海诚等等,因此所指代的是同一实体,需要进行实体的消岐。实体消岐过程分为实体归一和融合两步,其中实体归一是将相同的实体归一到同一集合中;而融合时对同一集合中的实体进行融合,使用策略进行属性择优,最终融合为一个实体。现有的实体归一方法,通常需要研发工程师根据前期调研的数据进行编程,通过运行程序代码实现实体归一;或者采用模型训练的方式通过训练数据训练一个实体归一模型,由实体归一模型实现实体归一。现有的实体归一方法中需要研发工程师自行编程的方式,需要消耗大量人力成本,学习难度较高,缺少规范化保障;而采用模型进行实体归一的方式,模型本文档来自技高网...

【技术保护点】
1.一种实体归一化处理方法,其特征在于,包括:/n接收用户输入的实体归一化策略相关的规则参数;/n根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;/n运行所述实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归一判定,以将相同实体进行聚类。/n

【技术特征摘要】
1.一种实体归一化处理方法,其特征在于,包括:
接收用户输入的实体归一化策略相关的规则参数;
根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;
运行所述实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归一判定,以将相同实体进行聚类。


2.根据权利要求1所述方法,其特征在于,所述规则参数包括至少一个待比较的目标属性、所述目标属性对应的比较条件参数、以及各目标属性对应的比较条件之间组合的比较规则。


3.根据权利要求2所述方法,其特征在于,所述根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码,包括:
针对任意一个待比较的目标属性,根据所述目标属性的类型、以及所述目标属性对应的比较条件参数,获取该目标属性的比较函数;
根据每一比较规则,调用对应的比较函数、并确定逻辑运算类型,得到所述比较规则的程序代码;
根据各比较规则的程序代码得到所述实体归一化策略对应的程序代码。


4.根据权利要求3所述方法,其特征在于,所述目标属性对应的比较条件参数包括目标属性的类型、目标属性对应的比较条件和比较过程严格程度。


5.根据权利要求4所述方法,其特征在于,所述根据所述目标属性的类型、以及所述目标属性对应的比较条件参数,获取该目标属性的比较函数,包括:
根据所述目标属性的类型确定所述比较函数中的比较方法参数;
根据比较过程严格程度确定所述比较函数中的多值比较条件参数,所述多值比较条件参数包括:多值完全相同、至少一个相同、或完全不同;
根据所述比较条件和/或预设数据清洗指令确定所述比较函数中的补充参数;
根据所述目标属性、所述比较方法参数、所述多值比较条件参数以及所述补充参数,得到该目标属性的比较函数。


6.根据权利要求3所述方法,其特征在于,所述根据各比较规则的程序代码得到所述实体归一化策略对应的程序代码,包括:
接收用户设置的比较规则优先级顺序,根据所述比较规则优先级顺序对各比较规则的程序代码设置优先级,以在运行所述实体归一化策略对应的程序代码时按照优先级运行各比较规则的程序代码。


7.根据权利要求1所述方法,其特征在于,所述运行所述实体归一化策略对应的程序代码,还包括:
接收用户的启动指令,根据所述运行指令运行所述实体归一化策略对应的程序代码;和/或
接收用户的停止指令,根据所述停止指令停止运行所述实体归一化策略对应的程序代码;
所述将相同实体进行聚类后,还包括:
接收用户的查看结果指令,根据所述查看结果指令展示聚类结果。


8.一种实体归一化处理装置,其特征在于,包括:
输入模块,用于接收用户输入的实体归一化策略相关的规则参数;
处理模块,用于根据所述规则参数以及预设的代码生成规则,生成实体归一化策略对应的程序代码;
运行模块,用于运行所述实体归一化策略对应的程序代码,对预设的实体数据集合中的实体进行归...

【专利技术属性】
技术研发人员:王冠朝方舟江涛仲夏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1