【技术实现步骤摘要】
一种实体链接方法及系统、设备和存储介质
[0001]本申请涉及数据处理领域,特别是涉及一种实体链接方法、系统、计算机设备和计算机可读存储介质。
技术介绍
[0002]当前,结构化、半结构化数据广泛存在于各类企业中,但由于管理人员变迁、物理布局分散、系统自治等原因,数据存在来源繁杂(不同类型的关系型数据库,不同部门的数据等)、结构异构(SQL,NoSQL数据库,文本文件,Hive大数据等)等问题。将多源异构的数据进行集成、融合,是企业做好上层应用的必要基础条件,而实体链接是这一过程中非常重要的一环。举例来讲,数据源1有个“张三,男,30岁,明略科技”,数据源2有个“张三,男,28岁,秒针”,判断两个“张三”是否是同一人,并将所有数据源中表示同一个“张三”的实体数据链接起来,便是实体链接的任务目标。实体往往由多个属性
‑
值对描述,如“姓名:张三;性别:男”描述名叫张三的男性实体,其中“姓名”、“性别”为属性名,具体来讲,在行列数据库中,属性可能以列名形式存储,在key
‑
value数据库中,属 ...
【技术保护点】
【技术特征摘要】
1.一种实体链接方法,其特征在于,包括:属性区分度计算步骤:基于属性区分度算法,计算多个数据源实体的至少一个属性的属性区分度;链接步骤:基于所述数据源实体的属性区分度,判断所述多个数据源实体是否匹配,完成所述多数据源实体的链接。2.根据权利要求1所述实体链接方法,其特征在于,所述属性区分度算法为:属性区分度v:其中,数据集包含多个数据源实体R,所述数据源实体R具有属性A,n为经过实体链接后的所述数据源实体R的个数,m为所述数据源实体R在属性A上的所有无重复的值的个数。3.根据权利要求1所述实体链接方法,其特征在于,所述链接步骤包括:基于所述属性相似度及预设置阈值,判断所述多个数据源实体是否匹配,如果匹配成功则进行所述多个数据源实体的链接。4.根据权利要求1所述实体链接方法,其特征在于,所述链接步骤还包括:基于属性区分度进行所述属性的重要程度筛选,选择重要的属性进行所述多个数据源实体的链接。5.一种实体链接系统,采用如权利要求1
‑
4中任意一项所述实体链接方法,其特征在于,包括:属性区分度计算模块:基于属性区分度算法,计算多个数据源实体的至少一个属性的属性区分度;链接模块:...
【专利技术属性】
技术研发人员:黄艳香,
申请(专利权)人:上海明略人工智能集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。