一种基于实体关系进行数据融合的方法及系统技术方案

技术编号:25346030 阅读:28 留言:0更新日期:2020-08-21 17:05
本说明书实施例公开了一种基于实体关系进行数据融合的方法及系统,所述方法包括:确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;其中,所述确定待融合实体的数据标识包括:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。

【技术实现步骤摘要】
一种基于实体关系进行数据融合的方法及系统
本说明书实施例涉及计算机
,特别涉及一种基于实体关系进行数据融合的方法及系统。
技术介绍
企业关联关系是指基于数据源整合的与企业相关的信息。例如,企业与其有直接或间接关系的企业之间的关联信息、或者企业中自然人和自然人之间的关联关系。目前,企业关联关系可以被应用于各种行业,例如应用于金融行业,利用企业关联关系挖掘出与高金融风险企业关联的企业和自然人,识别其犯罪团伙。因此,为提升企业关联关系的丰富度和完整度,本说明书提出一种基于实体关系进行数据融合的方法及系统。
技术实现思路
本说明书实施例的一个方面提供一种基于实体关系进行数据融合的方法,所述方法包括:确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;其中,所述确定待融合实体的数据标识包括:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。本说明书实施例的一个方面提供一种基于实体关系进行数据融合的系统,所述系统包括:数据标识确定模块,用于确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;查询模块,用于获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;其中,所述数据标识确定模块用于:确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。本说明书实施例的一个方面提供一种基于实体关系进行数据融合的装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令实现如上所述的方法。附图说明本说明书将以示例性实施例的方式进一步描述,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书的一些实施例所示的基于实体关系进行数据融合的系统的应用场景图;图2是根据本说明书的一些实施例所示的基于实体关系进行数据融合的方法的流程图;图3是根据本说明书的一些实施例所示的确定待融合实体的数据标识的流程图;图4是根据本说明书的一些实施例所示的待融合实体和相似实体之间的关系权重的示意图;图5是根据本说明书的一些实施例所示的确定待融合实体的数据标识的另一流程图;图6是根据本说明书的一些实施例所示的确定待融合实体的数据标识的另一流程图;图7A是根据本说明书的一些实施例所示的基于待融合实体的数据标识进行数据融合的示意图;以及图7B是根据本说明书的一些实施例所示的基于待融合实体的数据标识进行数据融合的另一示意图。具体实施方式为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本说明书的一些实施例所示的基于实体关系进行数据融合的系统的应用场景示意图。基于实体关系进行数据融合的系统100可以应用于公共数据查询平台,例如,应用于企业或自然人数据查询平台。示例的,查询平台可以用于查询待查询企业的股权架构、法人信息、法律信息或招聘信息等多种信息。如图1所示,本说明书所涉及的应用场景可以包括网络110、存储设备120、用户终端130和计算系统140。用户终端130可以是带有数据获取、存储和/或发送功能的设备。在一些实施例中,用户终端130的使用者可以是服务用户、查询者等。在一些实施例中,用户终端130可以包括但不限于移动设备130-1、平板电脑130-2、笔记本电脑130-3等或其任意组合。示例性的移动设备130-1可以包括但不限于智能手机、个人数码助理(PersonalDigitalAssistance,PDA)、掌上游戏机、智能手表、可穿戴设备、虚拟显示设备、显示增强设备等或其任意组合。在一些实施例中,用户终端130可以将获取到的数据发送至计算系统140。例如,用户终端130获取的数据可以是用户在用户终端130输入的待查询实体,其中,待查询实体可以是自然人或企业。在一些实施例中,用户终端130还可以接收计算系统140返回的查询数据。例如,计算系统140基于融合后的数据确定的待查询实体的查询结果,如,待查询实体的企业关系数据等。计算系统140可用于处理与基于实体关系进行数据融合过程中相关联的信息和/或数据,来执行在本说明书揭示的一个或者多个功能。在一些实施例中,计算系统140可以用于确定待融合实体的数据标识,得到待融合实体与数据标识的对应关系。在一些实施例中,计算系统140可以获取待查询实体,基于待融合实体与数据标识的对应关系、以及待查询实体,确定待查询实体的关联信息。在一些实施例中,计算系统140可以包括一个或多个处理引擎(例如,单核心处理引擎或多核心处理器)。仅作为范例,计算系统140可以包括中央处理器(CPU)、特定应用集成电路(ASIC)、专用指令集处理器(ASIP)、图像处理器(GPU)、物理运算处理单元(PPU)、数字信号处理器(DSP)、现场可程序门阵列(FPGA)、可程序逻辑装置(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等中的一种或多种组合。存储设备120可以存储数据和/或指令。在一些实施例中,存储设备120可以存储大量实体的相关信息,实体可以是企业或自然人。在一些实施例中,存储设备120可以存储自有数据。在一些实施例中,存储设备120可以存储计算系统140生成的数据。本文档来自技高网...

【技术保护点】
1.一种基于实体关系进行数据融合的方法,包括:/n确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;/n获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;/n其中,所述确定待融合实体的数据标识包括:/n确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。/n

【技术特征摘要】
1.一种基于实体关系进行数据融合的方法,包括:
确定待融合实体的数据标识,得到待融合实体与所述数据标识的对应关系;所述待融合实体包括企业或自然人;
获取待查询实体,基于所述待融合实体与所述数据标识的对应关系、以及所述待查询实体,确定所述待查询实体的关联信息;
其中,所述确定待融合实体的数据标识包括:
确定与所述待融合实体的相似性满足第一预设条件的相似实体,当所述相似实体具有数据标识时,将所述相似实体的数据标识作为所述待融合实体的数据标识。


2.如权利要求1所述的方法,所述确定待融合实体的数据标识包括:
获取所述待融合实体与第一实体之间的一层或多层关系中每一层的关系权重;所述第一实体与所述待融合实体之间相似度满足第二预设条件;所述关系权重代表所述关系的密切程度;
基于所述一层或多层关系中每一层的关系权重,确定所述待融合实体与所述第一实体之间的关系权重;
判断所述待融合实体与所述第一实体之间的关系权重是否大于阈值,是则将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识。


3.如权利要求1所述的方法,所述确定待融合实体的数据标识包括:
基于所述待融合实体和第一实体各自的地址信息,获取地址相似度;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;
当所述地址相似度满足第三预设条件时,将所述第一实体作为所述相似实体,并将所述第一实体的数据标识作为所述待融合实体的数据标识;
所述地址相似度根据以下方式的一种或多种获取:
根据所述地址信息的位置坐标间的距离获取;
根据所述地址信息中的地址文本的相似度获取。


4.如权利要求1所述的方法,所述确定待融合实体的数据标识包括:
基于判别模型确定是否以第一实体的数据标识作为所述待融合实体的数据标识;所述第一实体与所述待融合实体之间的相似度满足第二预设条件;其中,所述判别模型的输入包括:所述待融合实体和所述第一实体的至少一个相关特征。


5.如权利要求4所述的方法,所述至少一个相关特征包括:与所述待融合实体存在一层或多层关系的关联实体、与所述第一实体存在一层或多层关系的关联实体、所述一层或多层关系中每一层的关系权重、所述待融合实体的相关信息、所述第一实体的相关信息;其中,所述关系权重代表所述关系的密切程度。


6.一种基于实体关系进行数据融合的系统,包括:
数据标识确定模块,用于确定待融合实体的数据标识,得到待融合实体...

【专利技术属性】
技术研发人员:刘小刚
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1