基于编码的数据融合方法及系统技术方案

技术编号:25439330 阅读:30 留言:0更新日期:2020-08-28 22:27
本发明专利技术涉及基于编码的数据融合方法及系统;本发明专利技术方法使用不同数据持有者的公共字段对应信息进行编码实现实体唯一ID创建;并且根据所述实体唯一ID实现数据融合。在保证不暴露、或依赖隐私信息前提下,实现不同数据持有之间的同一实体重新标识的一致性,并满足唯一性,稳定性要求;并在编码基础上实现高效率的多源数据融合以及数据集成。

【技术实现步骤摘要】
基于编码的数据融合方法及系统
本专利技术涉及数据处理
,特别涉及基于编码的数据融合方法及系统。
技术介绍
大数据分析中,越来越多的场景是联合分析,即两个以上的数据分析参与者们,各自拥有自己的数据,但是各自的数据并不能建立比较全面的分析;必须将多方数据融合起来,才能建立起准确的分析。数据的高效融合成了大数据技术中需要解决的难题。给实体赋ID是解决数据融合的技术途径之一。但是由于不同数据持有者之间由于数据格式字段等不同,往往采取了不同的实体ID产生机制,且出于数据的安全性等方面的考虑,ID的产生方法在不断变化中。自然状态下重名的实体很多,尤其是自然人,在没有身份证信息的情况下,和实体对齐的前置条件下如果ID不同,则不能判断同名实体为同一实体,因此也不能进行数据融合,为数据的融合和联合分析造成重大的障碍。
技术实现思路
本专利技术的目的提供基于编码的数据融合方法及系统,在保证不暴露、或依赖隐私信息前提下,实现不同数据持有之间的同一实体重新标识的一致性,并满足唯一性,稳定性要求;且在编码基础上实现高效率的多源数据融合以及数据集成。基于编码的数据融合方法,所述方法使用不同数据持有者的公共字段对应信息进行编码实现实体唯一ID创建;并且根据所述实体唯一ID实现数据融合。具体的,所述方法包含以下实现步骤:获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段;对第一数据和第二数据分别进行处理,将第一数据和第二数据中属于同一实体的数据编入一个数据组;对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码;对获得的编码进行排序,选出一个编码作为对应数据组的组编码;将所述组编码赋予到组内的各条数据中,作为对应实体的ID;将第一数据和第二数据中,具有相同ID的实体信息进行合并。作为一种优选,其中第一字段为实体名。作为一种优选,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来重新编码;编码算法为hash算法。作为一种优选,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来重新编码;编码算法为md5。进一步的,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来重新编码中,使用包含第一标识、第一字段、第二标识和第二字段的信息来进行编码。进一步的,所述步骤获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段中,所述公共字段还包含第三字段。所述第三字段的信息可以是文字,数据和或符号。作为一种优选,所述步骤对获得的编码进行排序,选出一个编码作为对应数据组的组编码中,以第三字段包含的信息为依据来进行排序。作为一种优选,所述步骤对获得的编码进行排序,选出一个编码作为该数据组的组编码中,使用第一字段和或第二字段中包含的信息来对编码进行排序。进一步的,本专利技术提供基于编码的数据融合系统,所述系统使用所基于编码的数据融合方法来实现数据融合。进一步的,所述系统包含数据获取模块、存储模块和处理模块,所述数据获取模块、存储模块和处理模块依次相连,所述数据获取模块用于获取待处理数据,所述数据获取模块将获取到的数据输入到存储模块中进行存储;所述存储模块还用于存储所述处理模块的输入输出数据,所述处理模块通过所述基于编码的数据融合方法来实现数据的融合。有益效果:本专利技术提供基于编码的数据融合方法及系统;本专利技术利用各个数据持有者所拥有的公共字段来对实体进行编码实现ID构建,并且在相同ID的基础上实现数据的融合;为数据集成,联合分析打下基础。通过本专利技术方法系统实现的数据融合,所需计算量小,融合效率高,数据安全性强。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为基于编码的数据融合方法的流程示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。基于编码的数据融合方法,所述方法使用不同数据持有者的公共字段对应信息进行编码实现实体唯一ID创建;并且根据所述实体唯一ID实现数据融合。具体的,所述方法包含如图1所示以下实现步骤:获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段;此处第一数据和第二数据分别来源于不同的数据持有者。对第一数据和第二数据分别进行处理,将第一数据和第二数据中属于同一实体的数据编入一个数据组;对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码;对获得的编码进行排序,选出一个编码作为对应数据组的组编码;将所述组编码赋予到组内的各条数据中,作为对应实体的ID;将第一数据和第二数据中,具有相同ID的实体信息进行合并。本专利技术方法使用不同数据持有者的公共字段来进行实体ID的构建,在实体ID构建的基础上进行数据的融合;为数据融合提供了非常可靠和便利的支撑;有了本专利技术方法中的ID创建方式,不同数据持有者之间,在拥有最少到两个共同字段的情况下就可以实现相同ID的创建;在相同ID的基础上,数据融合非常方便,因为ID类似于身份证信息但不涉及任何隐私信息,可以直接定位和标识到某个具体的实体,使得不同数据持有者根据本专利技术方法产生的唯一ID可以互联互通。并且通过本方法实现的数据融合,并不需要事先对第一数据和第二数据中哪些实体是同一实体的前置识别;自动实现了第一数据和第二数据之间的实体对齐,计算高效,依赖其他信息较少。作为一种优选,其中第一字段为实体名。实体名作为编码的信息依据之一,使得编码所需信息量最小化,同时编码结果具有实体信息依据。使用实体名加其他字段的方式进行重新编码,由于实体名字段相对稳定性加上其他字段的组合,实现的编码相比于随机赋值等编码方式具有更强的稳定性。并且第一字段为实体名字段,第二字段的选择范围很大,可以根据具体的数据场景来选择。作为一种优选,所述步骤S2中,编码算法为hash算法。Hash算法是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数,通过hash算法,可以将计算出的ID固定到同一长度,并且具有不可逆解性,保障了ID值的安全,实现了自然人的隐私保护,保障了数据安全。作为一种优选,所述步骤S2中,编码算法为md5。md5算法一种被本文档来自技高网...

【技术保护点】
1.基于编码的数据融合方法,其特征在于,所述方法使用不同数据持有者的公共字段对应信息进行编码实现实体唯一ID创建;并且根据所述实体唯一ID实现数据融合。/n

【技术特征摘要】
1.基于编码的数据融合方法,其特征在于,所述方法使用不同数据持有者的公共字段对应信息进行编码实现实体唯一ID创建;并且根据所述实体唯一ID实现数据融合。


2.如权利要求1所述的方法,其特征在于,包含以下实现步骤:
获取第一数据和第二数据的公共字段,所述公共字段包含第一字段和第二字段;
对第一数据和第二数据分别进行处理,将第一数据和第二数据中属于同一实体的数据编入一个数据组;
对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码;
对获得的编码进行排序,选出一个编码作为对应数据组的组编码;
将所述组编码赋予到组内的各条数据中,作为对应实体的ID;
将第一数据和第二数据中,具有相同ID的实体信息进行合并。


3.如权利要求2所述的方法,其特征在于,所述第一字段为实体名称。


4.如权利要求3所述的方法,其特征在于,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码中,编码算法为hash算法。


5.如权利要求4所述的方法,其特征在于,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来编码中;编码算法为md5。


6.如权利要求5所述的方法,其特征在于,所述步骤对数据组中的各条数据,使用包含第一字段和第二字段的信息来重新编码中,使用包...

【专利技术属性】
技术研发人员:吴桐刘世林李焕周凡吟韩远任渝车雨蒙
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1