面向多源异构的数据融合方法、系统、装置及存储介质制造方法及图纸

技术编号:23239000 阅读:33 留言:0更新日期:2020-02-04 18:25
本发明专利技术提供一种面向多源异构的数据融合方法、系统、装置及存储介质,所述方法包括:采集待融合的业务系统的源数据;对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集。本发明专利技术避免了由于业务系统的维护人员操作不规范、业务系统开发过程中未考虑到与其他业务系统间的关联性、历史数据遗留问题等导致的关联关系不明确,导致业务系统的数据分析无法自动匹配融合的问题。

Data fusion method, system, device and storage medium for multi-source and heterogeneous

【技术实现步骤摘要】
面向多源异构的数据融合方法、系统、装置及存储介质
本专利技术属于数据融合
,具体涉及一种面向多源异构的数据融合方法、系统、装置及存储介质。
技术介绍
数据是当前企业中的重要的资源,通过分析各个业务系统中数据关系为产品或服务提供全流程的监控,为领导者决策提供数据支持。传统的数据融合方法中,根据业务需求,需要有经验的业务人员首先识别出表之间关联关系,从而实现多个数据源的数据融合,例如想要得到电商某个订单中买家的用户信息,需要利用身份证号码关联人事系统的用户表,找到此人的身份信息。而实际上,电商系统的设计之初并没有用户的身份证号码,这种情况下如何查找得到此人的身份信息又变成一大课题。企业商品的设计,生产,销售,安装,若要追踪订单的全流程信息通常涉及到ERP(EnterpriseResourcePlanning)、MES(ManufacturingExecutionSystem)、检测系统、电商系统、派工系统、结算系统等多个业务系统,而事实上多个业务系统之间的表关联关系已经变得越来越不明晰。企业中使用的各个业务系统,在设计之初仅为满足某一业务需要所设计,或者外键关系不明显,没有考虑到多个业务系统之间的关联性。因此,当分散在各个业务系统中的相关数据汇入数据仓库后,无法通过简单的逻辑匹配方法得到数据之间的关系,这就需要数据开发者寻求新的数据融合技术来挖掘数据之间的关联关系。
技术实现思路
本专利技术提供一种面向多源异构的数据融合方法、系统、装置及存储介质,可以挖掘多个异构业务系统中数据之间的隐含关系,实现多个异构业务系统之间的数据融合。第一方面,本专利技术提供一种面向多源异构的数据融合方法,包括:采集待融合的业务系统的源数据;对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集;其中,已有的决策树模型是利用历史融合数据集训练得到的。更进一步地,所述业务系统是ERP、MES、电商系统、售后安装系统或安装结算系统。更进一步地,在对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集之前,所述方法还包括:利用预设的数据清洗规则清洗待融合的业务系统的源数据。更进一步地,所述已有的决策树模型的构建方法包括:采集第一业务系统的源数据和第二业务系统的源数据;对第一业务系统的源数据和第二业务系统的源数据提取关键业务字段,分别构成第一业务系统的数据集和第二业务系统的数据集;将第一业务系统的数据集和第二业务系统的数据集中的每一行数据转化为字符串形式;针对第一业务系统的数据集中的每一行数据,计算其与第二业务系统的数据集中的各行数据的相似度;将相似度最高的数据组合作为最佳组合,各最佳组合构成第一业务系统与第二业务系统的融合数据集;利用第一业务系统与第二业务系统的融合数据集中每一最佳组合训练决策树模型,该模型用于描述第一业务系统与第二业务系统的融合数据集中各最佳组合的两行数据之间的关联关系。更进一步地,所述针对第一业务系统的数据集中的每一行字符串,采用编辑距离算法计算其与第二业务系统的数据集中的各行字符串的相似度。更进一步地,所述方法,还包括:计算所述待融合的业务系统与异构的业务系统的匹配度,所述匹配度为融合数据集中各组数据的相似度的平均数;若所述待融合的业务系统与异构的业务系统的匹配度低于预设阈值,则利用融合数据集中数据的人工修正结果,更新融合数据集。第二方面,本专利技术还提供一种面向多源异构的数据融合系统,包括:采集模块,用于采集待融合的业务系统的源数据;提取模块,用于对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;数据融合模块,用于利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集;其中,已有的决策树模型是利用历史融合数据集训练得到的。更进一步地,所述系统还包括:清洗模块,用于利用预设的数据清洗规则清洗待融合的业务系统的源数据。第三方面,本专利技术还提供一种处理装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现所述方法的步骤。第四方面,本专利技术还提供一种存储介质,所述存储介质上存储实现权利要求1-6中任一项所述方法的步骤的计算机程序。本专利技术提供的面向多源异构的数据融合方法中,通过对待融合的业务系统的源数据提取关键业务字段构成数据集,利用已有的决策树模型对待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与待融合的业务系统的数据相似度最高的数据,得到融合数据集,完成面向多源异构业务系统的数据融合。避免了由于业务系统的维护人员操作不规范、业务系统开发过程中未考虑到与其他业务系统间的关联性、历史数据遗留问题等导致的关联关系不明确,导致业务系统的数据分析无法自动匹配融合的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例一提供的面向多源异构的数据融合方法流程图;图2是本专利技术实施例二中决策树模型的构建方法流程图;图3是本专利技术实施例三提供的面向多源异构的数据融合方法流程图;图4是本专利技术实施例四提供的一种面向多源异构的数据融合系统框图;图5是本专利技术实施例四提供的另一种面向多源异构的数据融合系统框图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一本实施例提供一种面向多源异构的数据融合方法,如图1所示,包括:步骤S1、采集待融合的业务系统的源数据;步骤S2、对待融合的业务系统的源数据提取关键业务字段,构成待融合的业务系统的数据集;步骤S3、利用已有的决策树模型对待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的本文档来自技高网...

【技术保护点】
1.一种面向多源异构的数据融合方法,其特征在于,包括:/n采集待融合的业务系统的源数据;/n对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;/n利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集;/n其中,已有的决策树模型是利用历史融合数据集训练得到的。/n

【技术特征摘要】
1.一种面向多源异构的数据融合方法,其特征在于,包括:
采集待融合的业务系统的源数据;
对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集;
利用已有的决策树模型对所述待融合的业务系统的数据集的数据进行数据融合识别,关联出异构的业务系统中与所述待融合的业务系统的数据集的数据相似度最高的数据,得到融合数据集;
其中,已有的决策树模型是利用历史融合数据集训练得到的。


2.根据权利要求1所述的面向多源异构的数据融合方法,其特征在于,所述业务系统是ERP、MES、电商系统、售后安装系统或安装结算系统。


3.根据权利要求1所述的面向多源异构的数据融合方法,其特征在于,在对所述待融合的业务系统的源数据提取关键业务字段,构成所述待融合的业务系统的数据集之前,所述方法还包括:
利用预设的数据清洗规则清洗待融合的业务系统的源数据。


4.根据权利要求1所述的面向多源异构的数据融合方法,其特征在于,所述已有的决策树模型的构建方法包括:
采集第一业务系统的源数据和第二业务系统的源数据;
对第一业务系统的源数据和第二业务系统的源数据提取关键业务字段,分别构成第一业务系统的数据集和第二业务系统的数据集;
将第一业务系统的数据集和第二业务系统的数据集中的每一行数据转化为字符串形式;
针对第一业务系统的数据集中的每一行数据,计算其与第二业务系统的数据集中的各行数据的相似度;
将相似度最高的数据组合作为最佳组合,各最佳组合构成第一业务系统与第二业务系统的融合数据集;
利用第一业务系统与第二业务系统的融合数据集中每一最佳组合训练决策树模型,该模型用于描述第一业务系统与第二业务系统的融合数据集中各最佳组合的两...

【专利技术属性】
技术研发人员:寇茜茜李润静胡松青龙富永张红燕
申请(专利权)人:珠海格力电器股份有限公司珠海联云科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1