【技术实现步骤摘要】
适用于异构数据的数据处理方法及系统
[0001]本专利技术涉及数据处理
,尤其涉及一种适用于异构数据的数据处理方法及系统。
技术介绍
[0002]异构数据是具有差异结构的数据,在生产生活过程中,会具有很多不同的异构数据源,例如文件、关系型数据库、非关系型数据库、web接口等。
[0003]以异构数据源是文件为例,不同数据库的主体所存储的相关文件可能具有不同的数据结构,在需要将多个不同数据库的主体的异构数据按照统一形式进行访问、整合时,需要将异构数据进行统一的处理,现有技术中,还无法根据异构数据的属性不同,对多种异构数据进行快速的处理。
技术实现思路
[0004]本专利技术实施例提供一种适用于异构数据的数据处理方法及系统,在需要将多个不同数据库的主体的异构数据按照统一形式进行整合时,可以根据异构数据的属性不同,对多种异构数据进行快速的处理。
[0005]本专利技术实施例的第一方面,提供一种适用于异构数据的数据处理方法,包括:提取异构数据处理请求中的异构数据采集目标和目标生成格式,根据所述异构数据采集目标确定多个异构数据源,提取每个异构数据源中相应第一异构文件的第一数据格式;获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合;将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第 ...
【技术保护点】
【技术特征摘要】
1.一种适用于异构数据的数据处理方法,其特征在于,包括:提取异构数据处理请求中的异构数据采集目标和目标生成格式,根据所述异构数据采集目标确定多个异构数据源,提取每个异构数据源中相应第一异构文件的第一数据格式;获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合;将所述目标维度集合与所述第二维度集合进行比对,得到第一维度差异集合,将第二维度集合对应的第一数据格式作为第二数据格式,根据第一维度差异集合对第二数据格式所对应的第二异构文件进行处理,得到第三异构文件;根据所述第一维度差异集合依次遍历第一异构文件相应的目标信息添加至第三异构文件内,并对第三异构文件和第一维度差异集合持续更新,在判断第一维度差异集合为空集后,判断当前的第三异构文件为目标生成格式的融合输出文件。2.根据权利要求1所述的适用于异构数据的数据处理方法,其特征在于,所述获取所述目标生成格式中的目标维度集合,将每个第一数据格式的第一维度集合与目标维度集合进行比对,确定与目标维度集合相似度最高的第一维度集合为第二维度集合,包括:统计所有异构数据源的第一数据格式所包括的维度得到总维度信息,对所述总维度信息进行显示,根据用户输入的选择信息在总维度信息内选择至少一个维度生成目标维度集合;将每个第一维度集合内包括的第一维度与目标维度集合内的目标维度进行比对,确定每一个第一维度集合与目标维度集合的相同维度数量、差异维度数量;根据所述第一维度集合的第一维度数量、目标维度集合的目标维度数量、相同维度数量以及差异维度数量进行计算,得到第一维度集合与目标维度集合的相似度量化值;确定与目标维度集合相似度量化值最高的第一维度集合为第二维度集合。3.根据权利要求2所述的适用于异构数据的数据处理方法,其特征在于,还包括:确定与目标维度集合相似度量化值为0的第一维度集合为第三维度集合,对所述第三维度集合对应的异构数据源、第三维度进行显示;若判断用户选择至少一个第三维度,则将所选中的第三维度作为目标维度添加至目标维度集合;若判断用户不选择第三维度,则将所述异构数据源转化为非确定的异构数据源。4.根据权利要求3所述的适用于异构数据的数据处理方法,其特征在于,所述根据所述第一维度集合的第一维度数量、目标维度集合的目标维度数量、相同维度数量以及差异维度数量进行计算,得到第一维度集合与目标维度集合的相似度量化值,包括:根据所述第一维度数量、目标维度集合的目标维度数量、相同维度数量进行计算得到相似数量占比,根据所述第一维度数量、目标维度集合的目标维度数量、差异维度数量进行计算得到差异数量占比;分别对所述相似数量占比和差异数量占比进行加权计算,得到相似度量化值,通过以下公式计算相似度量化值,
其中,为第个第一维度集合与目标维度集合的相似度量化值,为相同维度数量,为第个第一维度集合的第一维度数量,为目标维度集合的目标维度数量,为相同数量权重值,为差异维度数量,为差异数量权重值。5.根据权利要求4所述的适用于异构数据的数据处理方法,其特征在于,还包括:对自动确定的第二维度集合进行显示,若判断用户主动将其中一个第一维度集合调整为第二维度集合,且将主动将自动确定的第二维度集合调整为第一维度集合;则提取被调整的第一维度集合中的第一相同维度数量、第一差异维度数量,被调整的第二维度集合中的第二相同维度数量、第二差异维度数量;若所述第一相同维度数量大于所述第二相同维度数量、第一差异维度数量大于所述第二差异维度数量,则对所述相同数量权重值进行正向调整;若所述第一相同维度数量小于所述第二相同维度数量、第一差异维度数量小于所述第二差异维度数量,则对所述差异数量权重值进行负向调整;通过以下公式计算调整后的相同数量权重值和差异数量权重值,通过以下公式计算调整后的相同数量权重值和差异数量权重值,其中,为调整后的相同数量权重值,为正向调整基数,为第一调整常数,为正向调整次数,为调整后的差异数量权重值,为负向调整基数,为第二调整常数,为负向调整次数。6.根据权利要求4所述的适用于异构数据的数据处理方法...
【专利技术属性】
技术研发人员:章水鑫,叶丹青,杨威,
申请(专利权)人:南京三百云信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。