大数据异构融合提取方法及装置制造方法及图纸

技术编号:28373549 阅读:23 留言:0更新日期:2021-05-08 00:00
本发明专利技术公开了大数据异构融合提取方法及装置,该方法包括获取至少两个源的原始异构数据;从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集;通过从获取的清洁结构化原始异构数据中提取高相关性语义向量或属性数值的异构数据进行权值分配运算存储并构成融合异构数据集。优点:可根据实际业务应用需要,查询数据源的索引,根据配置文件信息获取相应数据源的数据表进行融合数据,无需对全局数据进行融合,在保证数据融合准确性的前提下,能够提高数据融合效率,能满足不同业务应用的数据融合需求,避免了由于操作不规范或忽略系统之间的关联性而导致无法自动匹配融合的问题。

【技术实现步骤摘要】
大数据异构融合提取方法及装置
本专利技术涉及数据处理
,尤其涉及一种大数据异构融合提取方法及装置。
技术介绍
数据是当前企业中的重要的资源,通过分析各个业务系统中数据关系为产品或服务提供全流程的监控,为领导者决策提供数据支持。随着大数据、人工智能、云计算技术越来越成熟,企业IT系统的建设,数据被不可避免的割裂到不同的IT系统中,信息孤岛的现象越来越明显。而大数据的各种应用告诉我们,融合后的多维度的数据,所能产生的价值是远超想象的,因而企业目前越来越重视“数据资产”。而数据资产的前提,就是一份融合了企业各个方面的,有统一结构和规范的“完整”数据,因而数据融合应用也越来越普遍。数据融合是指将多个来源的数据(以下简称为多源数据)进行分析、综合、组合,以完成所需的决策和评估任务而进行的信息处理技术,其目的就是将原来分散的、独立的多个数据融合在一起,从而发现数据规律、趋势,提升数据价值。传统数据融合方案中,针对需要融合的数据,采用相等字段值关联的方式进行融合。通常,进行数据融合的数据数量多并且复杂,数据融合时需要进行多次相等字段值关联关系的处理,处理过程中需要对多源数据的原数据表中的融合字段进行清洗,导致处理程序庞大,处理数据量大。并且清洗后还需将进行相等字段值关联关系处理后的数据另存一张数据表,增加了存储的占用。或有的根据业务需求,需要有经验的业务人员首先识别出表之间关联关系,从而实现多个数据源的数据融合。企业中使用的各个业务系统,在设计之初仅为满足某一业务需要所设计,或者外键关系不明显,没有考虑到多个业务系统之间的关联性。因此,当分散在各个业务系统中的相关数据汇入数据仓库后,无法通过简单的逻辑匹配方法得到数据之间的关系,这就需要数据开发者寻求新的数据融合技术来挖掘数据之间的关联关系。这样,相关数据融合方案,存在流程繁琐、数据处理成本高等缺陷。针对上述这种情况,本专利技术提出了一种大数据异构融合提取方法及装置,能够有效地对现有技术进行改进,以克服其不足。
技术实现思路
本专利技术针对现有技术的不足,本专利技术提供了一种大数据异构融合提取方法及装置,以解决现有技术的上述问题,其具体方案如下:第一方面,本专利技术提供了一种大数据异构融合提取方法,所述方法包括:获取至少两个源的原始异构数据;从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。优选地,所述权值分配运算方法包括加权平均法、神经网络法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。优选地,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。优选地,所述权值分配运算方法包括加权平均法、最小二乘法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:提取所述至少两个源的原始异构数据属性;计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。优选地,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:计算任一所述待融合异构数据集数据属性值与所述数据属性对应属性值之间的语义相似度值的权值比例;将所述待融合异构数据集数据属性值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。优选地,所述构成融合异构数据集,所述方法包括:查询所述异构数据的数据库索引,获取相应数据库的数据表;根据数据库配置文件中的配置信息,从所述数据表提取累加后的异构数据,并将所述累加后的异构数据存储至相应类型数据库的数据表中,以构成所述融合异构数据集。优选地,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集之前,所述方法还包括:利用预设数据清洗规则对所述原始异构数据进行清洗,去除重复数据;对已清洗的所述原始异构数据进行类型分类,并将不同类型的所述原始异构数据转变为结构化异构数据。第二方面,本专利技术提供了一种大数据异构融合提取装置,所述装置包括:获取模块,用于获取至少两个源的原始异构数据;提取模块,用于从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;加权模块,用于对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。第三方面,本专利技术提供了一种大数据异构融合提取设备,所述设备包括:通信总线,用于实现处理器与存储器间的连接通信;存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如下步骤:获取至少两个源的原始异构数据;从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。第四方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。本专利技术的有益效果:本专利技术的大数据异构融合提取方法及装置,通过从获取的清洁结构化原始异构数据中提取高相关性语义向量或属性数值的异构数据进行权值分配运算存储并构成融合异构数据集。可根据实际业务应用需要,查询数据源的索引,根据配置文件信息获取相应数据源的数据表进行融合数据,无需对全局数据进行融合,在保证数据融合准确性的前提下,能够提高数据融合效率,能满足不同业务应用的数据融合需求,避免了由于操作不规范或忽略系统之间的关联性而导致无法自动匹配融合的问题。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,附图中的实施例不构成对本专利技术的任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术大数据异构融合提取方法一实施例流程示意图。图2是本专利技术大数据异构融合提取方法一实施例流程示意图。图本文档来自技高网
...

【技术保护点】
1.一种大数据异构融合提取方法,其特征在于,所述方法包括:/n获取至少两个源的原始异构数据;/n从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;/n对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。/n

【技术特征摘要】
1.一种大数据异构融合提取方法,其特征在于,所述方法包括:
获取至少两个源的原始异构数据;
从所述原始异构数据提取高相关性异构数据构成待融合异构数据集;
对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集。


2.根据权利要求1所述的方法,其特征在于,所述权值分配运算方法包括加权平均法、神经网络法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:
提取所述至少两个源的原始异构数据属性,并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量;
计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。


3.根据权利要求2所述的方法,其特征在于,所述对所述待融合异构数据集合进行权值分配运算,构成融合异构数据集,所述方法包括:
计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例;
将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加,构成得到所述融合异构数据集。


4.根据权利要求1所述的方法,其特征在于,所述权值分配运算方法包括加权平均法、最小二乘法中的任意一种,所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集,所述方法包括:
提取所述至少两个源的原始异构数据属性;
计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值,并比较所述语义相似度值与预设语义相似度值大小关系;
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集,并将所述高相关性异构数据集作为待融合异构数据集。


5.根据权利要求2所述的方法,其特征在于,所述对...

【专利技术属性】
技术研发人员:王芳
申请(专利权)人:永城职业学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1