大数据异构融合提取方法及装置制造方法及图纸

技术编号：28373549 阅读：23 留言：0更新日期：2021-05-08 00:00

本发明专利技术公开了大数据异构融合提取方法及装置，该方法包括获取至少两个源的原始异构数据；从所述原始异构数据提取高相关性异构数据构成待融合异构数据集；对所述待融合异构数据集合进行权值分配运算，构成融合异构数据集；通过从获取的清洁结构化原始异构数据中提取高相关性语义向量或属性数值的异构数据进行权值分配运算存储并构成融合异构数据集。优点：可根据实际业务应用需要，查询数据源的索引，根据配置文件信息获取相应数据源的数据表进行融合数据，无需对全局数据进行融合，在保证数据融合准确性的前提下，能够提高数据融合效率，能满足不同业务应用的数据融合需求，避免了由于操作不规范或忽略系统之间的关联性而导致无法自动匹配融合的问题。

全部详细技术资料下载

【技术实现步骤摘要】
大数据异构融合提取方法及装置
本专利技术涉及数据处理
，尤其涉及一种大数据异构融合提取方法及装置。
技术介绍
数据是当前企业中的重要的资源，通过分析各个业务系统中数据关系为产品或服务提供全流程的监控，为领导者决策提供数据支持。随着大数据、人工智能、云计算技术越来越成熟，企业IT系统的建设，数据被不可避免的割裂到不同的IT系统中，信息孤岛的现象越来越明显。而大数据的各种应用告诉我们，融合后的多维度的数据，所能产生的价值是远超想象的，因而企业目前越来越重视“数据资产”。而数据资产的前提，就是一份融合了企业各个方面的，有统一结构和规范的“完整”数据，因而数据融合应用也越来越普遍。数据融合是指将多个来源的数据（以下简称为多源数据）进行分析、综合、组合，以完成所需的决策和评估任务而进行的信息处理技术，其目的就是将原来分散的、独立的多个数据融合在一起，从而发现数据规律、趋势，提升数据价值。传统数据融合方案中，针对需要融合的数据，采用相等字段值关联的方式进行融合。通常，进行数据融合的数据数量多并且复杂，数据融合时需要进行多次相等字段值关联关系的处理，处理过程中需要对多源数据的原数据表中的融合字段进行清洗，导致处理程序庞大，处理数据量大。并且清洗后还需将进行相等字段值关联关系处理后的数据另存一张数据表，增加了存储的占用。或有的根据业务需求，需要有经验的业务人员首先识别出表之间关联关系，从而实现多个数据源的数据融合。企业中使用的各个业务系统，在设计之初仅为满足某一业务需要所设计，或者外键关系不明显，没有考虑到多个业务系统...

【技术保护点】
1.一种大数据异构融合提取方法，其特征在于，所述方法包括：/n获取至少两个源的原始异构数据；/n从所述原始异构数据提取高相关性异构数据构成待融合异构数据集；/n对所述待融合异构数据集合进行权值分配运算，构成融合异构数据集。/n

【技术特征摘要】
1.一种大数据异构融合提取方法，其特征在于，所述方法包括：
获取至少两个源的原始异构数据；
从所述原始异构数据提取高相关性异构数据构成待融合异构数据集；
对所述待融合异构数据集合进行权值分配运算，构成融合异构数据集。

2.根据权利要求1所述的方法，其特征在于，所述权值分配运算方法包括加权平均法、神经网络法中的任意一种，所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集，所述方法包括：
提取所述至少两个源的原始异构数据属性，并利用预设词义模型获取所述至少两个源的原始异构数据属性对应语义向量；
计算所述至少两个源的原始异构数据属性对应语义向量之间的语义相似度值，并比较所述语义相似度值与预设语义相似度值大小关系；
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集，并将所述高相关性异构数据集作为待融合异构数据集。

3.根据权利要求2所述的方法，其特征在于，所述对所述待融合异构数据集合进行权值分配运算，构成融合异构数据集，所述方法包括：
计算任一所述待融合异构数据集数据属性对应语义向量范值与所述数据属性对应语义向量之间的语义相似度值的权值比例；
将所述待融合异构数据集数据属性对应语义向量范值与对应的权重比例的乘积进行累加，构成得到所述融合异构数据集。

4.根据权利要求1所述的方法，其特征在于，所述权值分配运算方法包括加权平均法、最小二乘法中的任意一种，所述从所述原始异构数据提取高相关性异构数据构成待融合异构数据集，所述方法包括：
提取所述至少两个源的原始异构数据属性；
计算所述至少两个源的原始异构数据属性对应属性值之间的语义相似度值，并比较所述语义相似度值与预设语义相似度值大小关系；
将所述语义相似度值大于所述预设语义相似度值的原始异构数据集标识为高相关性异构数据集，并将所述高相关性异构数据集作为待融合异构数据集。

5.根据权利要求2所述的方法，其特征在于，所述对...

【专利技术属性】
技术研发人员：王芳，
申请(专利权)人：永城职业学院，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人