一种基于工业大数据的多源异构数据融合系统及方法技术方案

技术编号：28711489 阅读：38 留言：0更新日期：2021-06-06 00:19

本发明专利技术公开了一种基于工业大数据的多源异构数据融合系统及方法，属于大数据处理技术领域，包括数据采集模块、属性分析模块、服务器和储存模块；所述数据采集模块用于从工业大数据中采集多源异构数据，通过数据采集模块的设置，对采集到的多源异构数据进行清洗，由于获取到的数据是最基本的原始数据，不仅结构多样化而且还携带有很多冗余信息，因此需要对获取到的数据进行清洗，将结构多样、内容杂乱的数据清洗成统一标准格式的数据，并在清洗的过程中过滤掉冗余信息；通过第一分类单元的设置，对多源异构数据进行初步分类，再通过对分类后的数据进行去重，删除不需要的数据，提高储存空间使用率。空间使用率。空间使用率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于工业大数据的多源异构数据融合系统及方法

[0001]本专利技术属于大数据处理
；具体是一种基于工业大数据的多源异构数据融合系统及方法。

技术介绍

[0002]随着信息技术快速发展，各行业大力推动信息化建设。经过几年发展，企业内部先后建成了各类特定业务相关的信息化系统。由于建设上的多样性，例如实现技术多样性、存储设备不同、数据存储方式多样性等导致存储大量异构。业务相关数据具有以下特点：数据异构型，包括结构化和非结构化；数据多态性，静态数据和动态数据；数据离散型，数据分布在不同的系统中；数据量大，每天都有新数据产生。不同业务部门产生的数据成为信息的“孤岛”，不同业务部门很难实现数据共享，而现实中，各业务部门对数据共享需求越来越强烈，因此多源异构数据融合还是很有必要的。

技术实现思路

[0003]本专利技术的目的在于提供一种基于工业大数据的多源异构数据融合系统及方法，解决多源异构数据融合的问题。
[0004]本专利技术的目的可以通过以下技术方案实现：
[0005]一种基于工业大数据的多源异构数据融合系统，包括数据采集模块、属性分析模块、服务器和储存模块；
[0006]所述数据采集模块用于从工业大数据中采集多源异构数据，具体采集方法包括以下步骤：
[0007]步骤S11：建立多源异构数据的关键词表，多源异构数据的关键词表是由数据源确定的，数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词；
[0008]步骤S12：获取多源异构数据，设置预设标...

【技术保护点】

【技术特征摘要】
1.一种基于工业大数据的多源异构数据融合系统，其特征在于，包括数据采集模块、属性分析模块、服务器和储存模块；所述数据采集模块用于从工业大数据中采集多源异构数据，具体采集方法包括以下步骤：步骤S11：建立多源异构数据的关键词表，多源异构数据的关键词表是由数据源确定的，数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词；步骤S12：获取多源异构数据，设置预设标准格式，预设标准格式根据实际使用需求设定，包括结构化、非结构化以及半结构化的标准格式；步骤S13：按照预设标准格式对获取到的多源异构数据进行清洗，过滤掉冗余信息，多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗，将清洗后的多源异构数据标记为第一处理数据；步骤S14：对多源异构数据的关键词表进行分类，每类分为四级，包括第一级分类、第二级分类、第三级分类和第四级分类，第一级分类包含第二级分类，第二级分类包含第三级分类，第三级分类包含第四级分类；所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析，包括第一分类单元和第二分类单元。2.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统，其特征在于，缺失值清洗方法具体包括以下步骤：步骤S21：确定的缺失值范围，计算每个字段的缺失值比例，根据缺失比例和字段重要性，分别制定策略；步骤S22：删除不需要的字段，根据业务知识和经验推测填充缺失值；步骤S23：当数据缺失量过多，错误率高时，重新获取数据。3.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统，其特征在于，所述第一分类单元的具体分类方法包括以下步骤：步骤S31：获取第一处理数据，将第一处理数据按照属性和用途分为i级，其中i＝1、2、
……
、n，n为正整数，分级类别对照多源异构数据的关键词表分类；步骤S32：将分级后的第一处理数据标记为第二处理数据，将第二处理数据与多源异构数据的关键词表分类进行逐级匹配，将匹配到的第二处理数据输入到对应的关键词表分类中；步骤S33：将输入到对应关键词表分类中的第二处理数据标记为第三处理数据，对第三处理数据进行去重化，将去重化后的第三处理数据标记为第四处理数据。4.根据权利要求3所述的一种基于工业大数据的多源异构数据融合系统，其特征在于，对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤：步骤S41：获取第三处理数据，将第三处理数据标记为j，其中j＝1、2、
……
、m，m为正整数；步骤S42：获取第三处理数据按照属性和用途的分级，将第三处理数据分级与所有的第三处理数据分级进行匹配，获得第三处理数据分级匹配度，分级匹配度包括分级相同和分级不同，并将第三处理数据分级匹配度标记为Pj；步骤S43：获取第三处理数据分级中的最后一级内容，并将第三处理数据分级中的最后
一级内容标记为第三处理数据末级内容，将第三处理数据末级内容与所有第三处理数据末级内容进行匹配，获得第三处理数据末级内容相似度，将第三处理数据末级内容相似度标记为Lj，将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算；步骤S44：根据公式Qj＝λ*b1*Pj*(b2*Lj)，获取得到去重值Qi，其中，b1、b2均为比例系数，取值范围为0≤b1≤1，0<b2≤1，λ为修正因子，取值范围为0<λ≤1，...

【专利技术属性】
技术研发人员：杨灵运，文杰，王玉洁，邓生雄，李琳，
申请(专利权)人：贵州航天云网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人