一种基于工业大数据的多源异构数据融合系统及方法技术方案

技术编号:28711489 阅读:38 留言:0更新日期:2021-06-06 00:19
本发明专利技术公开了一种基于工业大数据的多源异构数据融合系统及方法,属于大数据处理技术领域,包括数据采集模块、属性分析模块、服务器和储存模块;所述数据采集模块用于从工业大数据中采集多源异构数据,通过数据采集模块的设置,对采集到的多源异构数据进行清洗,由于获取到的数据是最基本的原始数据,不仅结构多样化而且还携带有很多冗余信息,因此需要对获取到的数据进行清洗,将结构多样、内容杂乱的数据清洗成统一标准格式的数据,并在清洗的过程中过滤掉冗余信息;通过第一分类单元的设置,对多源异构数据进行初步分类,再通过对分类后的数据进行去重,删除不需要的数据,提高储存空间使用率。空间使用率。空间使用率。

【技术实现步骤摘要】
一种基于工业大数据的多源异构数据融合系统及方法


[0001]本专利技术属于大数据处理
;具体是一种基于工业大数据的多源异构数据融合系统及方法。

技术介绍

[0002]随着信息技术快速发展,各行业大力推动信息化建设。经过几年发展,企业内部先后建成了各类特定业务相关的信息化系统。由于建设上的多样性,例如实现技术多样性、存储设备不同、数据存储方式多样性等导致存储大量异构。业务相关数据具有以下特点:数据异构型,包括结构化和非结构化;数据多态性,静态数据和动态数据;数据离散型,数据分布在不同的系统中;数据量大,每天都有新数据产生。不同业务部门产生的数据成为信息的“孤岛”,不同业务部门很难实现数据共享,而现实中,各业务部门对数据共享需求越来越强烈,因此多源异构数据融合还是很有必要的。

技术实现思路

[0003]本专利技术的目的在于提供一种基于工业大数据的多源异构数据融合系统及方法,解决多源异构数据融合的问题。
[0004]本专利技术的目的可以通过以下技术方案实现:
[0005]一种基于工业大数据的多源异构数据融合系统,包括数据采集模块、属性分析模块、服务器和储存模块;
[0006]所述数据采集模块用于从工业大数据中采集多源异构数据,具体采集方法包括以下步骤:
[0007]步骤S11:建立多源异构数据的关键词表,多源异构数据的关键词表是由数据源确定的,数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词;
[0008]步骤S12:获取多源异构数据,设置预设标准格式,预设标准格式根据实际使用需求设定,包括结构化、非结构化以及半结构化的标准格式;
[0009]步骤S13:按照预设标准格式对获取到的多源异构数据进行清洗,过滤掉冗余信息,多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗,将清洗后的多源异构数据标记为第一处理数据;
[0010]步骤S14:对多源异构数据的关键词表进行分类,每类分为四级,包括第一级分类、第二级分类、第三级分类和第四级分类,第一级分类包含第二级分类,第二级分类包含第三级分类,第三级分类包含第四级分类;
[0011]所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析,包括第一分类单元和第二分类单元。
[0012]进一步地,缺失值清洗方法具体包括以下步骤:
[0013]步骤S21:确定的缺失值范围,计算每个字段的缺失值比例,根据缺失比例和字段重要性,分别制定策略;
[0014]步骤S22:删除不需要的字段,根据业务知识和经验推测填充缺失值;
[0015]步骤S23:当数据缺失量过多,错误率高时,重新获取数据。
[0016]进一步地,所述第一分类单元的具体分类方法包括以下步骤:
[0017]步骤S31:获取第一处理数据,将第一处理数据按照属性和用途分为i级,其中i=1、2、
……
、n,n为正整数,分级类别对照多源异构数据的关键词表分类;
[0018]步骤S32:将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中;
[0019]步骤S33:将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据。
[0020]进一步地,对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤:
[0021]步骤S41:获取第三处理数据,将第三处理数据标记为j,其中j=1、2、
……
、m,m为正整数;
[0022]步骤S42:获取第三处理数据按照属性和用途的分级,将第三处理数据分级与所有的第三处理数据分级进行匹配,获得第三处理数据分级匹配度,分级匹配度包括分级相同和分级不同,并将第三处理数据分级匹配度标记为Pj;
[0023]步骤S43:获取第三处理数据分级中的最后一级内容,并将第三处理数据分级中的最后一级内容标记为第三处理数据末级内容,将第三处理数据末级内容与所有第三处理数据末级内容进行匹配,获得第三处理数据末级内容相似度,将第三处理数据末级内容相似度标记为Lj,将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算;
[0024]步骤S44:根据公式Qj=λ*b1*Pj*(b2*Lj),获取得到去重值Qi,其中,b1、b2均为比例系数,取值范围为0≤b1≤1,0<b2≤1,λ为修正因子,取值范围为0<λ≤1,当匹配度是分级相同时,b1*Pj=1,当匹配度是分级不同时,b1*Pj=0;
[0025]步骤S45:设置去重值Qi警戒线,所述去重值Qi警戒线为预设数据;
[0026]步骤S46:将超过去重值Qi警戒线的去重值Qi进行标记,建立备份库,将标记后的第三处理数据复制到备份库中;
[0027]步骤S47:将标记后的第三处理数据进行删除。
[0028]进一步地,所述第二分类单元用于对第四处理数据进行分类,具体方法包括以下步骤:
[0029]步骤S51:设置数据用户分类;
[0030]步骤S52:实时获取第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,并将第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志标记为输入数据;
[0031]步骤S53:通过储存模块获取历史分类数据;历史分类数据包括第四处理数据的分级、第四处理数据的内容和第四处理数据的访问日志,以及对应的第四处理数据在数据用户分类中的类别,并将第四处理数据在数据用户分类中的类别标记为最终分类;
[0032]步骤S54:构建人工智能模型;所述人工智能模型至少包括误差逆向传播神经网络、RBF神经网络和深度卷积神经网络中的一种,人工智能模型的输出结果是最终分类;
[0033]步骤S55:将历史分类数据和对应的输出结果按照设定比例划分为训练集、测试集和校验集;所述设定比例包括2:1:1、3:2:1和3:1:1;通过训练集、测试集和校验集对人工智能模型进行训练、测试和校验;将训练完成的人工智能模型标记为预测模型;
[0034]步骤S56:将输入数据输入至预测模型获取第四处理数据在数据用户分类中的类别;
[0035]步骤S57:将第四处理数据对应输入到数据用户分类中。
[0036]一种基于工业大数据的多源异构数据融合方法,具体方法包括以下步骤:
[0037]步骤一:建立多源异构数据的关键词表,采集多源异构数据,设置预设标准格式,按照预设标准格式对获取到的多源异构数据进行清洗,将清洗后的多源异构数据标记为第一处理数据,对多源异构数据的关键词表进行分类;
[0038]步骤二:对数据采集到的多源异构数据进行分析,将第一处理数据按照属性和用途分为i级,将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于工业大数据的多源异构数据融合系统,其特征在于,包括数据采集模块、属性分析模块、服务器和储存模块;所述数据采集模块用于从工业大数据中采集多源异构数据,具体采集方法包括以下步骤:步骤S11:建立多源异构数据的关键词表,多源异构数据的关键词表是由数据源确定的,数据源的关键词包括数据源输出的数据关键词、数据源载体设备的关键词;步骤S12:获取多源异构数据,设置预设标准格式,预设标准格式根据实际使用需求设定,包括结构化、非结构化以及半结构化的标准格式;步骤S13:按照预设标准格式对获取到的多源异构数据进行清洗,过滤掉冗余信息,多源异构数据清洗包括缺失值清洗、格式内容清洗以及逻辑错误清洗,将清洗后的多源异构数据标记为第一处理数据;步骤S14:对多源异构数据的关键词表进行分类,每类分为四级,包括第一级分类、第二级分类、第三级分类和第四级分类,第一级分类包含第二级分类,第二级分类包含第三级分类,第三级分类包含第四级分类;所述属性分析模块用于对数据采集模块采集到的多源异构数据进行分析,包括第一分类单元和第二分类单元。2.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,缺失值清洗方法具体包括以下步骤:步骤S21:确定的缺失值范围,计算每个字段的缺失值比例,根据缺失比例和字段重要性,分别制定策略;步骤S22:删除不需要的字段,根据业务知识和经验推测填充缺失值;步骤S23:当数据缺失量过多,错误率高时,重新获取数据。3.根据权利要求1所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,所述第一分类单元的具体分类方法包括以下步骤:步骤S31:获取第一处理数据,将第一处理数据按照属性和用途分为i级,其中i=1、2、
……
、n,n为正整数,分级类别对照多源异构数据的关键词表分类;步骤S32:将分级后的第一处理数据标记为第二处理数据,将第二处理数据与多源异构数据的关键词表分类进行逐级匹配,将匹配到的第二处理数据输入到对应的关键词表分类中;步骤S33:将输入到对应关键词表分类中的第二处理数据标记为第三处理数据,对第三处理数据进行去重化,将去重化后的第三处理数据标记为第四处理数据。4.根据权利要求3所述的一种基于工业大数据的多源异构数据融合系统,其特征在于,对于步骤S33中对第三处理数据进行去重化的具体方法包括以下步骤:步骤S41:获取第三处理数据,将第三处理数据标记为j,其中j=1、2、
……
、m,m为正整数;步骤S42:获取第三处理数据按照属性和用途的分级,将第三处理数据分级与所有的第三处理数据分级进行匹配,获得第三处理数据分级匹配度,分级匹配度包括分级相同和分级不同,并将第三处理数据分级匹配度标记为Pj;步骤S43:获取第三处理数据分级中的最后一级内容,并将第三处理数据分级中的最后
一级内容标记为第三处理数据末级内容,将第三处理数据末级内容与所有第三处理数据末级内容进行匹配,获得第三处理数据末级内容相似度,将第三处理数据末级内容相似度标记为Lj,将第三处理数据、第三处理数据分级匹配度和第三处理数据末级内容相似度进行去除量纲取其数值计算;步骤S44:根据公式Qj=λ*b1*Pj*(b2*Lj),获取得到去重值Qi,其中,b1、b2均为比例系数,取值范围为0≤b1≤1,0<b2≤1,λ为修正因子,取值范围为0<λ≤1,...

【专利技术属性】
技术研发人员:杨灵运文杰王玉洁邓生雄李琳
申请(专利权)人:贵州航天云网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1