当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于数据画像的工业数据质量量化分析报告生成方法技术

技术编号:33892216 阅读:21 留言:0更新日期:2022-06-22 17:27
本发明专利技术涉及工业大数据技术领域,具体涉及一种基于数据画像的工业数据质量量化分析报告生成方法,用于工业数据的数据质量分析,包括以下步骤:S1、获取工业数据并进行预处理;S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值;S4、综合各数据指标进行数据质量综合分析,生成数据质量量化分析报告。本方法能够简化工业数据的数据质量的量化分析难度,并保证较高分析精度,可以有效的应用于工业数据的实际应用。业数据的实际应用。业数据的实际应用。

【技术实现步骤摘要】
一种基于数据画像的工业数据质量量化分析报告生成方法


[0001]本专利技术涉及工业大数据
,具体涉及一种基于数据画像的工业数据质量量化分析报告生成方法。

技术介绍

[0002]数据质量作为一个相对的概念,在不同历史阶段有不同的概念和标准,现阶段,数据质量的概念已从狭义转向广义。在概念研究方面,F.Hermans等人指出数据质量应该包含准确性、一致性、适时性和完整性四个方面,并认为可以从这些方面进行数据质量描述;C.Cappiello等人立足用户的视角,认为数据质量应描述为数据对于特定使用者期望的满足程度。在质量评价研究方面,B.Piprani等人从精度、可靠性、唯一性和有效性等多种维度制订了评价指标,并进行了相关验证。因此,广义上数据质量可以被认为是反映多维度的数据对特定需求的满意程度。
[0003]工业大数据是大量工业产品设备的工业数据的集合,这些数据由于直接与生产活动关联,通过对工业大数据的合理使用,可以对工业产品的各个环节起到优化升级的作用,例如,生产设备的预防性维修、产品生产过程的优化、供应链的升级、产品的营销辅助等等。但是,想要工业大数据发挥出上述效果,必须满足一个前提条件,那就是工业数据的数据质量要过关,否则不仅不能起到上述效果,还会对工业生产造成各种负面作用。
[0004]在大数据质量评价方面,国内有较多学者对之进行了相关研究,莫祖英构建了微博信息质量的评价指标体系(莫祖英,马费成,罗毅.微博信息质量评价模型构建研究[J].信息资源管理学报,2013,3(02):12
‑<br/>18.),李贺等人对用户生成内容构建了质量评价指标体系(李贺,张世颖.移动互联网用户生成内容质量评价体系研究[J].情报理论与实践,2015,38(10):6

11.)。除此,2013年发表的《数据组织过程中的数据质量评价研究》以基于生命周期的数据质量管理框架为出发点,提出了数据组织过程中的数据质量评价模型和方法,包括数据质量维度、数据质量评价指标、数据质量综合评价模型以及数据质量评价方法等。
[0005]然而,学者的研究更多地关注了用户所产生的大数据,而非工业大数据。与用户大数据相比,工业大数据具有密集且繁多的特点,现有的分析模型虽然对如何评估数据质量给出了相关定义和模型,但都仅是对工业数据的数据质量进行了大致的定性分析和评估,而缺乏明确的定量分析结论和报告,如果直接通过获取的工业数据来分析其相关的定量评价指标,需要进行大量的数据量化计算。除此,工业数据对于精度等要求远超过一般类型的大数据,为保证分析的精度,所需进行的数据量化计算工作量就更加巨大,就进一步限制了工业数据的分析效率。
[0006]综上,如何简化工业数据的数据质量的量化分析难度,并保证较高分析精度,能够有效的应用于工业大数据的实际应用,成为了工业大数据应用技术行业内急需解决的问题。

技术实现思路

[0007]针对上述现有技术的不足,本专利技术提出了一种基于数据画像的工业数据质量量化分析报告生成方法,能够简化工业大数据的数据质量的量化分析难度,并保证较高分析精度,可以有效的应用于工业大数据的实际应用。
[0008]本专利技术采用了如下的技术方案:
[0009]一种基于数据画像的工业数据质量量化分析报告生成方法,其特征在于,用于工业数据的数据质量分析,包括以下步骤:
[0010]S1、获取工业数据并进行预处理;
[0011]S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;
[0012]S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值;
[0013]S4、综合各数据指标进行数据质量综合分析,生成数据质量量化分析报告。
[0014]上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S2包括:
[0015]S21、分析数据中有缺失的数据的数量,得到数据的缺失值;
[0016]S22、统计零值数及噪声值,并分析有效数据的数量;所述零值数表示数据中零值的数量;所述噪声值表示数据中因外界环境噪声产生的数据的数量;
[0017]S23、统计重复的数据数量,并记为重复值;
[0018]S24、通过核密度估计的方式统计异常值,所述异常值表示数据中的存在异常的数据数量;
[0019]S25、统计数据的采集频率阈值,并记为采集间隔;
[0020]S26、提取出工业数据的时序数据特征。
[0021]上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S23中,所述重复值包括时序重复值、字段重复值及字段组合重复值;所述时序重复值表示一个时间段里数据记录重复的个数,所述字段重复值表示某字段重复的数据个数,所述字段组合重复值表示某字段组合重复的数据个数。
[0022]上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S24中,统计异常值时,结合数据分布、时序变化、数值变化速度、数值变化加速度、最大值、最小值、平均数、中位数及标准差进行统计分析;
[0023]其中,数据分布表示数据各个字段在不同数值区间的分布情况;时序变化表示连续的两个数据的数值的差值;数值变化速度表示连续的两个数据的数值差值与时间戳差值的比值;数值变化加速度表示连续的两个数据的数值变化速度的差值;最大值为所有数据中取值最大的数值;最小值为所有数据中取值最小的数值;平均数为所有数据取值的平均数值;中位数为所有数据取值的中位数;标准差为所有数据取值的中位数。
[0024]上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S26中,所述时序数据特征包括:数据分布、采集间隔、时序变化、数值变化速度、数值变化加速度、数据缺失值、最大值、最小值、平均值、中位数、标准差、零值数、异常值、噪声值和重复值。
[0025]上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S3中,根据工业数据的采集间隔分析及时性,根据数据缺失值分析完整性,根据异常值分析一致性,根据零值数及噪声值分析有效性,根据时序重复值、字段重复值及字段组合重复值分析重复性;
[0026]其中,所述及时性表示数据处理的及时程度;所述一致性表示在业务定义一致性的情况下,逻辑关系正确、完整,差异原因可解释、可追溯的数据的占比情况;所述完整性表示数据中重复值的占比程度;所述有效性表示符合当前属性的规范的数据的占比情况;所述重复性表示在某时间段里数据重复的概率。
[0027]上述基于数据画像的工业数据质量量化分析报告生成方法中,优选的,S3中,进行某数据指标的计算时,通过自适应滑动窗口进行计算,按照预设的顺序移动滑动窗口,直到遍历所有数据后得到计算结果;遍历过程中,按照预设的规则实时调节滑动窗口的大小;其中,预设的规则包括,根据当前滑动窗口的大小及数据指标结果的数量对滑动窗口进行调节,若数据指标结果在预设的阈值范围内,则滑动窗口按预设规则变大;若数据指标结果超出阈值范围,则滑动窗口按预设规则变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据画像的工业数据质量量化分析报告生成方法,其特征在于,用于工业数据的数据质量分析,包括以下步骤:S1、获取工业数据并进行预处理;S2、对工业数据进行时序数据特征筛查处理,提取出工业数据的时序数据特征;S3、以时序数据特征为基础进行分析处理,得到各项预设的数据指标的对应值;S4、综合各数据指标进行数据质量综合分析,生成数据质量量化分析报告。2.如权利要求1所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于,S2包括:S21、分析数据中有缺失的数据的数量,得到数据的缺失值;S22、统计零值数及噪声值,并分析有效数据的数量;所述零值数表示数据中零值的数量;所述噪声值表示数据中因外界环境噪声产生的数据的数量;S23、统计重复的数据数量,并记为重复值;S24、通过核密度估计的方式统计异常值,所述异常值表示数据中的存在异常的数据数量;S25、统计数据的采集频率阈值,并记为采集间隔;S26、提取出工业数据的时序数据特征。3.如权利要求2所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S23中,所述重复值包括时序重复值、字段重复值及字段组合重复值;所述时序重复值表示一个时间段里数据记录重复的个数,所述字段重复值表示某字段重复的数据个数,所述字段组合重复值表示某字段组合重复的数据个数。4.如权利要求3所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S24中,统计异常值时,结合数据分布、时序变化、数值变化速度、数值变化加速度、最大值、最小值、平均数、中位数及标准差进行统计分析;其中,数据分布表示数据各个字段在不同数值区间的分布情况;时序变化表示连续的两个数据的数值的差值;数值变化速度表示连续的两个数据的数值差值与时间戳差值的比值;数值变化加速度表示连续的两个数据的数值变化速度的差值;最大值为所有数据中取值最大的数值;最小值为所有数据中取值最小的数值;平均数为所有数据取值的平均数值;中位数为所有数据取值的中位数;标准差为所有数据取值的中位数。5.如权利要求4所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S26中,所述时序数据特征包括:数据分布、采集间隔、时序变化、数值变化速度、数值变化加速度、数据缺失值、最大值、最小值、平均值、中位数、标准差、零值数、异常值、噪声值和重复值。6.如权利要求5所述的基于数据画像的工业数据质量量化分析报告生成方法,其特征在于:S3中,根据工业数据的采集间隔分析及时性,根据数据缺失值分析完整性,根据异常值分析一致性,根据零值数及噪声值分析有效性,根据时序重复值、字段重复值及字段组合重复值分析重复性;其中,所述及时性表示数据处理的及时程度;所述一致性表示在业务定义一致性的情况下,逻辑关系正确、完整,差异原因可解释、可追溯的数据的占比情况;所述完整性表示数据中重复值的占比程度;所述有效性表示符合当前属性的规范的数据的占比情况;所述重
复性表示在某时间段里数据重复的概率。7....

【专利技术属性】
技术研发人员:王婧杨正益汤宝平李琪康
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1