一种基于大数据的数据质量度量方法技术

技术编号:36708898 阅读:24 留言:0更新日期:2023-03-01 09:34
本发明专利技术涉及数字孪生领域,具体涉及一种基于大数据的数据质量度量方法,包括:获取工业数据仓库中的孪生体数据并进行数据预处理;获取每个时间节点对应的数据量大小差异性,并根据数据量大小差异性对孪生大数据进行时序均匀分区;获取工业数据仓库中的数据属性,并计算所有属性的属性权值,根据属性权值获得每个时序均匀分区的分区质量标签,并根据分区质量标签获取整个数据仓库的时序数据质量曲线;根据时序数据质量曲线获得大数据质量参数;最终根据大数据质量参数选择数字孪生体对应的最佳全生命周期内不同领域的数据仓库数据,并对数字孪生系统进行优化。本发明专利技术相较于现有度量数据质量的方法提高了孪生大数据质量度量的准确性。准确性。准确性。

【技术实现步骤摘要】
一种基于大数据的数据质量度量方法


[0001]本专利技术涉及数字孪生领域,具体涉及一种基于大数据的数据质量度量方法。

技术介绍

[0002]随着科技的发展,信息化的时代已经到来,数字孪生技术在科技的推动下蓬勃发展,广泛应用于工业领域各个行业。数字孪生技术对于工业制造领域而言是一项十分重要的技术,利用数字孪生技术对相应的工业物理实体建立数字孪生模型,可以全方位的描述、映射、监控、诊断和优化实体在物理场中的过程和行为。而对应的数字孪生模型的建立需要利用多个维度的大数据进行支撑。大数据的质量往往对于数字孪生模型的建立有着较为重要的影响,某个维度的大数据质量较差的情况下,依照该大数据建立的数字孪生模型往往不够准确,对于物理场中的实体、过程和行为的某一个维度的描述、映射、监控、诊断和优化都会造成一定的偏差,大数据的质量较好的情况下建立的数字孪生模型往往更加的准确,不会出现上述的负面影响,所以高质量的大数据是数字孪生系统优化和数字孪生模型建立的一个重要的支撑点。
[0003]现有的技术手段中对于大数据的质量进行度量的时候,往往通过大数据整体的完整性和时效性进行度量,而这种度量方式对于大数据的整体来说有着一定的优势,但是对于想通过孪生大数据对数字孪生系统优化的时候,往往不够客观和精确。在后续进行数字孪生系统优化的时候,往往容易因为数据质量精确性和客观性不够从而选择与不合适的大数据集,对数字孪生系统优化以及数字孪生模型建立造成较大的影响。
[0004]本专利技术通过在对孪生大数据进行时序数据量均匀分区的基础上,对大数据中数字孪生体属性数据进行提取,而后通过对提取的属性数据在不同分区内进行大数据的质量度量,而后通过不同的分区的大数据的质量来实现整体孪生大数据的质量度量,最后根据度量结果对孪生大数据进行选择,选择质量更高的孪生大数据进行数字孪生系统优化以及数字孪生模型的建立。

技术实现思路

[0005]为了解决上述问题,本专利技术提供一种基于大数据的数据质量度量方法,所述方法包括:
[0006]S1:获取工业数据仓库中的数字孪生数据;
[0007]S2:分别以不同时间间隔为单位时间节点并根据相邻时间的数据量差异获得每个时间节点对应的数据量大小差异性,根据数据量大小差异性获得时序均匀分区;
[0008]S3:获取数据仓库中的数据属性,并计算所有属性的属性权值;
[0009]S4:根据每个时序均匀分区中每个属性出现的个数以及每个属性对应的属性权值获得每个属性相对于前一天的属性波动性;
[0010]S5:根据每个时序均匀分区中每个属性的个数以及每个属性对应的属性权值获得每个时序均匀分区内数据的标签;根据每个时序均匀分区内数据的标签与属性波动性获得
每个时序均匀分区的分区质量标签,并根据分区质量标签获取整个数据仓库数据的时序数据质量曲线;
[0011]S6:根据时序数据质量曲线获得大数据质量参数;
[0012]S7:根据大数据质量参数选择对应的最佳数据仓库数据对数字孪生系统进行重新优化以及数字孪生模型的建立。
[0013]优选的,所述获得每个时间节点对应的数据量大小差异性,根据数据量大小差异性获得时序均匀分区的步骤包括:
[0014]以一天作为一个时间节点进行节点对应数据量的大小差异性计算公式为:
[0015][0016]式中,h1表示以一天作为一个时间节点中的第h1个时间节点,其中H1为以一天作为一个时间节点的最大节点的个数;表示第h1个时间节点中数据仓库中的数据量;表示第h1‑
1个时间节点中数据仓库中的数据量;
[0017]以两天为一个时间节点的数据量大小差异性D2,依次类推获得其中T∈[1,Δt],且MAXT表示工业数据仓库中所有的数据的存在天数;
[0018]当以T天作为一个时间节点其对应的数据量大小差异性D
T
最小时,则以每T天为一个时间节点对所有数据仓库中的数据进行均匀分区。
[0019]优选的,所述获取数据仓库中的数据属性的步骤包括:
[0020]利用命名体识别技术在数据仓库中完成有关数字孪生体的数据的属性提取,获得有关数字孪生体的相关属性A的集合为:
[0021]A={A1,A2…
,A
b
,

,A
B
}
[0022]式中,B表示数据仓库中有关数字孪生体提取出的属性总个数;A
b
表示第b个属性。
[0023]优选的,所述计算所有属性的属性权值的步骤包括:
[0024]对于第b个属性A
b
,其属性权值w
b
为属性A
b
在数据仓库中出现的次数与数据仓库中数字孪生体提取出的属性总个数的比值;
[0025]计算出所有属性的属性权值。
[0026]优选的,所述根据每个时序均匀分区中每个属性出现的个数以及每个属性对应的属性权值获得每个属性相对于前一天的属性波动性的步骤包括:
[0027]第h个时序均匀分区中的第t天的属性相对于前一天的属性波动性的计算公式为:
[0028][0029]式中,ΔA
t
表示第h个时序均匀分区中的第t天的属性相对于前一天的属性波动性;b'
t
表示在第h个时序均匀分区中第t天出现的属性但是在第t

1天没有出现的属性第b'个属性个属性表示第h个时序均匀分区中第t天出现但是在第t

1天没有出现的第b'个属性对应的个数;w
b
为第b个属性A
b
的属性权值;b”t
表示在第h个时序均匀分区中第t天中没有出现但是在第t

1天出现的第b”个属性A
b”;表示在第h个时序均匀分区中第t天中
没有出现但是在第t

1天出现的第b”个属性A
b”的个数,exp()表示以自然常数为底的指数函数。
[0030]优选的,所述每个时序均匀分区的分区质量标签的获取步骤包括:
[0031]对于第h个时序均匀分区,第h个时序均匀分区的分区质量标签计算公式为:
[0032][0033]式中,C
h
第h个时序均匀分区的分区质量标签;t表示第h个时序均匀分区中的第t天;T表示第h个时序均匀分区中的总天数;ΔA
t
表示第h个时序均匀分区中的第t天的属性相对于前一天的属性波动性;表示第h个时序均匀分区中第t天出现的第b个属性的个数为w
b
表示第b个属性对应的属性权值;
[0034]计算所有时序均匀分区的分区质量标签。
[0035]优选的,所述整个数据仓库数据的时序数据质量曲线是根据各个时序均匀分区及其分区质量标签构建的单调递增模型获得的。
[0036]优选的,所述根据时序数据质量曲线获得大数据质量参数是由时序数据质量曲线进行积分获得的。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据质量度量方法,其特征在于,所述方法包括:S1:获取工业数据仓库中的数字孪生数据;S2:分别以不同时间间隔为单位时间节点并根据相邻时间的数据量差异获得每个时间节点对应的数据量大小差异性,根据数据量大小差异性获得时序均匀分区;S3:获取数据仓库中的数据属性,并计算所有属性的属性权值;S4:根据每个时序均匀分区中每个属性出现的个数以及每个属性对应的属性权值获得每个属性相对于前一天的属性波动性;S5:根据每个时序均匀分区中每个属性的个数以及每个属性对应的属性权值获得每个时序均匀分区内数据的标签;根据每个时序均匀分区内数据的标签与属性波动性获得每个时序均匀分区的分区质量标签,并根据分区质量标签获取整个数据仓库数据的时序数据质量曲线;S6:根据时序数据质量曲线获得大数据质量参数;S7:根据大数据质量参数选择对应的最佳数据仓库数据对数字孪生系统进行重新优化以及数字孪生模型的建立。2.根据权利要求1所述的一种基于大数据的数据质量度量方法,其特征在于,所述获得每个时间节点对应的数据量大小差异性,根据数据量大小差异性获得时序均匀分区的步骤包括:以一天作为一个时间节点进行节点对应数据量的大小差异性计算公式为:式中,h1表示以一天作为一个时间节点中的第h1个时间节点,其中H1为以一天作为一个时间节点的最大节点的个数;表示第h1个时间节点中数据仓库中的数据量;表示第h1‑
1个时间节点中数据仓库中的数据量;以两天为一个时间节点的数据量大小差异性D2,依次类推获得其中T∈[1,Δt],且MAXT表示工业数据仓库中所有的数据的存在天数;当以T天作为一个时间节点其对应的数据量大小差异性D
T
最小时,则以每T天为一个时间节点对所有数据仓库中的数据进行均匀分区。3.根据权利要求1所述的一种基于大数据的数据质量度量方法,其特征在于,所述获取数据仓库中的数据属性的步骤包括:利用命名体识别技术在数据仓库中完成有关数字孪生体的数据的属性提取,获得有关数字孪生体的相关属性A的集合为:A={A1,A2…
,A
b
,

,A
B
}式中,B表示数据仓库中有关数字孪生体提取出的属性总个数;A
b
表示第b个属性。4.根据权利要求3所述的一种基于大数据的数据质量度量方法,其特征在于,所述计算所有属性的属性权值的步骤包括:对于第b个属性A
b
,其属性权值w
b
为属性A
b
在数据仓库中出现的次数与数据仓库中数字孪生体提取出的属性总个数的比值;计算出所有属性的属性权值。
...

【专利技术属性】
技术研发人员:杨道平胡礼波
申请(专利权)人:北京中航路通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1