【技术实现步骤摘要】
一种基于大数据的数据质量度量方法
[0001]本专利技术涉及数字孪生领域,具体涉及一种基于大数据的数据质量度量方法。
技术介绍
[0002]随着科技的发展,信息化的时代已经到来,数字孪生技术在科技的推动下蓬勃发展,广泛应用于工业领域各个行业。数字孪生技术对于工业制造领域而言是一项十分重要的技术,利用数字孪生技术对相应的工业物理实体建立数字孪生模型,可以全方位的描述、映射、监控、诊断和优化实体在物理场中的过程和行为。而对应的数字孪生模型的建立需要利用多个维度的大数据进行支撑。大数据的质量往往对于数字孪生模型的建立有着较为重要的影响,某个维度的大数据质量较差的情况下,依照该大数据建立的数字孪生模型往往不够准确,对于物理场中的实体、过程和行为的某一个维度的描述、映射、监控、诊断和优化都会造成一定的偏差,大数据的质量较好的情况下建立的数字孪生模型往往更加的准确,不会出现上述的负面影响,所以高质量的大数据是数字孪生系统优化和数字孪生模型建立的一个重要的支撑点。
[0003]现有的技术手段中对于大数据的质量进行度量的时候,往往通过大数据整体的完整性和时效性进行度量,而这种度量方式对于大数据的整体来说有着一定的优势,但是对于想通过孪生大数据对数字孪生系统优化的时候,往往不够客观和精确。在后续进行数字孪生系统优化的时候,往往容易因为数据质量精确性和客观性不够从而选择与不合适的大数据集,对数字孪生系统优化以及数字孪生模型建立造成较大的影响。
[0004]本专利技术通过在对孪生大数据进行时序数据量均匀分区的基础上,对大数 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的数据质量度量方法,其特征在于,所述方法包括:S1:获取工业数据仓库中的数字孪生数据;S2:分别以不同时间间隔为单位时间节点并根据相邻时间的数据量差异获得每个时间节点对应的数据量大小差异性,根据数据量大小差异性获得时序均匀分区;S3:获取数据仓库中的数据属性,并计算所有属性的属性权值;S4:根据每个时序均匀分区中每个属性出现的个数以及每个属性对应的属性权值获得每个属性相对于前一天的属性波动性;S5:根据每个时序均匀分区中每个属性的个数以及每个属性对应的属性权值获得每个时序均匀分区内数据的标签;根据每个时序均匀分区内数据的标签与属性波动性获得每个时序均匀分区的分区质量标签,并根据分区质量标签获取整个数据仓库数据的时序数据质量曲线;S6:根据时序数据质量曲线获得大数据质量参数;S7:根据大数据质量参数选择对应的最佳数据仓库数据对数字孪生系统进行重新优化以及数字孪生模型的建立。2.根据权利要求1所述的一种基于大数据的数据质量度量方法,其特征在于,所述获得每个时间节点对应的数据量大小差异性,根据数据量大小差异性获得时序均匀分区的步骤包括:以一天作为一个时间节点进行节点对应数据量的大小差异性计算公式为:式中,h1表示以一天作为一个时间节点中的第h1个时间节点,其中H1为以一天作为一个时间节点的最大节点的个数;表示第h1个时间节点中数据仓库中的数据量;表示第h1‑
1个时间节点中数据仓库中的数据量;以两天为一个时间节点的数据量大小差异性D2,依次类推获得其中T∈[1,Δt],且MAXT表示工业数据仓库中所有的数据的存在天数;当以T天作为一个时间节点其对应的数据量大小差异性D
T
最小时,则以每T天为一个时间节点对所有数据仓库中的数据进行均匀分区。3.根据权利要求1所述的一种基于大数据的数据质量度量方法,其特征在于,所述获取数据仓库中的数据属性的步骤包括:利用命名体识别技术在数据仓库中完成有关数字孪生体的数据的属性提取,获得有关数字孪生体的相关属性A的集合为:A={A1,A2…
,A
b
,
…
,A
B
}式中,B表示数据仓库中有关数字孪生体提取出的属性总个数;A
b
表示第b个属性。4.根据权利要求3所述的一种基于大数据的数据质量度量方法,其特征在于,所述计算所有属性的属性权值的步骤包括:对于第b个属性A
b
,其属性权值w
b
为属性A
b
在数据仓库中出现的次数与数据仓库中数字孪生体提取出的属性总个数的比值;计算出所有属性的属性权值。
...
【专利技术属性】
技术研发人员:杨道平,胡礼波,
申请(专利权)人:北京中航路通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。