一种基于大数据的数据质量度量方法技术

技术编号：36708898 阅读：31 留言：0更新日期：2023-03-01 09:34

本发明专利技术涉及数字孪生领域，具体涉及一种基于大数据的数据质量度量方法，包括：获取工业数据仓库中的孪生体数据并进行数据预处理；获取每个时间节点对应的数据量大小差异性，并根据数据量大小差异性对孪生大数据进行时序均匀分区；获取工业数据仓库中的数据属性，并计算所有属性的属性权值，根据属性权值获得每个时序均匀分区的分区质量标签，并根据分区质量标签获取整个数据仓库的时序数据质量曲线；根据时序数据质量曲线获得大数据质量参数；最终根据大数据质量参数选择数字孪生体对应的最佳全生命周期内不同领域的数据仓库数据，并对数字孪生系统进行优化。本发明专利技术相较于现有度量数据质量的方法提高了孪生大数据质量度量的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的数据质量度量方法

[0001]本专利技术涉及数字孪生领域，具体涉及一种基于大数据的数据质量度量方法。

技术介绍

[0002]随着科技的发展，信息化的时代已经到来，数字孪生技术在科技的推动下蓬勃发展，广泛应用于工业领域各个行业。数字孪生技术对于工业制造领域而言是一项十分重要的技术，利用数字孪生技术对相应的工业物理实体建立数字孪生模型，可以全方位的描述、映射、监控、诊断和优化实体在物理场中的过程和行为。而对应的数字孪生模型的建立需要利用多个维度的大数据进行支撑。大数据的质量往往对于数字孪生模型的建立有着较为重要的影响，某个维度的大数据质量较差的情况下，依照该大数据建立的数字孪生模型往往不够准确，对于物理场中的实体、过程和行为的某一个维度的描述、映射、监控、诊断和优化都会造成一定的偏差，大数据的质量较好的情况下建立的数字孪生模型往往更加的准确，不会出现上述的负面影响，所以高质量的大数据是数字孪生系统优化和数字孪生模型建立的一个重要的支撑点。
[0003]现有的技术手段中对于大数据的质量进行度量的时候，往往通...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据质量度量方法，其特征在于，所述方法包括：S1：获取工业数据仓库中的数字孪生数据；S2：分别以不同时间间隔为单位时间节点并根据相邻时间的数据量差异获得每个时间节点对应的数据量大小差异性，根据数据量大小差异性获得时序均匀分区；S3：获取数据仓库中的数据属性，并计算所有属性的属性权值；S4：根据每个时序均匀分区中每个属性出现的个数以及每个属性对应的属性权值获得每个属性相对于前一天的属性波动性；S5:根据每个时序均匀分区中每个属性的个数以及每个属性对应的属性权值获得每个时序均匀分区内数据的标签；根据每个时序均匀分区内数据的标签与属性波动性获得每个时序均匀分区的分区质量标签，并根据分区质量标签获取整个数据仓库数据的时序数据质量曲线；S6：根据时序数据质量曲线获得大数据质量参数；S7：根据大数据质量参数选择对应的最佳数据仓库数据对数字孪生系统进行重新优化以及数字孪生模型的建立。2.根据权利要求1所述的一种基于大数据的数据质量度量方法，其特征在于，所述获得每个时间节点对应的数据量大小差异性，根据数据量大小差异性获得时序均匀分区的步骤包括：以一天作为一个时间节点进行节点对应数据量的大小差异性计算公式为：式中，h1表示以一天作为一个时间节点中的第h1个时间节点，其中H1为以一天作为一个时间节点的最大节点的个数；表示第h1个时间节点中数据仓库中的数据量；表示第h1‑
1个时间节点中数据仓库中的数据量；以两天为一个时间节点的数据量大小差异性D2，依次类推获得其中T∈[1,Δt]，且MAXT表示工业数据仓库中所有的数据的存在天数；当以T天作为一个时间节点其对应的数据量大小差异性D
T
最小时，则以每T天为一个时间节点对所有数据仓库中的数据进行均匀分区。3.根据权利要求1所述的一种基于大数据的数据质量度量方法，其特征在于，所述获取数据仓库中的数据属性的步骤包括：利用命名体识别技术在数据仓库中完成有关数字孪生体的数据的属性提取，获得有关数字孪生体的相关属性A的集合为：A＝{A1,A2…
,A
b
,
…
,A
B
}式中，B表示数据仓库中有关数字孪生体提取出的属性总个数；A
b
表示第b个属性。4.根据权利要求3所述的一种基于大数据的数据质量度量方法，其特征在于，所述计算所有属性的属性权值的步骤包括：对于第b个属性A
b
，其属性权值w
b
为属性A
b
在数据仓库中出现的次数与数据仓库中数字孪生体提取出的属性总个数的比值；计算出所有属性的属性权值。
...

【专利技术属性】
技术研发人员：杨道平，胡礼波，
申请(专利权)人：北京中航路通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人