System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种数据质量管理方法、装置、设备及存储介质。
技术介绍
1、数据质量一直以来都非常重要,不管是在数据采集和整合的过程中,还是在存储过程中都需要严格控制数据的质量,数据质量与精度将影响决策的正确性和后续分析的结果。然而,在钢结构建筑领域,行业标准尚未完全统一,在获取到其他系统不同的异构数据后,需要对其进行规整以达到可用的目的,通常由业务人员介入对数据进行规整,但人工介入通常需要耗费较多时间,且容易出现疏漏,难以全面管理。
2、上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本专利技术的主要目的在于提供一种数据质量管理方法、装置、设备及存储介质,旨在解决现有技术中对于多源异构数据,通过人工介入对数据进行规整通常需要耗费较多时间,且难以全面管理的技术问题。
2、为实现上述目的,本专利技术提供了一种数据质量管理方法,所述方法包括以下步骤:
3、接收来自不同系统的异构数据;
4、基于所述异构数据之间的相似度,过滤所述异构数据中的历史记录数据,得到过滤数据;
5、在所述过滤数据中具有空缺属性时,基于所述空缺属性的重要程度,对所述过滤数据进行补全处理,得到补全数据;
6、基于预设一致性要求,对所述补全数据进行修正,得到一致数据;
7、在所述一致数据通过准确性校验时,将所述一致数据存储于分布式数据库中。
8、可选地,所述基于
9、根据所述异构数据中属性的权重,计算所述异构数据之间的相似度;
10、根据所述异构数据之间的相似度,确定相似数据,所述相似数据之间的相似度大于预设相似度阈值;
11、在所述相似数据中确定保留数据,基于所述保留数据,得到所述过滤数据。
12、可选地,所述根据所述异构数据中属性的权重,计算所述异构数据之间的相似度,包括:
13、根据所述属性的占比,计算所述属性的信息熵;
14、根据所述属性的信息熵,确定所述信息熵在预设区间内的映射值;
15、根据信息熵映射值与权重之间的对应关系以及所述属性的信息熵在预设区间内的映射值,得到所述属性的权重;
16、基于所述异构数据中的属性以及所述属性对应的权重,生成所述异构数据属性向量;
17、根据所述异构数据的属性向量,计算所述异构数据之间属性向量的余弦相似度,得到所述异构数据之间的相似度。
18、可选地,所述基于所述空缺属性的重要程度,对所述过滤数据进行补全处理,得到补全数据,包括:
19、在所述空缺属性的重要程度为第一等级时,获取所述过滤数据中空缺属性的数量;
20、在所述过滤数据中空缺属性的数量大于等于预设数量阈值时,忽略具有所述空缺属性的过滤数据;
21、在所述过滤数据中空缺属性的数量小于预设数量阈值时,基于预设补全策略,对所述空缺属性进行补全处理,得到补全数据,所述预设补全策略至少包括数值补全策略与内容补全策略。
22、可选地,所述基于预设补全策略,对所述空缺属性进行补全处理,得到补全数据,包括:
23、在所述预设补全策略为数值补全策略时,根据参考对象,推测所述空缺属性的数值,补全所述空缺属性,所述参考对象至少包括属性均值、属性中位数、属性众数、相似属性数值、业务知识以及经验数值;
24、在所述预设补全策略为内容补全策略时,根据邻近属性,推演所述空缺属性的内容。
25、可选地,所述数据质量管理方法,还包括:
26、在所述空缺属性的重要程度为第二等级时,忽略具有所述空缺属性的过滤数据,其中,所述第二等级高于所述第一等级。
27、可选地,所述预设一致性要求至少包括量纲一致要求与逻辑一致要求,所述基于预设一致性要求,对所述补全数据进行修正,得到一致数据,包括:
28、根据所述补全数据之间的内在逻辑关系,对所述补全数据之间的矛盾进行修正,以使修正后的补全数据符合所述逻辑一致要求;
29、基于量纲转换策略,将所述补全数据的量纲修正为标准量纲,以使修正后的补全数据符合所述量纲一致要求。
30、此外,为实现上述目的,本专利技术还提出一种数据质量管理装置,所述数据质量管理装置包括:
31、数据接收模块,用于接收来自不同系统的异构数据;
32、数据清洗模块,用于基于所述异构数据之间的相似度,过滤所述异构数据中的历史记录数据,得到过滤数据;
33、所述数据清洗模块,还用于在所述过滤数据中具有空缺属性时,基于所述空缺属性的重要程度,对所述过滤数据进行补全处理,得到补全数据;
34、所述数据清洗模块,还用于基于预设一致性要求,对所述补全数据进行修正,得到一致数据;
35、数据存储模块,用于在所述一致数据通过准确性校验时,将所述一致数据存储于分布式数据库中。
36、此外,为实现上述目的,本专利技术还提出一种数据质量管理设备,所述数据质量管理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质量管理程序,所述数据质量管理程序配置为实现如上文所述的数据质量管理方法的步骤。
37、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有数据质量管理程序,所述数据质量管理程序被处理器执行时实现如上文所述的数据质量管理方法的步骤。
38、在本专利技术中,接收来自不同系统的异构数据,基于异构数据之间的相似度,过滤异构数据中的历史记录数据,得到过滤数据,在过滤数据中具有空缺属性时,基于空缺属性的重要程度,对过滤数据进行补全处理,得到补全数据,基于预设一致性要求,对补全数据进行修正,得到一致数据,在一致数据通过准确性校验时,将一致数据存储于分布式数据库中。相较于完全由人工介入对多源异构数据进行规整,费时费力,且容易出现疏漏,本专利技术可以自动对多源异构数据进行数据过滤、数据补全以及数据一致处理,实现对异构数据的自动规整,在保证数据质量的同时提高数据处理的效率,保证决策的正确性和分析结果的准确性,并且能够实现对海量多源异构数据的分布式存储,即使钢结构行业数据量庞大,多种关系联合查询需求较多,也能够提供快速有效的读取、存储和检索服务。
本文档来自技高网...【技术保护点】
1.一种数据质量管理方法,其特征在于,所述数据质量管理方法,包括:
2.如权利要求1所述的方法,其特征在于,所述基于所述异构数据之间的相似度,过滤所述异构数据中的历史记录数据,得到过滤数据,包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述异构数据中属性的权重,计算所述异构数据之间的相似度,包括:
4.如权利要求1所述的方法,其特征在于,所述基于所述空缺属性的重要程度,对所述过滤数据进行补全处理,得到补全数据,包括:
5.如权利要求4所述的方法,其特征在于,所述基于预设补全策略,对所述空缺属性进行补全处理,得到补全数据,包括:
6.如权利要求4所述的方法,其特征在于,所述数据质量管理方法,还包括:
7.如权利要求1至6任一项所述的方法,其特征在于,所述预设一致性要求至少包括量纲一致要求与逻辑一致要求,所述基于预设一致性要求,对所述补全数据进行修正,得到一致数据,包括:
8.一种数据质量管理装置,其特征在于,所述数据质量管理装置包括:
9.一种数据质量管理设备,其特征在于,所述
10.一种存储介质,其特征在于,所述存储介质上存储有数据质量管理程序,所述数据质量管理程序被处理器执行时实现如权利要求1至7所述的数据质量管理方法的步骤。
...【技术特征摘要】
1.一种数据质量管理方法,其特征在于,所述数据质量管理方法,包括:
2.如权利要求1所述的方法,其特征在于,所述基于所述异构数据之间的相似度,过滤所述异构数据中的历史记录数据,得到过滤数据,包括:
3.如权利要求2所述的方法,其特征在于,所述根据所述异构数据中属性的权重,计算所述异构数据之间的相似度,包括:
4.如权利要求1所述的方法,其特征在于,所述基于所述空缺属性的重要程度,对所述过滤数据进行补全处理,得到补全数据,包括:
5.如权利要求4所述的方法,其特征在于,所述基于预设补全策略,对所述空缺属性进行补全处理,得到补全数据,包括:
6.如权利要求4所述的方法,其特征在于,所述数据质量管理方法,...
【专利技术属性】
技术研发人员:张伟谋,侯芳,陈钦,聂聪,
申请(专利权)人:钢构管家湖北网络服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。