System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据质量分析,具体为基于大数据的质量分析方法及系统。
技术介绍
1、随着企业业务的开拓发展,所涉及到的数据也越来越多,对于企业来说,数据的分析、挖掘的目的是企图发现数据中隐藏的知识和信息,从而对实际业务或产品进行优化,如果数据集本身质量不佳,自然很难得出有用的结论,甚至对企业决策造成一些不好的影响,因此,若是在企业数据进行分析之前,对企业数据质量进行分析评估,随后企业根据评估结果进行下一步的操作,既可以提高工作效率,又能保证基于企业数据的决策分析具有很高的参考性,因此,设计完整的数据评估体系和数据分析准确的的基于大数据的质量分析方法及系统是很有必要的。
技术实现思路
1、本专利技术的目的在于提供基于大数据的质量分析方法及系统,以解决上述
技术介绍
中提出的问题。
2、为了解决上述技术问题,本专利技术提供如下技术方案:基于大数据的质量分析系统,该系统的运行方法包括以下步骤:
3、步骤一:对数据进行质量检测,实现多维度的质量评估;
4、步骤二:构建数据权重体系,对数据整体质量进行可用性分析;
5、步骤三:通过数据关联性分析,进一步判断数据实用性;
6、步骤四:通过数据质量评估体系的构建,实现工作效率的提升。
7、根据上述技术方案,所述对数据进行质量检测,实现多维度的质量评估的步骤,包括:
8、将企业数据上传至大数据分析平台,
9、通过isnull以及not null函数对数据进行空
10、使用kendall协调系数检测数据的一致性,
11、对属性值进行一个描述性的统计,查找不合理数值,
12、对各维度不合理数据进行统计,并计算合理数据所占比例。
13、根据上述技术方案,所述构建数据权重体系,对数据整体质量进行可用性分析的步骤,包括:
14、进行权重比分配,
15、将数据各维度的检测结果与权重值的积作为该数据的整体评估结果,
16、实现数据质量可用性评估。
17、根据上述技术方案,所述进行权重比分配的步骤,包括:
18、权重值系数大小与数据的种类相关,针对实时数据,数据的及时性所占权重比应大于其他部分,反之,数据的完整性与准确性所占权重值更大。
19、根据上述技术方案,所述实现数据质量可用性评估的步骤,包括:
20、计算出数据的整体质量水平z,z≥90%,则代表数据质量合格,z≤90%时,则说明数据的准确度与完整度较小,使用此数据为企业发展作分析,则会存在很大的风险性。
21、根据上述技术方案,所述通过数据关联性分析,进一步判断数据实用性的步骤,包括:
22、选取企业数据中包含的属性,
23、利用皮尔逊相关系数进行判断,
24、根据皮尔逊相关系数计算结果所处的区间,实现数据实用性评估。
25、根据上述技术方案,所述利用皮尔逊相关系数进行判断的步骤,包括:
26、其中与分别表示两者的样本均值,r的取值范围为[-1,1],根据最终计算结果,对r取绝对值,当|r|=[0,0.39]时,其相关性较弱,分析价值较小,当|r|=[0.40,0.59]时,其相关性中等,对数据的分析可做辅助参考,当|r|=[0.60,1]时,其属性之间皮尔逊相关系数判断相关性强,分析结果可为企业运营做出决策。
27、根据上述技术方案,所述通过数据质量评估体系的构建,实现工作效率的提升的步骤,包括:
28、通过对数据进行数据清理以及维度权重计算,进而实现对数据可用性评估,权重占比与数据各属性的重要性有关,若数据内部存在多个属性,则接着对数据进行实用性评估,其评估目的则是判断数据之间有无关联性,当企业上传数据至大数据平台后,平台针对数据进行质量评估,节省企业时间,避免了因数据存在缺陷而导致分析结果不准确,从而给企业带来损失的状况发生。
29、根据上述技术方案,所述该系统包括:
30、数据多维度计算模块,用于对数据各维度质量进行计算,
31、可用性评估模块,用于对数据的可用性进行评估,
32、实用性评估模块,用于对数据的实用性进行评估分析。
33、根据上述技术方案,所述可用性评估模块包括:
34、权重值分配模块,用于根据数据维度重要程度进行权重系数分配,
35、可用性计算模块,用于计算数据的可用性,
36、可用性划分模块,用于根据可用性计算结果来判断数据是否可用。
37、与现有技术相比,本专利技术所达到的有益效果是:本专利技术,通过设置有数据多维度计算模块、可用性评估模块、实用性评估模块,通过对数据的维度进行计算,随后根据数据的类型不同,设置不同的权重系数,将权重系数与各维度计算结果相乘,若最后结果小于90%,则说明该企业数据质量差,分析结果容易出现较大误差,当数据质量合格后,则对多属性数据进行相关性分析,若属性之间毫无关联,则说明该企业数据无法进行多方位分析,只能适用于单属性分析,该方法提前对数据进行质量评估,防止出现因数据不准确,而出现企业决策误判的现象。
本文档来自技高网...【技术保护点】
1.基于大数据的质量分析方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于大数据的质量分析方法,其特征在于:所述对数据进行质量检测,实现多维度的质量评估的步骤,包括:
3.根据权利要求1所述的基于大数据的质量分析方法,其特征在于:所述构建数据权重体系,对数据整体质量进行可用性分析的步骤,包括:
4.根据权利要求3所述的基于大数据的质量分析方法,其特征在于:所述进行权重比分配的步骤,包括:
5.根据权利要求3所述的基于大数据的质量分析方法,其特征在于:所述实现数据质量可用性评估的步骤,包括:
6.根据权利要求1所述的基于大数据的质量分析方法,其特征在于:所述通过数据关联性分析,进一步判断数据实用性的步骤,包括:
7.根据权利要求6所述的基于大数据的质量分析方法,其特征在于:所述利用皮尔逊相关系数进行判断的步骤,包括:
8.根据权利要求1所述的基于大数据的质量分析方法,其特征在于:所述通过数据质量评估体系的构建,实现工作效率的提升的步骤,包括:
9.基于大数据的质量分析方
10.根据权利要求9所述的基于大数据的质量分析系统,其特征在于:所述可用性评估模块包括:
...【技术特征摘要】
1.基于大数据的质量分析方法,其特征在于:该方法包括以下步骤:
2.根据权利要求1所述的基于大数据的质量分析方法,其特征在于:所述对数据进行质量检测,实现多维度的质量评估的步骤,包括:
3.根据权利要求1所述的基于大数据的质量分析方法,其特征在于:所述构建数据权重体系,对数据整体质量进行可用性分析的步骤,包括:
4.根据权利要求3所述的基于大数据的质量分析方法,其特征在于:所述进行权重比分配的步骤,包括:
5.根据权利要求3所述的基于大数据的质量分析方法,其特征在于:所述实现数据质量可用性评估的步骤,包括:
...【专利技术属性】
技术研发人员:姜有祥,
申请(专利权)人:郑州怀坞网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。