【技术实现步骤摘要】
适用于海量数据的数据质量分析方法、装置、终端及介质
本申请涉及数据质量分析
,特别是涉及适用于海量数据的数据质量分析方法、装置、终端及介质。
技术介绍
近年以来,随着大数据和人工智能的发展,作为这些先进数据科技的基础资源,用户对原始数据的需求越来越普遍和频繁。在对原始数据进行采集、整合、清洗、转化、应用等过程中,质量不高的数据会对数据仓库的建设以及后续的大数据分析和应用产生极为负面的影响。因此,如何从海量的原始数据中,筛选出可靠的高质量的数据,用于大数据分析及应用,也就成为数据科学中的一个难点。在传统的较小量级的数据质量分析中,通常会采用人工方式来进行处理,例如在数据库客户端对每个数据表和字段执行数据查询和统计,或者将待分析的原始数据导入Excel等表格工具中,应用其内置的公式来进行统计分析。从数据集的角度来说,海量原始数据,每个数据集的大小往往都在亿级及以上,而Excel表格的数据容量,仅仅只在百万级别,其数据量级远不能满足大规模数据质量分析的需要。从数据表和字段的角度来说,大数据应用所对应的原始数据 ...
【技术保护点】
1.一种适用于海量数据的数据质量分析方法,其特征在于,包括:/n通过元数据管理系统获取待分析的数据源;/n读取所述待分析的数据源的元数据描述信息;/n根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;/n获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;/n获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。/n
【技术特征摘要】
1.一种适用于海量数据的数据质量分析方法,其特征在于,包括:
通过元数据管理系统获取待分析的数据源;
读取所述待分析的数据源的元数据描述信息;
根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;
获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;
获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。
2.根据权利要求1所述的方法,其特征在于,所述通过元数据管理系统获取待分析的数据源,其包括:
从一或多类源数据库中获取待分析的源数据的数据描述信息;其中,所述源数据库包括Oracle源、MySQL源、SQLServer源及Excel源中的任意一种或多种的组合;所述数据描述信息包括源数据的库、表、字段信息。
3.根据权利要求1所述的方法,其特征在于,获取数据质量评价指标的用户选择信息,其中的数据质量评价指标包括:数据完整性评价指标、数据准确性评价指标、数据有效性评价指标、数据时效性评价指标以及数据一致性评价指标中的任意一种或多种的组合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类,其包括:
根据读取到的元数据描述信息中的字段信息,将待分析的数据源分为数值型数据、文本型数据或者日期型数据。
5.根据权利要求1所述的方法,其特征在于,所述获取输出形式的用户选择信息,其中的输出形式包括以数据形式输出数据质量分析结果和/或以图形形式输出数据质量分析结果。
6.根据权利要求5所述的方法,其特征在于,所述以数据形式输出数据质量分析结果,包括输出全部数据的汇总统计结果和/或输出全部数据中的高占比数据。<...
【专利技术属性】
技术研发人员:张嘉锐,孙虎,徐旻昕,袁晓夏,刘晋元,崔丽春,吴洁,李敏,王茜,赵燕,
申请(专利权)人:上海科技发展有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。