【技术实现步骤摘要】
一种面向电力行业业务系统的数据质量评价方法和设备
本专利技术的实施例一般涉及计算机数据处理领域,并且更具体地,涉及一种面向电力行业业务系统的数据质量评价方法和设备。
技术介绍
随着信息技术的发展,数据的规模正在高速增长。在数据量增不断增长的同时,数据中普遍存在质量问题。数据的质量可以用六个特性来刻画,即数据一致性、数据完整性、数据精确性、数据时效性、数据实体同一性和数据不确定性。其中,数据完整性和数据一致性是刻画数据质量的最重要的关键指标。为了提升系统响应速度与开发效率,越来越多的开发人员选择忽略关系型数据库中的主外键约束。这使得不同表中的相同数据无法及时准确的同步,数据质量显著降低,无法支撑企业级的大数据分析与应用。企业不得不花费大量的时间和精力开展数据治理工作。由于主外键关系的缺失,数据治理工作人员也无法获取表与表之间的关联关系,只能通过与开发人员的沟通和业务的梳理来获取关联关系。这样的方法效率极低,随着数据的增长,这样的方法也难以维系,并且难以对数据治理工作的成效进行量化评估。对于数据完整性评估方法的研 ...
【技术保护点】
1.一种面向电力行业业务系统的数据质量评价方法,其特征在于,包括:/n通过数据库完整性评价指标值对数据库的完整性进行评价,得到完整性评价结果;/n通过主外键关系筛选方法对数据库的一致性进行评价,得到一致性评价结果;/n根据完整性评价结果和一致性评价结果对数据库进行综合评价。/n
【技术特征摘要】
1.一种面向电力行业业务系统的数据质量评价方法,其特征在于,包括:
通过数据库完整性评价指标值对数据库的完整性进行评价,得到完整性评价结果;
通过主外键关系筛选方法对数据库的一致性进行评价,得到一致性评价结果;
根据完整性评价结果和一致性评价结果对数据库进行综合评价。
2.根据权利要求1所述的方法,其特征在于,所述通过数据库完整性评价指标值对数据库的完整性进行评价,包括:
从第一功能表中读取第一字段,所述第一字段为数据表中包含的总记录数;从第二功能表中读取第二字段和第三字段,并根据第二字段建立数据表与字段的所属关系;所述第二字段表示用户可见的字段所属的数据表的名称;所述第三字段为数据表中每个字段包含的空值数;
从数据库中读取一数据表,累加所述数据表的第三字段的值,得到所述数据表的none值数量;计算去除全空字段的none值数量和满字段记录数;
遍历所述数据库中的全部数据表,将得到的数据指标值进行累加,计算数据库全空字段比例、数据库满字段记录比例、数据库none值比例和数据库去除全空字段的none值比例,对所述数据库的完整性进行评价。
3.根据权利要求2所述的方法,其特征在于,所述计算去除全空字段的none值数量,包括:
Q=P-M*N
其中,Q为数据表中去除全空字段的none值数量;P为数据表中none值数量;M为数据表中全空字段数量;N为数据表中总记录数;
所述满字段记录数为:
K=N-F
其中,K为数据表中满字段记录数;N为数据表中总记录数;F为数据表中非满字段记录数;所述非满字段记录数为数据表中包含空值的字段中的总记录数。
4.根据权利要求2所述的方法,其特征在于,所述将得到的数据值进行累加,包括:
将各数据表字段数进行累加,得到数据库总字段数;
将各数据表字段数与记录数的乘积进行累加,得到数据库数值总数;
将各数据表总记录数进行累加,得到数据库总记录数;
将各数据表none值数量进行累加,得到数据库none值数量;
将各数据表去除全空字段的none值数量进行累加,得到数据库去除全空字段none值数量;
将各数据表满字段记录数进行累加,得到数据库满字段记录数;
将各数据表去除全空字段后的数值进行累加,得到数据库去除全空字段后的数值总数;所述去除全空字段后的数值为:
H=(R-M)*N
其中,H为数据表中去除全空字段后的数值;R为数据表中的字段数;M为数据表中全空字段数量;N为数据表中总记录数。
5.根据权利要求2所述的方法,其特征在于,所述计算数据库全空字段比例、数据库满字段记录比例、数据库none值比例和数据库去除全空字段的none值比例,包括:
所述数据库全空字段比例为数据库全空字段数与数据库总字段数的比值;
所述数据库满字段记录比例为数据库满字段记录数与数据库总记录数的比值;
所述数据库none值比例为数据库none值数量与数据库数值总数的比值;
所述数据库去除全空字段的none值比例为数据库去除全空字段none值数量与数据库去除全空字段后的数值总数的比值。
6.根据权利要求2所述的方法,其特征在于,所述对所述数据库的数据完整性进行评价,包括...
【专利技术属性】
技术研发人员:许博,
申请(专利权)人:沈阳京华博瑞科技有限公司,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。