基于数据分布波动率的数据一致性评估方法技术

技术编号：24010521 阅读：18 留言：0更新日期：2020-05-02 01:35

本发明专利技术公开一种基于数据分布波动率的数据一致性评估方法，应用于大数据分析处理领域，针对现有技术无法找出业务系统bug或者etl过程中出现错误导致一些数据丢失或者修改错误的问题；本发明专利技术首先，根据时间戳字段，将待测数据分为历史数据和当前数据；然后，分析待测数据中不同的值模式当前的占比与过去的占比，并将占比的变化幅度与给定的阈值比较；如果某数据存在值模式占比变化幅度大于阈值，则认为该数据存在一致性问题；否则数据正常；本发明专利技术的方法可以快速有效地找出业务系统bug或者etl过程中出现错误导致一些数据丢失或者修改错误。

Data consistency evaluation method based on data distribution volatility

全部详细技术资料下载

【技术实现步骤摘要】
基于数据分布波动率的数据一致性评估方法
本专利技术属于大数据分析处理领域，特别涉及一种对结构化数据的一致性评估技术。
技术介绍
结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据，包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理，广泛应用于全文检索和各种多媒体信息处理领域。随着信息技术的发展，各部门及企事业单位纷纷建设数据中心。由于数据来源的数据质量水平未知，etl(ExtractTransformLoading，数据抽取转化装载规则)过程错误等总是会出现数据不一致的现象。数据一致性是数据质量评估的一个维度，侧重评估数据变更或变异的程度。目前市面上通常仅仅评估字段内数据格式一致性来评估数据一致性。事实上，仅仅评估字段内数据格式一致无法解决如下问题：业务系统bug或者etl过程中出现错误导致一些数据丢失或者修改错误。通常的评估方法无法找出这样异常的数据。
技术实现思路
为解决上述技术问题，本专利技术提出一种基于数...

【技术保护点】
1.一种基于数据分布波动率的数据一致性评估方法，其特征在于，首先，根据时间戳字段，将待测数据分为历史数据和当前数据；然后，分析待测数据中不同的值模式当前的占比与过去的占比，并将占比的变化幅度与给定的阈值比较；如果某数据存在值模式占比变化幅度大于阈值，则认为该数据存在一致性问题；否则数据正常。/n

【技术特征摘要】
1.一种基于数据分布波动率的数据一致性评估方法，其特征在于，首先，根据时间戳字段，将待测数据分为历史数据和当前数据；然后，分析待测数据中不同的值模式当前的占比与过去的占比，并将占比的变化幅度与给定的阈值比较；如果某数据存在值模式占比变化幅度大于阈值，则认为该数据存在一致性问题；否则数据正常。

2.根据权利要求1所述的一种基于数据分布波动率的数据一致性评估方法，其特征在于，所述模式值占比计算式为：

其中，∑x＝k1用于统计等于某个值的数...

【专利技术属性】
技术研发人员：唐雪飞，蒲高飞，黄永鑫，王东方，胡茂秋，
申请(专利权)人：成都康赛信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人