一种监控数据清洗质量的方法及系统技术方案

技术编号:18445020 阅读:36 留言:0更新日期:2018-07-14 10:25
本发明专利技术公开了一种监控数据清洗质量的方法,所述数据基于订单生成,所述方法包括以下步骤:S10:基于已清洗的所述数据还原订单信息;S20:基于所述订单信息统计订单指标;S30:基于所述订单指标生成订单报表;S40:基于所述订单报表监控所述数据清洗质量。所述订单指标包括商户信息、订单总量、总人数、用户覆盖度、逾期率、首逾订单数、首逾M1订单数、M1、M2、M3、每日订单增量、每日订单人数增量、日新增用户量、周新增用户量、月新增用户量的至少其中之一。此外,还公开了相应的系统。本发明专利技术能有效监控数据尤其是底层交易支付数据的清洗质量,以利于对清洗质量异常的数据尤其是底层交易支付数据及时采取对应措施。

A method and system for monitoring the quality of data cleaning

The present invention discloses a method for monitoring the quality of data cleaning, which is based on order generation, and the method includes the following steps: S10: restore order information based on the cleaned data; S20: Based on the order information to statistics order index; S30: Based on the order index, the order report is generated; S40: Based on the order information. The order report monitors the quality of the data cleaning. The order index includes business information, total number of orders, total number, user coverage, overdue rate, first over order number, first over M1 order number, M1, M2, M3, daily order increment, daily order increment, daily new user, Zhou Xinzeng user, monthly new user quantity at least one of them. In addition, the corresponding system is also disclosed. The invention can effectively monitor the cleaning quality of data, especially the underlying transaction payment data, in order to facilitate the timely adoption of corresponding measures for the data of abnormal cleaning quality, especially the underlying transaction payment data.

【技术实现步骤摘要】
一种监控数据清洗质量的方法及系统
本专利技术涉及一种监控数据质量的方法及系统,尤其涉及一种监控数据清洗质量的方法及系统。
技术介绍
信用卡携带方便,使用便捷,又有一定的透支额度,一直是公众喜爱的传统银行产品之一,而第三方支付兴起后,两者所代表的传统银行业和互联网金融业之间竞争激烈。不过,随着时间的推进,这两款金融产品在某些方面却在慢慢融合。随着互联网金融的快速发展,各家银行都在不断加快在互联网金融上的布局,而支撑这个互联网金融运转的一定是征信系统,利用互联网大数据、云计算等技术,多维度地给用户进行评级,包括更多的银行会依托大数据征信和自己传统累积的数据源做交叉验证风控。这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突等问题,数据清洗是对数据进行重新审查和校验的过程,数据清洗的任务是过滤不符合要求的数据,删除重复信息、纠正存在的错误,并提供数据一致性。对第三方支付而言,大数据征信首先需要对底层交易支付数据进行清洗,以还原出准确的订单信息,而底层交易支付数据清洗的质量对还原出的订单信息的准确性有很大的影响。因此,如何有效监控底层交易支付数据的清洗质量,以对清洗质量异常的底层交易支付数据及时采取对应措施,成为一个函待解决的关键问题。
技术实现思路
针对目前存在的问题,本专利技术提供了一种监控数据清洗质量的方法及系统,其能有效监控数据尤其是底层交易支付数据的清洗质量,以利于对清洗质量异常的数据尤其是底层交易支付数据及时采取对应措施。本专利技术第一个方面提供了一种监控数据清洗质量的方法,所述数据基于订单生成,所述方法包括以下步骤:S10:基于已清洗的所述数据还原订单信息;S20:基于所述订单信息统计订单指标;S30:基于所述订单指标生成订单报表;S40:基于所述订单报表监控所述数据清洗质量。本专利技术所述的监控数据清洗质量的方法,其利用所述已清洗的所述数据与订单信息的内在关系还原订单信息,并基于还原的订单信息统计订单指标,该订单指标以订单报表的形式展示给决策者,决策者基于订单报表监控所述数据清洗质量。该方法将已清洗的所述数据转化为相应的订单指标,而订单指标从大数据统计上是符合一定的统计规律的,因此可以根据订单指标偏离统计规律的程度判断订单指标是否出现异常,而订单指标出现异常通常是清洗质量的不合格所导致的,从而可以通过监测所述订单指标的异常监测所述数据的清洗质量。因此,本专利技术方法能有效监控数据的清洗质量,以利于对清洗质量异常的数据及时采取对应措施。进一步地,本专利技术所述的监控数据清洗质量的方法中,所述数据包括底层交易支付数据。上述方案中,所述订单通常通过第三方支付平台处理并在第三方支付平台中生成相应的底层交易支付数据。进一步地,本专利技术所述的监控数据清洗质量的方法的步骤S20中,所述订单指标包括多个字段,所述字段包括:商户信息、订单总量、总人数、用户覆盖度、逾期率、首逾订单数、首逾M1订单数、M1、M2、M3、每日订单增量、每日订单人数增量、日新增用户量、周新增用户量、月新增用户量的至少其中之一。上述方案中:所述商户信息通常包括商户名称、商户规模、商户成立时间等信息。所述用户覆盖度是指计入统计的用户数占全体用户数的比例。所述逾期率即逾期贷款率,是指逾期贷款占全部贷款的比例。所述首逾订单数是指第一次逾期未还款的订单数量。所述首逾M1订单数是指第一次逾期在M1时段未还款的订单数量。所述M1是指M1时段,是M0时段的延续,所述M0时段是最后缴款日的第二天到下一个账单日;所述M1时段是在未还款的第二个账单日到第二次账单的最后缴款日之间。所述M2是指M2时段,是M1的延续,即在未还款的第三个账单日到第三次账单的最后缴款日之间。所述M3是指M3时段,是M2的延续,即在未还款的第四个账单日到第四次账单的最后缴款日之间。进一步地,本专利技术所述的监控数据清洗质量的方法的步骤S30中,所述订单报表包括不定时清洗监控报告、定时清洗监控报告,所述不定时清洗监控报告优选为可以查看任意时间的清洗数据,所述定时清洗监控报告包括日报表、周报表、月报表的至少其中之一。上述方案中,专利技术人设计对应的报表监控体系,从不同维度和指标层面监控数据清洗的质量。其中,通常所有报表可以选择所关注的订单指标、时间段和商户。进一步地,本专利技术所述的监控数据清洗质量的方法的步骤S40中,还通过BI系统调用所述订单报表,以基于所述订单报表监控所述数据清洗质量。上述方案中,BI是商业智能(BusinessIntelligence)的英文缩写。目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商务智能系统中的数据来自企业其他业务系统。专利技术人利用BI系统调用所述订单报表,从而有助于对数据清洗质量的精准判断。更进一步地,上述监控数据清洗质量的方法的步骤S40中,所述订单报表的更新方式为t+1更新。上述方案中,所述t+1更新是指延迟一个时间段更新,例如1天。更进一步地,上述监控数据清洗质量的方法的步骤S40中,所述订单报表以图表形式展示。上述方案中,所述图表展示有利于数据清洗质量的判断。进一步地,本专利技术所述的监控数据清洗质量的方法的步骤S40中,根据所述订单报表中订单指标与其统计均值的差异程度判断所述数据清洗质量。更进一步地,上述监控数据清洗质量的方法的步骤S40中,所述统计均值的统计来源范围为相应的商户数据。上述方案中,所述商户通常具有自己个性的行为特征,因此可以以商户为单位作为统计来源范围。更进一步地,上述监控数据清洗质量的方法的步骤S40中,所述统计均值的统计时间范围为预设的动态时间窗口。上述方案中,通过动态时间窗口排除较老的数据,以适应目前的行为规律。更进一步地,上述监控数据清洗质量的方法的步骤S40中,所述差异程度为20%以上、优选为10%以上、更有选为5%以上判断为清洗质量异常。本专利技术的一种优选实施例中,所述监控数据清洗质量的包括:S10:基于已清洗的所述数据还原订单信息;S20:基于所述订单信息统计订单指标;S30:基于所述订单指标生成订单报表;S40:基于所述订单报表监控所述数据清洗质量;如果发现清洗结果不符合预期,则生成重新进行数据清洗的指令;如果清洗结果符合预期,则发送给BI系统。本专利技术的一种优选实施例中,所述监控数据清洗质量的包括:S10:基于已清洗的所述数据还原订单信息;S20:基于所述订单信息统计订单指标;S30:基于所述订单指标生成订单报表;S40:基于所述订单报表监控所述数据清洗质量;如果发现清洗结果不符合预期,则生成重新进行数据清洗的指令;如果清洗结果符合预期,则发送给BI系统;通过BI系统进一步判断清洗质量,如果判断清洗结果不符合预期,则生成重新进行数据清洗的指令。其中,所述清洗结果是否符合预期的判断方法为:预设一个或多个字段的清洗预期值、以及清洗结果偏差阈值;将清洗结果与所述清洗预期值进行对比,判断是否在阈值范围内,如果超出阈值范围,则判断为清洗结果异常;其中,所述清洗结果偏差=(清洗预期值-清洗结果)/清洗预期值;和/或,所述清洗结果是否符合预期的判断方法为:预设一个或多个字段的清洗预期值,如果清洗结果与所述清洗预期值正负相反,则判断为清洗结果异常。其中,本文档来自技高网...

【技术保护点】
1.一种监控数据清洗质量的方法,所述数据基于订单生成,其特征在于,所述方法包括以下步骤:S10:基于已清洗的所述数据还原订单信息;S20:基于所述订单信息统计订单指标;S30:基于所述订单指标生成订单报表;S40:基于所述订单报表监控所述数据清洗质量。

【技术特征摘要】
1.一种监控数据清洗质量的方法,所述数据基于订单生成,其特征在于,所述方法包括以下步骤:S10:基于已清洗的所述数据还原订单信息;S20:基于所述订单信息统计订单指标;S30:基于所述订单指标生成订单报表;S40:基于所述订单报表监控所述数据清洗质量。2.如权利要求1所述的监控数据清洗质量的方法,其特征在于:步骤S20中,所述订单指标包括多个字段,所述字段包括:商户信息、订单总量、总人数、用户覆盖度、逾期率、首逾订单数、首逾M1订单数、M1、M2、M3、每日订单增量、每日订单人数增量、日新增用户量、周新增用户量、月新增用户量的至少其中之一。3.如权利要求1所述的监控数据清洗质量的方法,其特征在于:步骤S30中,所述订单报表包括不定时清洗监控报告、定时清洗监控报告,所述不定时清洗监控报告优选为可以查看任意时间的清洗数据,所述定时清洗监控报告包括日报表、周报表、月报表的至少其中之一。4.如权利要求1所述的监控数据清洗质量的方法,其特征在于:步骤S40中,还通过BI系统调用所述订单报表,以基于所述订单报表监控所述数据清洗质量。5.如权利要求4所述的监控数据清洗质量的方法,其特征在于:步骤S40中基于所述订单报表监控所述数据清洗质量;如果发现清洗结果不符合预期,则生成重新进行数据清洗的指令;如果清洗结果符合预期,则发送给BI系统。6.如权利要求5所述的监控数据清洗质量的方法,...

【专利技术属性】
技术研发人员:尤程瑶
申请(专利权)人:上海新颜征信服务有限公司
类型:发明
国别省市:上海,31

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1