基于机器学习来预测数据审核目标的方法及系统技术方案

技术编号:21572592 阅读:20 留言:0更新日期:2019-07-10 15:40
提供了一种基于机器学习来预测数据审核目标的方法及系统。所述方法包括:(A)获取待审核数据记录和至少一条验证数据记录;(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征,其中,所述属性真实度特征用于衡量所述至少一个属性信息的真实程度;(C)利用基于机器学习而训练出的目标预测模型,根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果,其中,所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。通过上述方式,能够克服现有的数据审核方式耗费人力的缺陷。

A Method and System for Predicting Data Audit Objectives Based on Machine Learning

【技术实现步骤摘要】
基于机器学习来预测数据审核目标的方法及系统本申请是申请日为2016年6月13日、申请号为201610420714.7、题为“基于机器学习来预测数据审核目标的方法及系统”的专利申请的分案申请。
本专利技术总体说来涉及数据科学领域,更具体地说,涉及一种基于机器学习来预测数据审核目标的方法及系统。
技术介绍
在现实生活中,常常需要对诸如客户信息、项目信息、资产信息、交易信息等各种数据进行审核,以基于审核结果来作出业务判断。例如,在诸如申请事务、办理交易、报名活动等各种场景中,会产生(手动填写或通过其他方式来产生)关于身份、资产、联系信息、事务特性、交易特性或活动特性等各种属性信息。相应地,有关单位、组织和机构等需对这些信息数据进行审核,从而作出关于申请是否合规、交易是否合法或是否准许参加活动等的业务判断。以申请信用卡作为示例,有关方面会审核申请者填写的信息数据是否真实准确,以判断出申请者是否涉及欺诈行为。通常,为了审核出信用卡申请者是否为期望不当获利的欺诈客户,信用卡中心的工作人员会人工核实申请者填写的工作单位、职务、收入、联系电话等信息是否准确。具体说来,工作人员需要首先核查工作单位的信息是否有效,然后联络该单位的相关负责人员以询问申请者的真实职务和收入等。此外,工作人员还需要手动拨打申请者或其紧急联系人的联系电话以核实该号码是否属于申请者或其紧急联系人本人等。从上述示例可以看出,传统的审核方式需要耗费较大的人力成本,而且被审核主体可以通过串通等方式轻易地迷惑审核人员,从而达到不正当的目的。
技术实现思路
本专利技术的示例性实施例旨在克服现有的数据审核方式耗费人力的缺陷。根据本专利技术的示例性实施例,提供一种基于机器学习来预测数据审核目标的方法,包括:(A)获取待审核数据记录和至少一条验证数据记录,其中,所述待审核数据记录包括关于待审核项的各个属性的属性信息,数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断,所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息;(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征,其中,所述属性真实度特征用于衡量所述至少一个属性信息的真实程度;(C)利用基于机器学习而训练出的目标预测模型,根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果,其中,所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。可选地,在所述方法中,所述至少一条验证数据记录可分别产生自各个数据源和/或抽取自所述待审核数据记录。可选地,在所述方法中,步骤(B)可包括:(B1)基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息;(B2)针对所述每一个属性,分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异,并且,基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。可选地,在所述方法中,在步骤(B2)中,可通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。可选地,在所述方法中,在步骤(B1)中,可将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型,以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。可选地,在所述方法中,在步骤(B1)中,可将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。可选地,在所述方法中,在步骤(B1)中,在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下,可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息;并且,在所述验证数据记录本身不包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下,可将所述验证数据记录输入所述任一属性验证模型。可选地,在所述方法中,在步骤(B1)中,在将输入任一属性验证模型的产生自各个数据源的验证数据记录本身包括关于所述任一属性验证模型将预测的预测属性信息所涉及的属性的属性信息的情况下,在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异未超出预设的时间间隔时,可将所述验证数据记录本身所包括的所述属性信息作为所述任一属性验证模型将预测的预测属性信息;在生成所述验证数据记录的时间点与生成待审核数据记录的时间点之间的差异超出所述时间间隔时,可将所述验证数据记录输入所述任一属性验证模型。优选地,在步骤(C)之后,所述方法可还包括:(D)将预测结果连同属性真实度特征展示给用户。优选地,在所述方法中,在步骤(D)中,可向用户展示与属性真实度特征之中的较大差异相应的属性信息和关于所述属性信息的预测属性信息;并且/或者,可向用户展示与属性真实度特征之中起主要预测作用的差异相应的属性信息和关于所述属性信息的预测属性信息。优选地,在所述方法中,在步骤(D)中,可将所展示的预测属性信息显示在所述预测属性信息的统计分布示图中。优选地,在步骤(D)之后,所述方法可还包括:(E)从用户接收关于数据审核目标的实际结果的反馈,其中,所述反馈被用于训练目标预测模型和/或属性验证模型。优选地,在所述方法中,在步骤(C)中,可根据计算出的属性真实度特征连同基于待审核数据记录的至少一部分属性信息得到的属性特征来获取待审核数据记录关于数据审核目标的预测结果。根据本专利技术的另一示例性实施例,提供一种基于机器学习来预测数据审核目标的系统,包括:数据获取装置,用于获取待审核数据记录和至少一条验证数据记录,其中,所述待审核数据记录包括关于待审核项的各个属性的属性信息,数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断,所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息;属性验证装置,用于基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征,其中,所述属性真实度特征用于衡量所述至少一个属性信息的真实程度;目标预测装置,用于利用基于机器学习而训练出的目标预测模型,根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果,其中,所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。优选地,在所述系统中,所述至少一条验证数据记录可分别产生自各个数据源和/或抽取自所述待审核数据记录。优选地,在所述系统中,属性验证装置可基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息;并且,属性验证装置可针对所述每一个属性,分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异,并基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。优选地,在本文档来自技高网...

【技术保护点】
1.一种基于机器学习来预测数据审核目标的方法,包括:(A)获取待审核数据记录和至少一条验证数据记录,其中,所述待审核数据记录包括关于待审核项的各个属性的属性信息,数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断,所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息;(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征,其中,所述属性真实度特征用于衡量所述至少一个属性信息的真实程度;(C)利用基于机器学习而训练出的目标预测模型,根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果,其中,所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。

【技术特征摘要】
1.一种基于机器学习来预测数据审核目标的方法,包括:(A)获取待审核数据记录和至少一条验证数据记录,其中,所述待审核数据记录包括关于待审核项的各个属性的属性信息,数据审核目标是指通过对待审核数据记录所包括的属性信息进行审核而作出的业务判断,所述至少一条验证数据记录用于验证所述属性信息之中关于所述各个属性之中的至少一个属性的至少一个属性信息;(B)基于所述至少一条验证数据记录来计算待审核数据记录的属性真实度特征,其中,所述属性真实度特征用于衡量所述至少一个属性信息的真实程度;(C)利用基于机器学习而训练出的目标预测模型,根据计算出的属性真实度特征来获取待审核数据记录关于数据审核目标的预测结果,其中,所述目标预测模型被训练为基于属性真实度特征来预测关于相应的待审核数据记录的数据审核目标。2.如权利要求1所述的方法,其中,步骤(B)包括:(B1)基于所述至少一条验证数据记录来预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息;(B2)针对所述每一个属性,分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异,并且,基于针对所述至少一个属性计算出的所有差异的集合来获得待审核数据记录的属性真实度特征。3.如权利要求2所述的方法,其中,在步骤(B2)中,通过基于所述每一个属性的属性信息分别与预测出的所述至少一个预测属性信息之间的差值各自的统计分布特性来分别计算所述每一个属性的属性信息与预测出的所述至少一个预测属性信息之间的差异。4.如权利要求2所述的方法,其中,在步骤(B1)中,将所述至少一条验证数据记录分别输入基于机器学习而训练出的至少一个属性验证模型,以预测关于所述至少一个属性之中的每一个属性的至少一个预测属性信息。5.如权利要求2所述的方法,其中,在步骤(B1)中,将产生自各个数据源的验证数据记录本身包括的关于所述至少一个属性之中的每一个属性的至少一个属性信息作为关于所述每一个属性的至少一个预测属性信息。6.如权利要求1或4所述的方法,在步骤(C)之后,还包括:(D)将预测结果连同属性真实度特征展示给用户。7.如权利要求6所述的方法,在步骤(D)之后,还包括:(E...

【专利技术属性】
技术研发人员:黄晶涂威威陈雨强
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1