The present invention provides a method and system for multiple data sources of anti fraud, and the method comprises the following steps: collecting data from multiple data sources; data on the pre processing of multiple data sources for data preprocessing in a unified format, the pretreatment data corresponding to P dimensional random variables; the use of nuclear smooth method to estimate local conditions to establish the covariance matrix, then to obtain the conditional covariance matrix is consistent with P dimensional random variables using the threshold value selection; through the conditional covariance matrix estimation and analysis of user behavior. The invention can extract useful data from a large amount of data to evaluate whether the user is a legitimate user, thereby reducing the possibility of being defrauded, thereby protecting the interests of the user and improving the user experience.
【技术实现步骤摘要】
一种多数据源防欺诈的方法和系统
本专利技术涉及大数据
,尤其涉及一种基于条件协方差矩阵的多数据源防欺诈的方法和系统。
技术介绍
诚信是中华民族的传统的美德,但当下不诚信的人、不诚信的事出现的频率越来越高,已经对人们的生活造成了巨大的影响,因此公民诚信系统的建立显得迫在眉睫。现有技术中,人民银行的征信系统对有业务来往的客户建立诚信系统,为其他银行提供信用参照。公安部对每个公民建立户籍系统并建立案底档案,教育部对每个受教育者建立教育档案,其他民间机构也对相应个体建立相关方面的档案资料。实际操作中,各大银行可以根据征信系统来提供借贷服务,铁道部可以通过户籍系统来实现实名制,公安局可以通过互联网来追捕逃犯,教育部可以通过学生档案来实现升学等等。现有技术的缺点是只能针对采集的数据对个人目前某个方面状态进行评估,而不能对从整体上来评估一个人。还有现有技术在局部征信只能面对大企业或者行政机构,不能点对点的实现诚信的评估。大数据技术是近些年新兴的科学技术,其逐渐应用于社会的各行各业。在大数据的框架下,有用的数据在大量的数据下被掩盖,只有将这些数据通过数据漂白、清洗,然后分类出有用的数据。通过对有用的数据进行分析评估,得出自己想要的分析结果。然而数据量如此之大,如何使用这些数据,使用其中有用的数据就成为当今一个重要的课题。
技术实现思路
为解决以上问题,本专利技术的目的是通过以下技术方案实现的。本专利技术提出了一种多数据源防欺诈的方法,其包括:步骤一,采集来自多个数据源的数据;步骤二,对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;步骤 ...
【技术保护点】
一种多数据源防欺诈的方法,其包括:步骤一,采集来自多个数据源的数据;步骤二,对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;步骤三,使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵;步骤四,通过所述条件协方差矩阵估计并分析用户行为。
【技术特征摘要】
1.一种多数据源防欺诈的方法,其包括:步骤一,采集来自多个数据源的数据;步骤二,对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;步骤三,使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵;步骤四,通过所述条件协方差矩阵估计并分析用户行为。2.如权利要求1所述的多数据源防欺诈的方法,其特征在于:所述预处理数据包括用户行为参数和形成所述用户行为的时间参数。3.如权利要求2所述的多数据源防欺诈的方法,其特征在于:从来自不同的数据源的数据提取相应的用户行为数据,使用不同的数值表示不同的用户行为,以形成所述用户行为参数。4.如权利要求1所述的多数据源防欺诈的方法,其特征在于:所述P维随机变量可以表示为Y=(Y1,L,Yp)T,其中变量个数P远远大于上述预处理数据的样本个数n。5.如权利要求4所述的多数据源防欺诈的方法,其特征在于:所述步骤三的过程如下:(1)计算P维度的随机变量Y的条件均值m和条件协方差Σ的相合估计:(2)估计上述预处理后数据的样本的条件协方差矩阵:(3)运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵。6.如权利要求5所述的多数据源防欺诈的方法,其特征在于:所述过程(1)的实现方法如下:设U=(U1,L,Up)T为建模时间,记给定U时Y的条件均值和条件协方差分别为:m(U)=(m1(U),…,mP(U))T,Σ(U),其中Σjk(U)=Cov(Yj,Yk|U),其中j,k为1到P之间的自然数;在P固定的情况下,条件均值m和条件协方差Σ的相合估计为:7.如权利要求6所述的多数据源防欺诈的方法,其特征在于:所述过程(2)的实现方法如下:在条件均值m和条件协方差Σ的两个表达式中替换数据样本的观测值的权重以观测值离目标点的距离为权重,得到m(U),Σ(U)的大致局部估计,记m(U)=E(Y|U),用:估计当U=u时的m(U),其中Kh(·)=K(·/h)/h,K(·)是核函数,h表示窗宽参数,u为U的任意点,则均值E(Y1jYikT|U=u)的核估计为:
【专利技术属性】
技术研发人员:王亚博,李莉莉,付春,陈放,
申请(专利权)人:国政通科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。