一种多数据源防欺诈的方法和系统技术方案

技术编号:16233790 阅读:23 留言:0更新日期:2017-09-19 15:00
本发明专利技术提出了一种多数据源防欺诈的方法和系统,所述方法包括如下步骤:采集来自多个数据源的数据;对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与P维随机变量相一致的条件协方差矩阵;通过所述条件协方差矩阵估计并分析用户行为。通过本发明专利技术可以从大量的数据提取有用数据来评价用户是否为合法用户,降低了被诈骗的可能性,从而保护用户利益,提高用户体验。

Method and system for preventing fraudulent use of multiple data sources

The present invention provides a method and system for multiple data sources of anti fraud, and the method comprises the following steps: collecting data from multiple data sources; data on the pre processing of multiple data sources for data preprocessing in a unified format, the pretreatment data corresponding to P dimensional random variables; the use of nuclear smooth method to estimate local conditions to establish the covariance matrix, then to obtain the conditional covariance matrix is consistent with P dimensional random variables using the threshold value selection; through the conditional covariance matrix estimation and analysis of user behavior. The invention can extract useful data from a large amount of data to evaluate whether the user is a legitimate user, thereby reducing the possibility of being defrauded, thereby protecting the interests of the user and improving the user experience.

【技术实现步骤摘要】
一种多数据源防欺诈的方法和系统
本专利技术涉及大数据
,尤其涉及一种基于条件协方差矩阵的多数据源防欺诈的方法和系统。
技术介绍
诚信是中华民族的传统的美德,但当下不诚信的人、不诚信的事出现的频率越来越高,已经对人们的生活造成了巨大的影响,因此公民诚信系统的建立显得迫在眉睫。现有技术中,人民银行的征信系统对有业务来往的客户建立诚信系统,为其他银行提供信用参照。公安部对每个公民建立户籍系统并建立案底档案,教育部对每个受教育者建立教育档案,其他民间机构也对相应个体建立相关方面的档案资料。实际操作中,各大银行可以根据征信系统来提供借贷服务,铁道部可以通过户籍系统来实现实名制,公安局可以通过互联网来追捕逃犯,教育部可以通过学生档案来实现升学等等。现有技术的缺点是只能针对采集的数据对个人目前某个方面状态进行评估,而不能对从整体上来评估一个人。还有现有技术在局部征信只能面对大企业或者行政机构,不能点对点的实现诚信的评估。大数据技术是近些年新兴的科学技术,其逐渐应用于社会的各行各业。在大数据的框架下,有用的数据在大量的数据下被掩盖,只有将这些数据通过数据漂白、清洗,然后分类出有用的数据。通过对有用的数据进行分析评估,得出自己想要的分析结果。然而数据量如此之大,如何使用这些数据,使用其中有用的数据就成为当今一个重要的课题。
技术实现思路
为解决以上问题,本专利技术的目的是通过以下技术方案实现的。本专利技术提出了一种多数据源防欺诈的方法,其包括:步骤一,采集来自多个数据源的数据;步骤二,对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;步骤三,使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵;步骤四,通过所述条件协方差矩阵估计并分析用户行为。优选的,如上所述的多数据源防欺诈的方法,所述预处理数据包括用户行为参数和形成所述用户行为的时间参数。优选的,如上所述的多数据源防欺诈的方法,从来自不同的数据源的数据提取相应的用户行为数据,使用不同的数值表示不同的用户行为,以形成所述用户行为参数。优选的,如上所述的多数据源防欺诈的方法,所述P维随机变量可以表示为Y=(Y1,L,Yp)T,其中变量个数P远远大于上述预处理数据的样本个数n。优选的,如上所述的多数据源防欺诈的方法,所述步骤三的过程如下:(1)计算P维度的随机变量Y的条件均值m和条件协方差Σ的相合估计:(2)估计上述预处理后数据的样本的条件协方差矩阵:(3)运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵。优选的,如上所述的多数据源防欺诈的方法,所述过程(1)的实现方法如下:设U=(U1,L,Up)T为建模时间,记给定U时Y的条件均值和条件协方差分别为:m(U)=(m1(U),…,mP(U))T,Σ(U),其中Σjk(U)=Cov(Yj,Yk|U),其中j,k为1到P之间的自然数;在P固定的情况下,条件均值m和条件协方差Σ的相合估计为:和优选的,如上所述的多数据源防欺诈的方法,所述过程(2)的实现方法如下:在条件均值m和条件协方差Σ的两个表达式中替换数据样本的观测值的权重以观测值离目标点的距离为权重,得到m(U),Σ(U)的大致局部估计,记m(U)=E(Y|U),用:估计当U=u时的m(U),其中Kh(·)=K(·/h)/h,K(·)是核函数,h表示窗宽参数,u为U的任意点,则均值E(Y1jYikT|U=u)的核估计为:把每个U点的核估计结合在一起,得到样本的条件协方差矩阵可估计为:优选的,如上所述的多数据源防欺诈的方法,所述过程(3)的实现方法如下:把原始样本随机分为两个部分n1,n2,其中并且重复这个过程N1次,记分别为:样本观测值n1,n2基于随机变量Y子集交互检验带宽选择方法而得到的经验条件协方差估计;在给定u的情况下,选择阈值参数来估计∑(u),通过最小化R(λ,u)实现,这里:其中:||M||2F=tr(MMT),M为任意变量;其中,sλ是广义收缩算子,R(λ,u)为条件协方差矩阵的二范数,s(u)是矩阵的每个元素,所述每个元素由阈值λ来确定;选择上述阈值参数代入所述估计的协方差矩阵,得到最终的条件协方差矩阵。优选的,如上所述的多数据源防欺诈的方法,所述步骤四的过程如下:将所述具有统一格式的预处理数据代入所述条件协方差矩阵,若所述条件协方差矩阵为正定的,则认为用户正常行为,如果所述结果为非正定的,则认为所述用户行为有欺诈行为,采取相应的限制措施进行防范。根据本专利技术的另一个方面,本专利技术还提供了一种多数据源防欺诈系统,包括顺序连接的如下模块:数据采集模块,用于采集来自多个数据源的数据;预处理模块,用于对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;矩阵获取模块,用于使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵;估计分析模块,用于通过所述条件协方差矩阵估计并分析用户行为。通过本专利技术可以从大量的数据提取有用数据来评价用户是否为合法用户,降低了被诈骗的可能性,从而保护用户利益,提高用户体验。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了根据本专利技术实施方式的基于条件协方差矩阵的多数据源防欺诈的方法流程图。附图2示出了根据本专利技术实施方式的基于条件协方差矩阵的多数据源防欺诈的系统模块图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。在构建该多数据源的协方差矩阵之前,先了解以下概念。协方差矩阵:记n维随机向量X=(X1,X2,L,Xn)T,若其每个分量的数学期望都存在,则称:为该随机变量X的协方差矩阵,记为:var(X)。本专利技术提出了一种基于条件协方差矩阵的多数据源防欺诈的方法,用于征信平台,其包括如下步骤:步骤S101、采集来自多个数据源的数据。以上多个数据源包括多种数据来源。例如,公安系统、教育系统、征信系统、诚信系统、金融系统、投融资系统等等。由于所有的系统都涉及公民的姓名、身份证号等基本公民信息。通过这些基本公民信息,可以将所有这些的系统中产生的数据形成关联,从而形成本专利技术的多数据源的数据。步骤S102、对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量。所述统一格式的预处理数据,仅仅是格式的统一。数据内容并不相同,因为来自不同数据源的数据是不相同的。其中,所述预处理数据包括用户行为参数和形成所述用户行为的时间参数。从来自不同的数据源的数据提取相应的用户行为数据,使用不同的数值表示不同的用户行为,形成用户行为参数。以网购活动为例,其与用户行为有关的数据可能包括:客户姓名、中英文全称、性别代码、国籍代码、民族代码、客户编号本文档来自技高网...
一种多数据源防欺诈的方法和系统

【技术保护点】
一种多数据源防欺诈的方法,其包括:步骤一,采集来自多个数据源的数据;步骤二,对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;步骤三,使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵;步骤四,通过所述条件协方差矩阵估计并分析用户行为。

【技术特征摘要】
1.一种多数据源防欺诈的方法,其包括:步骤一,采集来自多个数据源的数据;步骤二,对所述多个数据源的数据预处理为统一格式的预处理数据,所述预处理数据对应P维随机变量;步骤三,使用核光滑方法估计要建立的条件协方差矩阵的局部,接着运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵;步骤四,通过所述条件协方差矩阵估计并分析用户行为。2.如权利要求1所述的多数据源防欺诈的方法,其特征在于:所述预处理数据包括用户行为参数和形成所述用户行为的时间参数。3.如权利要求2所述的多数据源防欺诈的方法,其特征在于:从来自不同的数据源的数据提取相应的用户行为数据,使用不同的数值表示不同的用户行为,以形成所述用户行为参数。4.如权利要求1所述的多数据源防欺诈的方法,其特征在于:所述P维随机变量可以表示为Y=(Y1,L,Yp)T,其中变量个数P远远大于上述预处理数据的样本个数n。5.如权利要求4所述的多数据源防欺诈的方法,其特征在于:所述步骤三的过程如下:(1)计算P维度的随机变量Y的条件均值m和条件协方差Σ的相合估计:(2)估计上述预处理后数据的样本的条件协方差矩阵:(3)运用阈值选择以得到与上述P维随机变量相一致的条件协方差矩阵。6.如权利要求5所述的多数据源防欺诈的方法,其特征在于:所述过程(1)的实现方法如下:设U=(U1,L,Up)T为建模时间,记给定U时Y的条件均值和条件协方差分别为:m(U)=(m1(U),…,mP(U))T,Σ(U),其中Σjk(U)=Cov(Yj,Yk|U),其中j,k为1到P之间的自然数;在P固定的情况下,条件均值m和条件协方差Σ的相合估计为:7.如权利要求6所述的多数据源防欺诈的方法,其特征在于:所述过程(2)的实现方法如下:在条件均值m和条件协方差Σ的两个表达式中替换数据样本的观测值的权重以观测值离目标点的距离为权重,得到m(U),Σ(U)的大致局部估计,记m(U)=E(Y|U),用:估计当U=u时的m(U),其中Kh(·)=K(·/h)/h,K(·)是核函数,h表示窗宽参数,u为U的任意点,则均值E(Y1jYikT|U=u)的核估计为:

【专利技术属性】
技术研发人员:王亚博李莉莉付春陈放
申请(专利权)人:国政通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1