一种根据多数据源防欺诈的方法和系统技术方案

技术编号:16529670 阅读:36 留言:0更新日期:2017-11-09 21:38
本发明专利技术提出了一种根据多数据源防欺诈的方法和系统,所述方法包括如下步骤:步骤一,采集多维度信息数据;步骤二,信息聚合整理,将所述多维度信息数据预处理为统一格式的预处理数据;步骤三,将上述预处理数据代入高维动态协方差矩阵,计算信息匹配度;步骤四,根据上述计算的结果判断用户行为。通过本发明专利技术可以从大量的数据提取有用数据来评价用户是否为合法用户,降低了被诈骗的可能性,从而保护用户利益,提高用户体验。

【技术实现步骤摘要】
一种根据多数据源防欺诈的方法和系统
本专利技术涉及大数据
,尤其涉及一种根据多数据源防欺诈的方法和系统。
技术介绍
诚信是中华民族的传统的美德,但当下不诚信的人、不诚信的事出现的频率越来越高,已经对人们的生活造成了巨大的影响,因此公民诚信系统的建立显得迫在眉睫。现有技术中,人民银行的征信系统对有业务来往的客户建立诚信系统,为其他银行提供信用参照。公安部对每个公民建立户籍系统并建立案底档案,教育部对每个受教育者建立教育档案,其他民间机构也对相应个体建立相关方面的档案资料。实际操作中,各大银行可以根据征信系统来提供借贷服务,铁道部可以通过户籍系统来实现实名制,公安局可以通过互联网来追捕逃犯,教育部可以通过学生档案来实现升学等等。现有技术的缺点是只能针对采集的数据对个人目前某个方面状态进行评估,而不能对从整体上来评估一个人。还有现有技术在局部征信只能面对大企业或者行政机构,不能点对点的实现诚信的评估。大数据技术是近些年新兴的科学技术,其逐渐应用于社会的各行各业。在大数据的框架下,有用的数据在大量的数据下被掩盖,只有将这些数据通过数据漂白、清洗,然后分类出有用的数据。通过对有用的数据进行分析评估,得出自己想要的分析结果。然而数据量如此之大,如何使用这些数据,使用其中有用的数据就成为当今一个重要的课题。信息聚合是通过客户端软件或网络应用程序将诸如新闻头条、博客、播客等网络信息聚合到单一地点以方便用户浏览。Web2.0环境下信息海量增长,尤其是用户自产生内容的发展,用户每天在各种微博、SNS创造着庞大数量的内容,既多又杂。此外,政府组织和个人正把越来越多的数据信息放到网络上。另外,随着越来越多现实中的物体通过物联网技术和互联网连接,互联网即将迎来一次数据信息的大爆炸。如何过滤并重组这些数据信息使之最终变成个人化的信息,将是这些海量信息存在的价值所在。目前,网络爬虫技术已广泛应用于信息聚合。例如,申请号为201210495699.4的中国专利技术专利申请,公开了一种网络爬虫,包括一内核以及一Ajax抓取配置,该内核以及该Ajax抓取配置均集成有htmlunit,该Ajax抓取配置用于指定一网页的地址以及该网页中的待抓取的数据,该内核用于驱动搜索引擎,并基于该Ajax抓取配置提取该待抓取的数据。该专利技术能够支持Ajax的执行方式抓取网页页面的数据,并且支持异步请求的技术,可以使用JavaScript向服务器提出请求并处理响应,而且不会阻塞用户。然而,目前仍然没有通过大量的云数据分析,对客户的信用度进行准确评价的方法,往往无法防止网络欺诈、电话欺诈等事件的发生。
技术实现思路
为解决以上问题,本专利技术的目的是通过以下技术方案实现的。本专利技术提出了一种根据多数据源防欺诈的方法,其包括:步骤一,采集多维度信息数据;步骤二,信息聚合整理,将所述多维度信息数据预处理为统一格式的预处理数据;步骤三,将上述预处理数据代入高维动态协方差矩阵,计算信息匹配度;步骤四,根据上述计算的结果判断用户行为。优选的,如上所述的根据多数据源防欺诈的方法,步骤一中采用网络爬虫方法进行目标抓取。优选的,如上所述的根据多数据源防欺诈的方法,所述网络爬虫方法包括如下步骤:(一)、使用杜威十进分类法,在网页特征提取阶段,快速找出网页文本与锚文本关键词主题相近的关键词。(二)、提取主题候选链接特征文本;(三)、使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;(四)、对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。优选的,如上所述的根据多数据源防欺诈的方法,所述提取主题候选链接特征文本包括如下步骤:(1)对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;(2)查找关键词的杜威分类号码;(3)运用杜威十进制分类法的特性并结合二维坐标提取主题候选链接特征文本;把关键词分类号码的长度作为X轴,关键词分类号码作为Y轴,将关键词对应的杜威十进分类号码在二维坐标中绘制相应的点。(4)提取二维坐标中锚文本关键点以及锚文本周围的关键点对应的关键词作为主题候选链接特征文本。优选的,如上所述的根据多数据源防欺诈的方法,所述信息聚合整理包括如下步骤:(1)、基于OpenD服务访问相关网站信息;(2)、根据网站提供的开放式API接口获取网站上的相关用户个性化数据;(3)、对不同网站获取的用户个性化数据进行预处理;(4)、基于模糊自适应信任度的值的信息聚合处理;(5)、基于Mash-up技术根据用户个性化需求进行页面聚合显示。优选的,如上所述的根据多数据源防欺诈的方法,上述步骤(3)的预处理过程如下:对用户ID进行识别,然后规划出用户的会话路径,采用浏览器本地缓存技术对路径完整性和正确性进行检测,得到完整的正确路径后,根据网站的拓扑结构进行事务分割,生成事务数据文件存储到事务数据库中;根据抽取的日志数据获取用户的频繁路径长度和深度,并且识别用户的最大前向访问路径集MFPS,根据MFPS得到频繁最大前向访问路径集F-MFPS,再由F-MFPS集合搜索得到用户的F-MFPS访问路径的页面标签和资源集合。优选的,如上所述的根据多数据源防欺诈的方法,所述信息匹配度为上述矩阵的正定或负定情况。优选的,如上所述的根据多数据源防欺诈的方法,所述步骤四的具体方法为:若所述高维动态协方差矩阵为正定的,则认为用户正常行为,如果所述结果为非正定的,则认为所述用户行为有欺诈行为,采取相应的限制措施进行防范。根据本专利技术的另一个方面,一种根据多数据源防欺诈的系统,包括顺序连接的如下模块:数据采集模块,用于采集多维度信息数据;信息聚合模块,用于信息聚合整理,将所述多维度信息数据预处理为统一格式的预处理数据;匹配度计算模块,用于将上述预处理数据代入高维动态协方差矩阵,计算信息匹配度;判断模块,用于根据上述计算的结果判断用户行为。优选的,如上所述的根据多数据源防欺诈的系统,所述信息聚合模块包括顺序连接的如下单元:访问单元,用于基于OpenD服务访问相关网站信息;数据获取单元,用于根据网站提供的开放式API接口获取网站上的相关用户个性化数据;预处理单元,用于对不同网站获取的用户个性化数据进行预处理;信息聚合单元,用于基于模糊自适应信任度的值的信息聚合处理;页面聚合显示单元,用于基于Mash-up技术根据用户个性化需求进行页面聚合显示。通过本专利技术可以从大量的数据提取有用数据来评价用户是否为合法用户,降低了被诈骗的可能性,从而保护用户利益,提高用户体验。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了根据本专利技术实施方式的根据多数据源防欺诈的方法流程图。附图2示出了根据本专利技术实施方式的信息聚合整理的方法流程图。附图3示出了根本文档来自技高网
...
一种根据多数据源防欺诈的方法和系统

【技术保护点】
一种根据多数据源防欺诈的方法,其包括:步骤一,采集多维度信息数据;步骤二,信息聚合整理,将所述多维度信息数据预处理为统一格式的预处理数据;步骤三,将上述预处理数据代入高维动态协方差矩阵,计算信息匹配度;步骤四,根据上述计算的结果判断用户行为。

【技术特征摘要】
1.一种根据多数据源防欺诈的方法,其包括:步骤一,采集多维度信息数据;步骤二,信息聚合整理,将所述多维度信息数据预处理为统一格式的预处理数据;步骤三,将上述预处理数据代入高维动态协方差矩阵,计算信息匹配度;步骤四,根据上述计算的结果判断用户行为。2.如权利要求1所述的根据多数据源防欺诈的方法,其特征在于:步骤一中采用网络爬虫方法进行目标抓取,从而采集所述数据。3.如权利要求2所述的根据多数据源防欺诈的方法,其特征在于:所述网络爬虫方法包括如下步骤:(一)、使用杜威十进分类法,在网页特征提取阶段,快速找出网页文本与锚文本关键词主题相近的关键词;(二)、提取主题候选链接特征文本;(三)、使用朴素贝叶斯文本分类器对候选链接主题边缘文本进行分类,获取主题相关网页;如果文本属于特定主题,那么相对应的候选链接以分类权值作为优先级值,以优先级的大小顺序插入爬行队列,爬虫优先访问分类值大的链接,如果文本不属于特定主题,则丢弃候选链接;(四)、对相关网页的Web链接信息用HITS算法计算出其对应的权威度和中心度,综合锚文本、锚文本附近信息、反向网页、反向链接的兄弟链接、URL链接,预判待爬取网页与主题的相关度。4.如权利要求3所述的根据多数据源防欺诈的方法,其特征在于:所述提取主题候选链接特征文本包括如下步骤:(1)对网页的锚文本和正文进行分词处理,去掉停用词,得到关键词;(2)查找关键词的杜威分类号码;(3)运用杜威十进制分类法的特性并结合二维坐标提取主题候选链接特征文本;把关键词分类号码的长度作为X轴,关键词分类号码作为Y轴,将关键词对应的杜威十进分类号码在二维坐标中绘制相应的点;(4)提取二维坐标中锚文本关键点以及锚文本周围的关键点对应的关键词作为主题候选链接特征文本。5.如权利要求1所述的根据多数据源防欺诈的方法,其特征在于:所述信息聚合整理包括如下步骤:(1)、基于OpenD服务访问相关网站信息;(2)、根据网站提供的开放式API接口获取网站上的相关用户个性化数据;(3)、对不...

【专利技术属性】
技术研发人员:王亚博李莉莉付春陈放
申请(专利权)人:国政通科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1