异常数据检测方法和系统技术方案

技术编号:18764558 阅读:36 留言:0更新日期:2018-08-25 10:50
本发明专利技术提供了一种异常数据检测方法和系统,涉及大数据应用与数据科学技术领域,采用大数据采集技术获取生产数据;对生产数据进行多维度特征提取,得到多维度特征数据;将多维度特征数据进行机器学习,得到异常数据集。本发明专利技术可以全面准确地检测异常数据,从而提高数据防控的安全性。

【技术实现步骤摘要】
异常数据检测方法和系统
本专利技术涉及大数据应用与数据科学
,尤其是异常数据检测方法和系统。
技术介绍
信息技术在为各行业带来方便和快捷的同时,也伴随着新的风险和问题。风险管理是各行业核心竞争力之一,例如银行业,风险控制与数据安全一直是其重中之重。但即便是在现今的大数据时代,数据安全领域依然局限在传统的基于规则和统计的业务风险防控和数据安全防控技术上。目前,国内各行业的数据安全中心,广泛采用基于规则和统计的规则引擎的方式抓取异常,但由于其局限性,使得检测结果不够全面和准确。公开于该
技术介绍
部分的信息仅仅旨在加深对专利技术的总体
技术介绍
的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
技术实现思路
有鉴于此,本专利技术的目的在于提供异常数据检测方法和系统,以解决采用基于规则和统计的规则引擎的方式抓取异常,使得检测结果不够全面和准确的问题。第一方面,本专利技术实施例提供了一种异常数据检测方法,包括:采用大数据采集技术获取生产数据;对所述生产数据进行多维度特征提取,得到多维度特征数据;将所述多维度特征数据进行机器学习,得到异常数据集。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述对所述生产数据进行多维度特征提取,得到多维度特征数据,包括:将所述生产数据进行数字化特征提取,得到数字维度数据;将所述数字维度数据进行特征转换,得到所述多维度特征数据。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述将所述数字维度数据进行特征转换,得到所述多维度特征数据包括:将所述数字维度数据进行正则化,得到所述多维度特征数据;或者;将所述数字维度数据进行类别映射,得到所述多维度特征数据;或者;将所述数字维度数据进行函数变换,得到所述多维度特征数据。结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,所述将所述数字维度数据进行函数变换,得到所述多维度特征数据包括:获取所述数字维度数据的分布函数;将所述数字维度数据的分布函数映射到传统分布函数,得到所述多维度特征数据;其中,所述传统分布函数包括线性函数。结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,所述将所述多维度特征数据进行机器学习,得到异常数据集包括:通过聚类机器学习模型将所述多维度特征数据进行聚类学习,得到多个数据集合;从每个所述数据集合中选取异常数据点,得到所述异常数据集。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,所述从每个所述数据集合中选取异常数据点,得到异常数据集,包括:计算每个所述数据集合中的离群数据点,并对所述离群数据点进行异常度打分;将异常度最高的离群数据点作为异常数据点,得到所述异常数据集。第二方面,本专利技术实施例还提供一种异常数据检测系统,包括:采集模块,采用大数据采集技术获取生产数据;特征提取模块,用于对所述生产数据进行多维度特征提取,得到多维度特征数据;机器学习模块,用于将所述多维度特征数据进行机器学习,得到异常数据集。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述特征提取模块包括:数字化特征提取子模块,用于将所述生产数据进行数字化特征提取,得到数字维度数据;特征转换子模块,用于将所述数字维度数据进行特征转换,得到所述多维度特征数据。结合第二方面的第一种可能的实施方式,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,所述特征转换子模块包括:第一特征转换单元,用于将所述数字维度数据进行正则化,得到所述多维度特征数据;第二特征转换单元,用于将所述数字维度数据进行类别映射,得到所述多维度特征数据;第三特征转换单元,用于将所述数字维度数据进行函数变换,得到所述多维度特征数据。结合第二方面的第二种可能的实施方式,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中,所述第三特征转换单元包括:获取子单元,用于获取所述数字维度数据的分布函数;映射子单元,用于将所述数字维度数据的分布函数映射到传统分布函数,得到所述多维度特征数据;其中,所述传统分布函数包括线性函数。本专利技术实施例带来了以下有益效果:本专利技术实施例提供了一种异常数据检测方法和系统,采用大数据采集技术获取生产数据;对生产数据进行多维度特征提取,得到多维度特征数据;将多维度特征数据进行机器学习,得到异常数据集。通过机器学习可以全面准确地检测异常数据,从而提高数据防控的安全性。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的异常数据检测方法流程图;图2为本专利技术实施例提供的另一异常数据检测方法流程图;图3为本专利技术实施例提供的又一异常数据检测方法流程图;图4为本专利技术实施例提供的异常数据分布图。图5为本专利技术实施例提供的异常数据检测系统示意图。图标:10-采集模块;20-特征提取模块;30-机器学习模块。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前,国内各行业的数据安全中心,广泛采用基于规则和统计的规则引擎的方式抓取异常,但由于其局限性,使得检测结果不够全面和准确。基于此,本专利技术实施例提供的一种异常数据检测方法和系统,可以全面准确地检测异常数据,从而提高数据防控的安全性。为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种异常数据检测方法进行详细介绍。实施例一如图1所示,本实施例提供的一种异常数据检测方法,包括:步骤S101,采用大数据采集技术获取生产数据;这里的生产数据是指行业业务系统的各种数据,包括日志、数据库中的数据。例如,银行的业务系统数据包括网银系统数据、支付系统数据等等。采用大数据采集技术来抓取数据,包括多种采集方式。步骤S102,对生产数据进行多维度特征提取,得到多维度特征数据;由于生产数据包括多种业务领域或者路径分类,需要对其进行梳理,分为多个维度数据,并进行多维度特征提取。步骤S103,将多维度特征数据进行机器学习,得到异常数据集。具体地,对特征提取后的数据使用各种机器学习模型进行机器学习处理,输出异常数据集。输出的异常数据集同样存储在分布式大数据存储系统中。需要说明的是,生产数据包括实时生产数据(流数据),非实时数据(批处理数据batch)。具体地,如图2所示,步骤S10本文档来自技高网...

【技术保护点】
1.一种异常数据检测方法,其特征在于,包括:采用大数据采集技术获取生产数据;对所述生产数据进行多维度特征提取,得到多维度特征数据;将所述多维度特征数据进行机器学习,得到异常数据集。

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括:采用大数据采集技术获取生产数据;对所述生产数据进行多维度特征提取,得到多维度特征数据;将所述多维度特征数据进行机器学习,得到异常数据集。2.根据权利要求1所述的异常数据检测方法,其特征在于,所述对所述生产数据进行多维度特征提取,得到多维度特征数据,包括:将所述生产数据进行数字化特征提取,得到数字维度数据;将所述数字维度数据进行特征转换,得到所述多维度特征数据。3.根据权利要求2所述的异常数据检测方法,其特征在于,所述将所述数字维度数据进行特征转换,得到所述多维度特征数据包括:将所述数字维度数据进行正则化,得到所述多维度特征数据;或者;将所述数字维度数据进行类别映射,得到所述多维度特征数据;或者;将所述数字维度数据进行函数变换,得到所述多维度特征数据。4.根据权利要求3所述的异常数据检测方法,其特征在于,所述将所述数字维度数据进行函数变换,得到所述多维度特征数据包括:获取所述数字维度数据的分布函数;将所述数字维度数据的分布函数映射到传统分布函数,得到所述多维度特征数据;其中,所述传统分布函数包括线性函数。5.根据权利要求1所述的异常数据检测方法,其特征在于,所述将所述多维度特征数据进行机器学习,得到异常数据集包括:通过聚类机器学习模型将所述多维度特征数据进行聚类学习,得到多个数据集合;从每个所述数据集合中选取异常数据点,得到所述异常数据集。6.根据权利要求5所述的异常数据...

【专利技术属性】
技术研发人员:刘洋
申请(专利权)人:华青融天北京技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1