【技术实现步骤摘要】
异常数据识别方法及装置
[0001]本专利技术实施例涉及数据分析领域,具体而言,涉及一种异常数据识别方法及装置。
技术介绍
[0002]随着大数据时代的来临,数据分析处理和识别技术也广泛地应用于各个领域中,例如,应用于金融领域中的反逃税等。
[0003]图1是现有的反逃税等行为识别方法的流程图,如图1所示,该技术方案主要包括以下三个步骤:
[0004]1、日志数据组织。大众之间的金融交易通过商业银行或其它金融机构完成资金流转,资金流转过程中,商业银行会记录交易双方的客户信息、交易时间、交易额等交易信息,形成基础日志数据。
[0005]2、异常行为识别。在发现逃税行为主体后,根据主体设置关键字、正则表达式,查询与其存在交易行为的其它主体,从而进一步推断其它违法行为。
[0006]3、疑似异常行为。根据与嫌疑主体关联的其它主体,进一步锁定其异常大额转账、异常指转账等行为。
[0007]在上述技术方案中存在以下问题:事前无法预警逃税行为;事中无法监控大额交易、批量交易等高危行为;事后无法从数 ...
【技术保护点】
【技术特征摘要】
1.一种异常数据识别方法,其特征在于,包括:分析处理日志数据获取日志数据分布结构特点;基于所述日志数据分布结构特点构建异常数据剥离模型;基于所述异常数据剥离模型从指定数据集合中分离出异常数据。2.根据权利要求1所述的方法,其特征在于,分析处理日志数据获取日志数据分布结构特点包括:利用高斯分布和拉普拉斯分布联合构建数据分布模型;通过所述数据分布模型获取日志数据分布结构特点。3.根据权利要求1所述的方法,其特征在于,基于所述日志数据分布结构特点构建异常数据剥离模型,包括:基于所述日志数据分布结构特点,将数据分成三部分:安全值部分、怀疑值部分和异常值部分。4.根据权利要求3所述的方法,其特征在于,基于所述数据分布结构特点,将数据分成三部分:安全值部分、怀疑值部分和异常值部分,包括:根据数据的偏差程度将数据分成至少如下部分:安全值部分、怀疑值部分和异常值部分;其中,所述偏差程度采用方差或标准差进行衡量。5.根据权利要1所述的方法,其特征在于,分析处理日志数据获取日志数据分布结构特点包括:将所述日志数据的行为数据向量化得到第一矩阵,再将所述第一矩阵投放到二维坐标系统中,使所述行为数据以向量点形式分布在二维坐标系统中;从向量点中标识出正常行为向量点和异常行为向量点;通过KNN算法确定其他向量点分别与正常行为向量空心点和异常行为向量空心点的距离,基于所述距离获取日志数据分布结构特点。6.根据权利要求5所述的方法,其特征在于,基于所述日志数据分布结构特点构建异常数据剥离模型,包括:根据所述距离将所有向量点划分成正常行为向量点和异常行为向量点两类;将所述异常行为向量点从第一矩阵中剥离出来,确...
【专利技术属性】
技术研发人员:孙亚东,蔚晨,谭咏茂,李璠,丁永建,黄时光,向小佳,吴海洋,张荣臻,
申请(专利权)人:光大科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。