用于检测异常数据的方法、设备和计算机可读存储介质技术

技术编号:19480026 阅读:35 留言:0更新日期:2018-11-17 10:32
本公开实施例提供了用于检测异常数据的方法、设备和计算机可读存储介质。该方法包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。

【技术实现步骤摘要】
用于检测异常数据的方法、设备和计算机可读存储介质
本公开大体上涉及数据挖掘领域,且更具体地涉及用于检测异常数据的方法、设备和计算机可读存储介质。
技术介绍
作为现代互联网产业链中的重要组成部分之一,数据提供商通过向人们提供基于网页的查询服务和/或基于应用编程接口(API)的查询服务,为很多领域(例如金融信息、电子商务、学术研究等领域)提供了必不可少的数据支持服务。然而在其数据使用者中,存在滥用数据查询API以牟利的数据转售商,或更通俗地将其称为“数据二道贩子”。这些恶意用户通过数据提供商提供的查询API大批量下载数据,并将所下载的数据伪装后贩卖给或直接贩卖给最终用户,以藉此牟利。这种恶意用户行为伤害了数据提供商的利益并侵犯了其版权。为此需要一种能够准确识别这种恶意用户的方案。
技术实现思路
为了至少部分解决或减轻上述问题,提供了根据本公开的用于检测异常数据的方法、设备和计算机可读存储介质。根据本公开的第一方面,提供了一种用于检测异常数据的方法。该方法包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测本文档来自技高网...

【技术保护点】
1.一种用于检测异常数据的方法,包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。

【技术特征摘要】
1.一种用于检测异常数据的方法,包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。2.根据权利要求1所述的方法,其中,所述待检测数据是记录用户获取数据的日志数据,且所述日志数据包括以下至少一项:每个用户的用户标识符;每个用户每次获取数据的获取时间;每个用户每次获取数据时访问的数据库的数据库标识符;以及每个用户每次获取数据时访问的数据库中的索引。3.根据权利要求2所述的方法,其中,所述异常行为模式包括以下至少一项:所获取的数据量异常;所获取数据的数据种类异常;以及获取数据的时间异常。4.根据权利要求1所述的方法,其中,所述多个候选特征包括以下至少一项:与所获取的数据的均匀度有关的特征;与所获取的数据量有关的特征;以及与获取数据的时间周期有关的特征。5.根据权利要求4所述的方法,其中,与获取数据的时间有关的特征包括与以不同时间单位为周期的获取数据的时间有关的特征。6.根据权利要求1所述的方法,其中,所述训练数据集是具有准确分类标签的训练数据集。7.根据权利要求6所述的方法,其中,根据训练数据集来确定多个候选特征中的一个或多个有效特征的步骤包括:根据具有准确标签的训练数据集,使用有监督学习算法来确定所述多个候选特征的重要度;以及基于各个候选特征的重要度来确定所述一个或多...

【专利技术属性】
技术研发人员:黄铃向诗阳
申请(专利权)人:慧安金科北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1