用于检测异常数据的方法、设备和计算机可读存储介质技术

技术编号:19480026 阅读:21 留言:0更新日期:2018-11-17 10:32
本公开实施例提供了用于检测异常数据的方法、设备和计算机可读存储介质。该方法包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。

【技术实现步骤摘要】
用于检测异常数据的方法、设备和计算机可读存储介质
本公开大体上涉及数据挖掘领域,且更具体地涉及用于检测异常数据的方法、设备和计算机可读存储介质。
技术介绍
作为现代互联网产业链中的重要组成部分之一,数据提供商通过向人们提供基于网页的查询服务和/或基于应用编程接口(API)的查询服务,为很多领域(例如金融信息、电子商务、学术研究等领域)提供了必不可少的数据支持服务。然而在其数据使用者中,存在滥用数据查询API以牟利的数据转售商,或更通俗地将其称为“数据二道贩子”。这些恶意用户通过数据提供商提供的查询API大批量下载数据,并将所下载的数据伪装后贩卖给或直接贩卖给最终用户,以藉此牟利。这种恶意用户行为伤害了数据提供商的利益并侵犯了其版权。为此需要一种能够准确识别这种恶意用户的方案。
技术实现思路
为了至少部分解决或减轻上述问题,提供了根据本公开的用于检测异常数据的方法、设备和计算机可读存储介质。根据本公开的第一方面,提供了一种用于检测异常数据的方法。该方法包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。在一些实施例中,所述待检测数据是记录用户获取数据的日志数据,且所述日志数据包括以下至少一项:每个用户的用户标识符;每个用户每次获取数据的获取时间;每个用户每次获取数据时访问的数据库的数据库标识符;以及每个用户每次获取数据时访问的数据库中的索引。在一些实施例中,所述异常行为模式包括以下至少一项:所获取的数据量异常;所获取数据的数据种类异常;以及获取数据的时间异常。在一些实施例中,所述多个候选特征包括以下至少一项:与所获取的数据的均匀度有关的特征;与所获取的数据量有关的特征;以及与获取数据的时间周期有关的特征。在一些实施例中,与获取数据的时间有关的特征包括与以不同时间单位为周期的获取数据的时间有关的特征。在一些实施例中,所述训练数据集是具有准确分类标签的训练数据集。在一些实施例中,根据训练数据集来确定多个候选特征中的一个或多个有效特征的步骤包括:根据具有准确标签的训练数据集,使用有监督学习算法来确定所述多个候选特征的重要度;以及基于各个候选特征的重要度来确定所述一个或多个有效特征。在一些实施例中,所述有监督学习算法是L1惩罚逻辑回归(LR)算法和随机森林(RF)算法中的至少一项。在一些实施例中,根据所述一个或多个有效特征来确定待检测数据中的异常数据的步骤包括:根据所述一个或多个有效特征,使用无监督异常值检测算法对所述待检测数据进行检测,以确定所述异常数据。在一些实施例中,所述无监督异常值检测算法是一类支持向量机(SVM)算法。在一些实施例中,在使用无监督异常值检测算法对所述待检测数据进行检测的步骤之后,所述方法还包括:基于预定阈值对所述异常数据进行过滤,以滤除具有正常的与所获取的数据量有关的特征的数据。在一些实施例中,根据所述一个或多个有效特征来确定待检测数据中的异常数据的步骤还包括:根据经所述训练数据集训练的所述有监督学习算法来确定分类器;使用所述分类器对待检测数据进行分类,以确定属于异常数据类的附加异常数据;以及使用所述附加异常数据来补充所述异常数据。根据本公开的第二方面,提供了一种用于检测异常数据的设备。该设备包括:处理器;存储器,其上存储有指令,所述指令在由所述处理器执行时使得所述处理器执行根据本公开第一方面所述的方法。根据本公开的第三方面,提供了一种存储指令的计算机可读存储介质,所述指令在由处理器执行时使得所述处理器执行根据本公开第一方面所述的方法。通过使用本公开的方法、设备和/或计算机可读存储介质,可以准确地自动检测到海量行为数据中的异常用户行为数据,帮助数据提供商准确地确定需要注意的异常用户,从而避免了可能出现的损失、同时节约了大量的运维成本。附图说明通过下面结合附图说明本公开的优选实施例,将使本公开的上述及其它目的、特征和优点更加清楚,其中:图1A和1B是分别示出了在使用根据本公开实施例的恶意用户识别方案之前和之后的示例应用场景的示意图。图2是示出了根据本公开实施例的用于检测异常数据的示例方法的总体流程图。图3是示出了根据本公开实施例的用于根据异常行为模式来确定候选特征的各要素之间的示例关系图。图4是示出了根据本公开实施例的用于使用训练数据集来确定有效特征的方法的示例流程图。图5是示出了根据本公开实施例的用于根据有效特征来识别异常数据的示例方法的示例流程图。图6是示出了根据本公开实施例的用于识别异常数据的设备的硬件布置图。具体实施方式下面参照附图对本公开的部分实施例进行详细说明,在描述过程中省略了对于本公开来说是不必要的细节和功能,以防止对本公开的理解造成混淆。在本说明书中,下述用于描述本公开原理的各种实施例只是说明,不应该以任何方式解释为限制公开的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本公开的示例性实施例。下述描述包括多种具体细节来帮助理解,但这些细节应认为仅仅是示例性的。因此,本领域普通技术人员应认识到,在不脱离本公开的范围和精神的情况下,可以对本文中描述的实施例进行多种改变和修改。此外,为了清楚和简洁起见,省略了公知功能和结构的描述。此外,贯穿附图,相同的附图标记用于相同或相似的功能、器件和/或操作。此外,在附图中,各部分并不一定按比例来绘制。换言之,附图中的各部分的相对大小、长度等并不一定与实际比例相对应。此外,在本公开一些实施例中描述的全部或部分特征也可被应用于其他实施例中以形成依然落入本申请范围内的新的实施例。此外,本公开并不局限于所涉及的设备的各个具体通信协议,包括(但不限于)2G、3G、4G、5G网络,WCDMA、CDMA2000、TD-SCDMA系统等,不同的设备可以采用相同的通信协议,也可以采用不同的通信协议。此外,本公开并不局限于设备的具体操作系统,可以包括(但不限于)iOS、WindowsPhone、Symbian(塞班)、Android(安卓)、Linux、Unix、Windows、MacOS等,不同的设备可以采用相同的操作系统,也可以采用不同的操作系统。尽管下文中将主要结合数据转售商之类的具体场景来说明根据本公开实施例的用于检测异常数据的方案,然而本公开不限于此。事实上,本公开的实施例在经过恰当的调整和修改的情况下,也可以适用于其他各种需要检测具有特定模式的数据,例如检测高价值客户等。换言之,只要是需要确定数据之间的模式差异的场景,都可以使用根据本公开实施例的方案。图1A和1B是分别示出了在使用根据本公开实施例的恶意用户识别方案之前和之后的示例应用场景10的示意图。如图1A和1B所示,数据提供商(也称为数据供应商)100收集公共和/或专有数据并将其编入可搜索的数据库中,并为其用户110-1、110-2等(下文中,当不需要特别提及时,统称为用户110)提供各种领域的服务,例如金融和学术研究领域。数据提供商100的关键附加值在于例如提供数据整合、数据清理、数据更新、以及结构化的查询接口。例如,彭博社的用户可以通过使用手动命令或脚本化API来查询实时财经数据。因此,对于数据提供商100来说重要的是通过仅允许恰当使用其数据的用户11本文档来自技高网...

【技术保护点】
1.一种用于检测异常数据的方法,包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。

【技术特征摘要】
1.一种用于检测异常数据的方法,包括:根据异常行为模式来确定多个候选特征;根据训练数据集来确定多个候选特征中的一个或多个有效特征;以及根据所述一个或多个有效特征来确定待检测数据中的异常数据。2.根据权利要求1所述的方法,其中,所述待检测数据是记录用户获取数据的日志数据,且所述日志数据包括以下至少一项:每个用户的用户标识符;每个用户每次获取数据的获取时间;每个用户每次获取数据时访问的数据库的数据库标识符;以及每个用户每次获取数据时访问的数据库中的索引。3.根据权利要求2所述的方法,其中,所述异常行为模式包括以下至少一项:所获取的数据量异常;所获取数据的数据种类异常;以及获取数据的时间异常。4.根据权利要求1所述的方法,其中,所述多个候选特征包括以下至少一项:与所获取的数据的均匀度有关的特征;与所获取的数据量有关的特征;以及与获取数据的时间周期有关的特征。5.根据权利要求4所述的方法,其中,与获取数据的时间有关的特征包括与以不同时间单位为周期的获取数据的时间有关的特征。6.根据权利要求1所述的方法,其中,所述训练数据集是具有准确分类标签的训练数据集。7.根据权利要求6所述的方法,其中,根据训练数据集来确定多个候选特征中的一个或多个有效特征的步骤包括:根据具有准确标签的训练数据集,使用有监督学习算法来确定所述多个候选特征的重要度;以及基于各个候选特征的重要度来确定所述一个或多...

【专利技术属性】
技术研发人员:黄铃向诗阳
申请(专利权)人:慧安金科北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1