数据处理方法及装置制造方法及图纸

技术编号:15939483 阅读:35 留言:0更新日期:2017-08-04 22:02
本申请提供一种数据处理方法及装置。数据处理方法包括:获取目标类目下至少一个数据对象分别作为待处理数据对象;对每个待处理数据对象,根据待处理数据对象的指定业务参数在待处理数据对象具有的各检测属性取不同属性值时的取值,获取待处理数据对象的异常度;根据各待处理数据对象的异常度,确定各待处理数据对象中的异常数据对象。本申请无需对数据进行标注,即可实现对异常数据的检测。

Data processing method and apparatus

The present application provides a data processing method and apparatus. The data processing method includes: acquiring the target under the category of at least one data object as the data object to be treated; for each data object to be processed, according to the specified traffic parameters data objects in the value data object with each attribute detection for different values of the attribute to be processed, obtain the abnormal degree of data to be processed objects; according to the data object anomaly, determine the abnormal data object of the pending data object. This application does not need to annotate the data, so it can detect the abnormal data.

【技术实现步骤摘要】
数据处理方法及装置
本申请涉及互联网
,尤其涉及一种数据处理方法及装置。
技术介绍
随着互联网技术的发展,网络平台上提供的网络资源越来越多。对于网络平台来说,一般会设置一些规则用于对网络资源及其使用进行限制和规范。但是,有些网络资源提供者可能会刻意规避网站设置的规则,使网络资源的排序靠前或吸引用户点击,从而达到引流的目的。例如,在电商领域,卖家通过设置该商品的价格为超低价或超高价,或者将不同商品违规放在一起或多个商品捆绑销售等,使得所卖商品的价格与平台其他商品的价格差异拉大,进而在商品价格相关的排序中非法获利。异常检测是目前数据挖掘领域里的一个热门课题。通过异常检测技术可以发现潜在的违规行为。一种现有的异常检测技术是基于模型训练的异常检测方法,该方法的原理是:在有标注训练数据的情况下,利用有监督学习算法或半监督学习算法,如支持向量机(SupportVectorMachine,SVM)、线性回归(LinearRegression,LR)和神经网络(NeuralNetwork,NN)等,训练得到分类器,对商品价格是否异常进行判断。在没有标注数据的情况下,数据聚类分析是最常用的方式,K-Means和混合高斯聚类等模型常被用来对数据进行聚类。基于模型训练的方法由于是学习得到一个可重用的算法模型或者数据聚类结果,因此可以对新加入的数据进行快速判断,具有较强的泛化能力。但是,基于模型训练的方法通常需要有标注数据,然而对数据进行标注成本昂贵,人工工作量也较大,并不适合数据量较大的场景。
技术实现思路
本申请的多个方面提供一种数据处理方法及装置,无需对数据进行标注,即可实现对异常数据的检测。本申请的一方面,提供一种数据处理方法,包括:获取目标类目下至少一个数据对象分别作为待处理数据对象;对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度;根据各待处理数据对象的异常度,确定所述各待处理数据对象中的异常数据对象。本申请的另一方面,提供一种数据处理装置,包括:第一获取模块,用于获取目标类目下至少一个数据对象分别作为待处理数据对象;第二获取模块,用于对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度;第一确定模块,用于根据各待处理数据对象的异常度,确定所述各待处理数据对象中的异常数据对象。在本申请中,获取目标类目下各数据对象分别作为待处理数据对象,对每个待处理数据对象,根据该待处理数据对象的指定业务参数在该待处理数据对象具有的各检测属性取不同属性值时的取值,获取该待处理数据对象的异常度,进而根据各待处理数据对象的异常度,确定各待处理数据对象中的异常数据对象,实现了异常检测,同时无需标注数据,具有实现方便且成本较低等优势。【附图说明】为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的数据处理方法的流程示意图;图2为本申请另一实施例提供的数据处理装置的结构示意图;图3为本申请又一实施例提供的数据处理装置的结构示意图。【具体实施方式】为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请一实施例提供的数据处理方法的流程示意图。如图1所示,该方法包括:101、获取目标类目下至少一个数据对象分别作为待处理数据对象。102、对每个待处理数据对象,根据该待处理数据对象的指定业务参数在该待处理数据对象具有的各检测属性取不同属性值时的取值,获取该待处理数据对象的异常度。103、根据各待处理数据对象的异常度,确定各待处理数据对象中的异常数据对象。本实施例提供一种数据处理方法,可由数据处理装置来执行,用以在没有标注数据的情况下,实现数据对象的异常检测。本实施例并不限定数据对象的类型,凡是能够以数据形式表示的各种对象都可以采用本实施例提供的方法进行处理。例如,数据对象可以是网络服务、商品对象等。另外,数据对象一般具有多个属性,例如材料、颜色、尺寸、体积等。根据数据对象的不同,数据对象具有的属性也会有所差别。在实际应用中,数据对象中可能存在异常数据对象,需要发现异常数据对象,以便及时对这些异常数据对象或者异常数据对象涉及的业务等进行处理。举例说明,以电子商务领域为例,数据对象可以是商品对象,一些商品提供商(简称为卖家)可能会故意提高或降低某些商品的价格,出现作弊行为,影响电商平台的正常秩序。因此,需要发现异常商品对象,以便进行反作弊处理等。值得说明的是,本实施例并不限制具体的业务场景,凡是能够依赖数据对象的属性进行异常检测的场景均可采用本实施例提供的方法。随着数据对象的数量、类型越来越多,各平台开始通过类目对数据对象进行管理。类目之间具有层级关系,例如,可以从根类目开始逐级向下扩展,直到叶子类目。同一类目下的数据对象具有一些共性特征,例如具有相同或相似的属性。因此,可以以类目为单位,对各类目下的数据对象分别进行异常检测处理,以获得各类目下的异常数据对象。在本实施例中,目标类目可以是各层级的类目,较为优选的可以是叶子类目。在目标类目下有众多数据对象,可以获取目标类目下的至少一个数据对象分别作为待处理数据对象。优选的,可以获取目标类目下各数据对象分别作为待处理数据对象。另外,异常检测处理需要结合具体的业务场景,也就是说,在该业务场景下需要对数据对象进行异常检测。通常,与数据对象有关的业务处理,都会依赖于数据对象的某个或某些业务参数,该业务参数与业务处理过程相关,并且数据对象是否异常可以通过该数据对象的该业务参数的波动情况来体现。根据应用场景的不同,该指定业务参数也会有所不同。举例说明,以电子商务领域为例,数据对象可以是商品对象,指定业务参数可以是商品对象的销售价格、销售量、销售额度等中的至少一个。进一步,为了体现数据对象的指定业务参数的波动情况,需要预先确定用于异常检测过程的属性,简称为检测属性。检测属性是待处理数据对象具有的属性中的部分或全部属性。后续将详细介绍确定检测属性的过程。基于上述,对于每个待处理数据对象,可以根据待处理数据对象的指定业务参数在该待处理数据对象具有的各检测属性取不同属性值时的取值,获取该待处理数据对象的异常度。通过该处理,可以获得各待处理数据对象的异常度。之后,可以根据各待处理数据对象的异常度,确定各待处理数据对象中的异常数据对象。在本实施例中,数据处理装置通过各待处理数据对象的指定业务参数在该待处理数据对象具有的各检测属性取不同属性值时的取值,获取各待处理数据对象的异常度,进而根据各待处理数据对象的异常度,确定各待处理数据对象中的异常数据本文档来自技高网...
数据处理方法及装置

【技术保护点】
一种数据处理方法,其特征在于,包括:获取目标类目下至少一个数据对象分别作为待处理数据对象;对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度;根据各待处理数据对象的异常度,确定所述各待处理数据对象中的异常数据对象。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标类目下至少一个数据对象分别作为待处理数据对象;对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度;根据各待处理数据对象的异常度,确定所述各待处理数据对象中的异常数据对象。2.根据权利要求1所述的方法,其特征在于,所述对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度之前,包括:对所述各待处理数据对象进行抽样,以获得至少一个训练数据对象;从所述至少一个训练数据对象具有的属性中,确定所述检测属性。3.根据权利要求2所述的方法,其特征在于,所述对所述各待处理数据对象进行抽样,以获得至少一个训练数据对象,包括:对所述各待处理数据对象进行分层随机抽样,以获得所述至少一个训练数据对象。4.根据权利要求2所述的方法,其特征在于,所述从所述至少一个训练数据对象具有的属性中,确定所述检测属性,包括:获取所述至少一个训练数据对象具有的属性分别作为候选属性;对每个候选属性,根据具有所述候选属性的训练数据对象的所述指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度;根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的属性作为所述检测属性。5.根据权利要求2所述的方法,其特征在于,所述从所述至少一个训练数据对象具有的属性中,确定所述检测属性,包括:确定所述至少一个训练数据对象具有的各属性;对每个属性,统计所述属性在所述至少一个训练数据对象中出现的频次;根据各属性在所述至少一个训练数据对象中出现的频次,确定所述检测属性。6.根据权利要求2-5任一项所述的方法,其特征在于,所述对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度,包括:对每个待处理数据对象,确定所述待处理数据对象具有的各检测属性分别作为目标检测属性;对每个目标检测属性,根据具有所述目标检测属性的各训练数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值以及所述待处理数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值,计算所述待处理数据对象在所述目标检测属性下的异常得分;根据所述待处理数据对象在各目标检测属性下的异常得分,获得表示所述待处理数据对象的异常度的标准异常得分。7.根据权利要求6所述的方法,其特征在于,所述根据具有所述目标检测属性的各训练数据对象的指定业务参数在所述目标检测属性取不同属性值时的取值以及所述待处理数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值,计算所述待处理数据对象在所述目标检测属性下的异常得分,包括:计算具有所述目标检测属性的各训练数据对象的指定业务参数在所述目标检测属性取不同属性值时的取值之间的第一相对波动率,并加入波动率数组;根据所述波动率数组中的第一相对波动率,获取波动率均值和波动率方差;计算所述待处理数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值之间的第二相对波动率;根据所述第二相对波动率、所述波动率均值和所述波动率方差,计算所述待处理数据对象在所述目标检测属性下的异常得分。8.根据权利要求7所述的方法,其特征在于,所述根据所述第二相对波动率、所述波动率均值和所述波动率方差,计算所述待处理数据对象在所述目标检测属性下的异常得分,包括:根据公式获得所述待处理数据对象的标准异常得分;f(r)为所述待处理数据对象的标准异常得分;r为所述第二相对波动率;μ为所述波动率均值;σ为所述波动率方差;β1为控制高斯数据可信比例的参数;β2为控制高斯曲线平滑性的参数。9.根...

【专利技术属性】
技术研发人员:冯银付黄刚胡熠
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1