The present application provides a data processing method and apparatus. The data processing method includes: acquiring the target under the category of at least one data object as the data object to be treated; for each data object to be processed, according to the specified traffic parameters data objects in the value data object with each attribute detection for different values of the attribute to be processed, obtain the abnormal degree of data to be processed objects; according to the data object anomaly, determine the abnormal data object of the pending data object. This application does not need to annotate the data, so it can detect the abnormal data.
【技术实现步骤摘要】
数据处理方法及装置
本申请涉及互联网
,尤其涉及一种数据处理方法及装置。
技术介绍
随着互联网技术的发展,网络平台上提供的网络资源越来越多。对于网络平台来说,一般会设置一些规则用于对网络资源及其使用进行限制和规范。但是,有些网络资源提供者可能会刻意规避网站设置的规则,使网络资源的排序靠前或吸引用户点击,从而达到引流的目的。例如,在电商领域,卖家通过设置该商品的价格为超低价或超高价,或者将不同商品违规放在一起或多个商品捆绑销售等,使得所卖商品的价格与平台其他商品的价格差异拉大,进而在商品价格相关的排序中非法获利。异常检测是目前数据挖掘领域里的一个热门课题。通过异常检测技术可以发现潜在的违规行为。一种现有的异常检测技术是基于模型训练的异常检测方法,该方法的原理是:在有标注训练数据的情况下,利用有监督学习算法或半监督学习算法,如支持向量机(SupportVectorMachine,SVM)、线性回归(LinearRegression,LR)和神经网络(NeuralNetwork,NN)等,训练得到分类器,对商品价格是否异常进行判断。在没有标注数据的情况下,数据聚类分析是最常用的方式,K-Means和混合高斯聚类等模型常被用来对数据进行聚类。基于模型训练的方法由于是学习得到一个可重用的算法模型或者数据聚类结果,因此可以对新加入的数据进行快速判断,具有较强的泛化能力。但是,基于模型训练的方法通常需要有标注数据,然而对数据进行标注成本昂贵,人工工作量也较大,并不适合数据量较大的场景。
技术实现思路
本申请的多个方面提供一种数据处理方法及装置,无需对数据进 ...
【技术保护点】
一种数据处理方法,其特征在于,包括:获取目标类目下至少一个数据对象分别作为待处理数据对象;对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度;根据各待处理数据对象的异常度,确定所述各待处理数据对象中的异常数据对象。
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取目标类目下至少一个数据对象分别作为待处理数据对象;对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度;根据各待处理数据对象的异常度,确定所述各待处理数据对象中的异常数据对象。2.根据权利要求1所述的方法,其特征在于,所述对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度之前,包括:对所述各待处理数据对象进行抽样,以获得至少一个训练数据对象;从所述至少一个训练数据对象具有的属性中,确定所述检测属性。3.根据权利要求2所述的方法,其特征在于,所述对所述各待处理数据对象进行抽样,以获得至少一个训练数据对象,包括:对所述各待处理数据对象进行分层随机抽样,以获得所述至少一个训练数据对象。4.根据权利要求2所述的方法,其特征在于,所述从所述至少一个训练数据对象具有的属性中,确定所述检测属性,包括:获取所述至少一个训练数据对象具有的属性分别作为候选属性;对每个候选属性,根据具有所述候选属性的训练数据对象的所述指定业务参数在所述候选属性取不同属性值时的取值,获取所述候选属性对所述指定业务参数的影响程度;根据各候选属性对所述指定业务参数的影响程度,从所述各候选属性中选择满足所述指定业务参数对应业务需求的属性作为所述检测属性。5.根据权利要求2所述的方法,其特征在于,所述从所述至少一个训练数据对象具有的属性中,确定所述检测属性,包括:确定所述至少一个训练数据对象具有的各属性;对每个属性,统计所述属性在所述至少一个训练数据对象中出现的频次;根据各属性在所述至少一个训练数据对象中出现的频次,确定所述检测属性。6.根据权利要求2-5任一项所述的方法,其特征在于,所述对每个待处理数据对象,根据所述待处理数据对象的指定业务参数在所述待处理数据对象具有的各检测属性取不同属性值时的取值,获取所述待处理数据对象的异常度,包括:对每个待处理数据对象,确定所述待处理数据对象具有的各检测属性分别作为目标检测属性;对每个目标检测属性,根据具有所述目标检测属性的各训练数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值以及所述待处理数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值,计算所述待处理数据对象在所述目标检测属性下的异常得分;根据所述待处理数据对象在各目标检测属性下的异常得分,获得表示所述待处理数据对象的异常度的标准异常得分。7.根据权利要求6所述的方法,其特征在于,所述根据具有所述目标检测属性的各训练数据对象的指定业务参数在所述目标检测属性取不同属性值时的取值以及所述待处理数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值,计算所述待处理数据对象在所述目标检测属性下的异常得分,包括:计算具有所述目标检测属性的各训练数据对象的指定业务参数在所述目标检测属性取不同属性值时的取值之间的第一相对波动率,并加入波动率数组;根据所述波动率数组中的第一相对波动率,获取波动率均值和波动率方差;计算所述待处理数据对象的所述指定业务参数在所述目标检测属性取不同属性值时的取值之间的第二相对波动率;根据所述第二相对波动率、所述波动率均值和所述波动率方差,计算所述待处理数据对象在所述目标检测属性下的异常得分。8.根据权利要求7所述的方法,其特征在于,所述根据所述第二相对波动率、所述波动率均值和所述波动率方差,计算所述待处理数据对象在所述目标检测属性下的异常得分,包括:根据公式获得所述待处理数据对象的标准异常得分;f(r)为所述待处理数据对象的标准异常得分;r为所述第二相对波动率;μ为所述波动率均值;σ为所述波动率方差;β1为控制高斯数据可信比例的参数;β2为控制高斯曲线平滑性的参数。9.根...
【专利技术属性】
技术研发人员:冯银付,黄刚,胡熠,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。