一种数据的处理方法、装置及设备制造方法及图纸

技术编号:18351236 阅读:29 留言:0更新日期:2018-07-02 01:00
本申请实施例公开了一种数据的处理方法、装置及设备,该方法包括:从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果,其中,计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量,然后,基于上述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。利用本申请实施例,可以简化了数据处理的复杂度,提高了数据处理效率。

【技术实现步骤摘要】
一种数据的处理方法、装置及设备
本申请涉及计算机
,尤其涉及一种数据的处理方法、装置及设备。
技术介绍
随着网络技术和终端技术的不断发展,电子商务得到了快速发展,为了给电子商务的商户提供较好的商户服务,帮助商户拓展市场份额,发展会员体系,使得整个会员营销过程能够自动化并且实时化,人们开发了营销系统。而为了保证营销系统每日稳定运行,就需要对营销系统运行日志进行实时监控,及时定位运行异常,以便做到实时异常发现,实时进行代码调整和发布。从规模性的预料信息中找到异常的信息,通常的实现方式是分析日志内容,查找到存在异常的日志,也即是在海量的正确数据中,找到很少的异常数据过程,具体地,通常可以采用朴素贝叶斯模型实现,通过朴素贝叶斯模型直接计算统计结果和人工标注数据之间的关联性,其中具体可以包括通过各种链接检测工具和代码检查工具在内的工程集合对网站进行评分,通过评分结果来判断是否为异常数据。然后,通过上述方式从海量的正确数据中找到很少的异常数据,需要设置各种链接检测工具和代码检查工具,而且需要对待测样本中的所有数据进行人工标注,从而使得数据处理的复杂度很高,数据处理效率低下。
技术实现思路
本申请实施例的目的是提供一种数据的处理方法、装置及设备,以实现仅通过少量的计算样本即可以对第一分类器和第二分类器进行训练,并结合第一分类器和第二分类器对不断增加待测样本中的业务日志集的计算样本进行分类,保证了分类结果的准确性,简化了数据处理的复杂度,提高了数据处理效率。为解决上述技术问题,本申请实施例是这样实现的:本申请实施例提供的一种数据的处理方法,所述方法包括:从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果;所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量;基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。可选地,所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前,还包括:从待测样本中选取第二预定数量的业务日志集作为计算样本;获取所述计算样本的预分类结果;基于所述预分类结果,通过所述计算样本对所述第一分类器进行训练,得到训练后的第一分类器。可选地,所述获取所述计算样本的预分类结果,包括:根据预设的分类规则对所述计算样本进行分类,得到所述预分类结果。可选地,所述业务日志集由一个或多个业务日志组合形成的集合,每个业务日志集中包含的业务日志具有相同的业务标识。可选地,所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前,还包括:获取待解析的业务日志;对所述业务日志的正文进行向量化,得到向量化的日志正文;对所述向量化的日志正文进行聚类,得到所述业务日志所属的服务类别;通过预定的业务标识,对所述业务日志进行合并,生成业务日志集;将生成的业务日志集作为所述待测样本。可选地,所述第二分类器为支持向量机分类器,所述通过预定的业务标识,对所述业务日志进行合并,生成业务日志集之后,还包括:针对每个业务日志集,将包含的不同服务类别的业务日志的数量作为统计特征;所述基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集,包括:基于所述分类结果,以及计算样本中每个业务日志集的统计特征,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。可选地,所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器,所述第二分类器为支持向量机分类器、期望最大化EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。可选地,所述从待测样本中选取第一预定数量的业务日志集加入到计算样本中,将计算样本输入到第一分类器中,得到计算样本的分类结果,包括:当计算样本中包含的业务日志集的数量达到预定的数量阈值时,将待测样本中的业务日志集加入到计算样本中,通过第一分类器对计算样本进行分类,得到计算样本的分类结果。本申请实施例提供的一种数据的处理装置,所述装置包括:分类结果确定模块,用于从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果;所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量;目标日志集确定模块,用于基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。可选地,还包括:计算样本确定模块,用于从待测样本中选取第二预定数量的业务日志集作为计算样本;预分类结果获取模块,用于获取所述计算样本的预分类结果;训练模块,用于基于所述预分类结果,通过所述计算样本对所述第一分类器进行训练,得到训练后的第一分类器。可选地,所述预分类结果获取模块,用于根据预设的分类规则对所述计算样本进行分类,得到所述预分类结果。可选地,所述业务日志集由一个或多个业务日志组合形成的集合,每个业务日志集中包含的业务日志具有相同的业务标识。可选地,还包括:日志获取模块,用于获取待解析的业务日志;向量化模块,用于对所述业务日志的正文进行向量化,得到向量化的日志正文;服务类别确定模块,用于对所述向量化的日志正文进行聚类,得到所述业务日志所属的服务类别;日志集生成模块,用于通过预定的业务标识,对所述业务日志进行合并,生成业务日志集;待测样本确定模块,用于将生成的业务日志集作为所述待测样本。可选地,所述第二分类器为支持向量机分类器,还包括:特征确定模块,用于针对每个业务日志集,将包含的不同服务类别的业务日志的数量作为统计特征;所述目标日志集确定模块,用于基于所述分类结果,以及计算样本中每个业务日志集的统计特征,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。可选地,所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器,所述第二分类器为支持向量机分类器、期望最大化EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。可选地,所述目标日志集确定模块,用于当计算样本中包含的业务日志集的数量达到预定的数量阈值时,将待测样本中的业务日志集加入到计算样本中,通过第一分类器对计算样本进行分类,得到计算样本的分类结果。本申请实施例提供的一种数据的处理设备,所述设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果;所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量;基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。由以上本申请实施例提供的技术方案可见,本申请实施例通过从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果,其中,计算样本中包含的业务日志集的数量小于待测样本中的业务日志集的数量,然后,基于上述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包本文档来自技高网...
一种数据的处理方法、装置及设备

【技术保护点】
1.一种数据的处理方法,其特征在于,所述方法包括:从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果;所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量;基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。

【技术特征摘要】
1.一种数据的处理方法,其特征在于,所述方法包括:从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器对计算样本进行分类,得到计算样本的分类结果;所述计算样本中包含的业务日志集的数量小于所述待测样本中的业务日志集的数量;基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。2.根据权利要求1所述的方法,其特征在于,所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前,还包括:从待测样本中选取第二预定数量的业务日志集作为计算样本;获取所述计算样本的预分类结果;基于所述预分类结果,通过所述计算样本对所述第一分类器进行训练,得到训练后的第一分类器。3.根据权利要求2所述的方法,其特征在于,所述获取所述计算样本的预分类结果,包括:根据预设的分类规则对所述计算样本进行分类,得到所述预分类结果。4.根据权利要求1或2所述的方法,其特征在于,所述业务日志集由一个或多个业务日志组合形成的集合,每个业务日志集中包含的业务日志具有相同的业务标识。5.根据权利要求4所述的方法,其特征在于,所述从待测样本中选取预定数量的业务日志集加入到计算样本中之前,还包括:获取待解析的业务日志;对所述业务日志的正文进行向量化,得到向量化的日志正文;对所述向量化的日志正文进行聚类,得到所述业务日志所属的服务类别;通过预定的业务标识,对所述业务日志进行合并,生成业务日志集;将生成的业务日志集作为所述待测样本。6.根据权利要求5所述的方法,其特征在于,所述第二分类器为支持向量机分类器,所述通过预定的业务标识,对所述业务日志进行合并,生成业务日志集之后,还包括:针对每个业务日志集,将包含的不同服务类别的业务日志的数量作为统计特征;所述基于所述分类结果,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集,包括:基于所述分类结果,以及计算样本中每个业务日志集的统计特征,通过预定的第二分类器对计算样本进行分类,确定计算样本中包含的目标业务日志集。7.根据权利要求1所述的方法,其特征在于,所述第一分类器为朴素贝叶斯分类器、DNF分类器、Spy分类器或Rocchio分类器,所述第二分类器为支持向量机分类器、期望最大化EM分类器、PEBL分类器、SVM-IS分类器或SVM-I分类器。8.根据权利要求1所述的方法,其特征在于,所述从待测样本中选取第一预定数量的业务日志集加入到计算样本中,将计算样本输入到第一分类器中,得到计算样本的分类结果,包括:当计算样本中包含的业务日志集的数量达到预定的数量阈值时,将待测样本中的业务日志集加入到计算样本中,通过第一分类器对计算样本进行分类,得到计算样本的分类结果。9.一种数据的处理装置,其特征在于,所述装置包括:分类结果确定模块,用于从待测样本中选取第一预定数量的业务日志集加入到计算样本中,通过预定的第一分类器...

【专利技术属性】
技术研发人员:郑岩冯健
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1