【技术实现步骤摘要】
一种基于最近邻方法的数据漂移判别方法及装置
本申请涉及概念漂移领域,尤其涉及一种基于最近邻方法的数据漂移判别方法及装置。
技术介绍
随着网络应用的普遍和发展,各行业的数据正在以数据流的形式不断产生,具有海量、快速变化的特点。例如,在工业领域,传感器需要不断采集新的数据;在电商领域,商家需要不断获取用户的行为数据。针对同一对象,在不同时间采集到的数据称为时间序列数据,其可用于描述对象随时间变化的情况。但是,在很多领域中,数据分布可能会随着时间产生不可预测的变化,导致数据漂移,而数据漂移会导致现有的数据模型不能应用于新的数据。因此,为了选择合适的数据模型,数据分析者就需要判断数据中是否存在数据漂移。目前,存在一种判断是否发生数据漂移的算法,为三支决策树概念算法。这种算法需要在检测过程中,用决策树对训练数据进行分类,然后根据各子树的分类错误率,将它们划入三支决策的L域、R域、M域中。其中L域、R域、M域分别代表数据没有发生漂移,数据发生漂移,数据可能发生漂移。但是,现有的判断数据漂移的算法,包括上述三支决策 ...
【技术保护点】
1.一种基于最近邻方法的数据漂移判别方法,其特征在于,所述方法包括:/n服务器获取标准参考数据组;/n获取测试数据组;/n针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;/n根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。/n
【技术特征摘要】
1.一种基于最近邻方法的数据漂移判别方法,其特征在于,所述方法包括:
服务器获取标准参考数据组;
获取测试数据组;
针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性;
根据所述测试数据组中每个待测试数据的相似性判断结果,判断所述测试数据组是否发生数据漂移。
2.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,
所述标准参考数据组的产生时间早于所述测试数据组的产生时间。
3.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,获取测试数据组之前,所述方法还包括:
服务器确定测试数据窗口,所述测试数据窗口用于存储所述测试数据组。
4.根据权利要求1所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,针对所述测试数据组里每个待测试数据,基于最近邻域算法,判断该待测试数据与所述标准参考数据组的相似性,以及该待测试数据与所述测试数据组的相似性,包括:
计算所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离;
基于所述待测试数据与所述标准参考数据组中每个数据的距离,以及所述待测试数据与所述测试数据组中每个剩余数据的距离,选取距离所述待测试数据最近的前K条数据,所述K为预设参数;
基于所述K条数据,判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性。
5.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,所述预设参数K为奇数。
6.根据权利要求4所述的一种基于最近邻方法的数据漂移判别方法,其特征在于,基于所述K条数据,判断所述待测试数据与所述标准参考数据组和所述待测试数据组的相似性,包括:
确定所述K条数据中属于所述标准数据组的数据的数量,作为第一数量;
确定所述K条数据中属于所述测试数据组的数据的数量,作为第二数量;
若所述第一数量大于所述...
【专利技术属性】
技术研发人员:李锐,金长新,
申请(专利权)人:济南浪潮高新科技投资发展有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。