数据偏移应对策略评测方法、装置及设备制造方法及图纸

技术编号：41128923 阅读：3 留言：0更新日期：2024-04-30 17:57

本发明专利技术涉及机器学习技术领域，公开了一种数据偏移应对策略评测方法、装置及设备，该方法包括：确定带有数据偏移应对策略的机器学习模型进行预测的服务，作为待评测模型服务；获取测试数据，读取首条测试数据至所述待评测模型服务中，当第一事件发生或第二事件发生时，将下一条测试数据发送至所述待评测模型服务；基于所述待评测模型服务的执行过程获取所述待评测模型服务的相关参数，根据所述相关参数得到全局平均预测效果指标。本发明专利技术解决了如何评测数据偏移应对策略的问题，填补了深度学习领域当中数据偏移应对策略精确评测方法的空白，使评测更加准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习，尤其涉及一种数据偏移应对策略评测方法、装置及设备。

技术介绍

1、机器学习模型的一种常见的开发和应用流程大致是，开发者首先面向目标场景设计出一套机器学习算法或是直接选用现成算法，接着准备一定量的能够代表目标场景的数据（即数据集），然后用准备好的算法在准备好的数据集的基础上训练出表现良好的模型，最后再把训练好的模型部署到线上环境。根据机器学习的理论，在线下表现良好的模型在线上也能表现良好的一个前提是，模型在线上所接触到的数据与用来训练该模型的数据是服从相同的统计分布的。事实上，在许多现实场景中，这个前提并不完全成立。例如，生产设备老化、生产工艺变化、天气温湿度差异等因素，都会带来线上数据分布随时间变化进而偏离训练集分布的结果。业界把这种线上数据分布随时间变化的现象称为数据偏移（conceptdrift）。

2、数据偏移现象会导致模型效果劣化，这要求模型部署者采取应对策略。一种典型的策略是，既然线上数据分布会随时间变化，那只须每隔一段时间就用最近一段时间的带真实标签的线上数据来重新训练模型即可，这样一来模型的训练集或者说“知识”就从线下的较过时的版本更新到了最近一段时间的较新的版本，虽然无法保证其与当下最新的数据分布完全一致，但至少能够认为最近一段时间的较新的版本与当下最新的数据分布比较接近。这样的“定期重训”策略的缺点在于，无法保证重训的时间节奏与数据偏移的时间节奏相一致，即有可能在并没有发生数据偏移的时候进行了重训，进而浪费计算资源，也有可能在发生了数据偏移的时候却没有进行重训，进而影响模型效果。

3、为了让模型重训的时间点更合理，有很多偏移检测算法被提出。偏移检测算法大致可以分为两类：一类是基于模型效果的偏移检测算法，这类算法监视模型预测效果随时间的变化，在模型效果的下降具有统计显著性时汇报数据偏移；一类是基于输入分布的偏移检测算法，这类算法直接监视输入数据分布随时间的变化，其相比前一类算法的优势在于不需要线上数据的真实标签就能够工作（评价模型预测效果需要真实标签），但也存在计算成本过高和敏感度过高等问题。

技术实现思路

1、本专利技术提供了一种数据偏移应对策略评测方法、装置及设备，解决了如何评测数据偏移应对策略的问题。

2、一种数据偏移应对策略评测方法，包括：

3、确定带有数据偏移应对策略的机器学习模型进行预测的服务，作为待评测模型服务；

4、获取测试数据，读取首条测试数据至所述待评测模型服务中，当第一事件发生或第二事件发生时，将下一条测试数据发送至所述待评测模型服务；

5、基于所述待评测模型服务的执行过程获取所述待评测模型服务的相关参数，根据所述相关参数得到全局平均预测效果指标。

6、在本专利技术的一种实施例中，所述当第一事件发生或第二事件发生时，将下一条测试数据发送至所述待评测模型服务，具体包括：根据预设时间间隔逐条将所述测试数据输入至所述待评测模型服务中；或当检测到所述待评测模型服务处于饥饿状态时，立即向所述待评测模型服务发送下一条数据。

7、在本专利技术的一种实施例中，所述饥饿状态为所述待评测模型服务等待下一条测试数据的空闲状态。

8、在本专利技术的一种实施例中，检测所述待评测模型服务的饥饿状态，具体包括：在所述待评测模型服务的运行过程中，获取相关活跃线程的活跃计数；当检测到所述活跃计数为零时，确定所述待评测模型服务处于饥饿状态。

9、在本专利技术的一种实施例中，所述相关活跃线程为不依赖其他事件被动进行唤醒的线程。

10、在本专利技术的一种实施例中，在所述待评测模型服务的运行过程中，所述方法还包括：当创建了相关线程间的通信管道，且所述通信管道的消息源于所述待评测模型服务所接收的测试数据时，则从所述通信管道等待并取出一条消息前对所述活跃计数减一；在向所述通信管道传入一条消息前对所述活跃计数加一。

11、在本专利技术的一种实施例中，所述测试数据为带时间戳的数据，包括输入数据和真实标签；所述输入数据和其对应的真实标签具有相同标识。

12、在本专利技术的一种实施例中，所述获取所述待评测模型服务的相关参数，根据所述相关参数得到全局平均预测效果指标，具体包括：获取通过所述待评测模型服务返回的预测值；基于模型预测效果指标算法根据所述预测值和所述测试数据中的真实标签计算并返回所述待评测模型服务在给定测试数据上的全局平均预测效果指标。

13、一种数据偏移应对策略评测装置，包括：

14、数据获取模块，用于确定带有数据偏移应对策略的机器学习模型进行预测的服务，作为待评测模型服务；获取测试数据，读取首条测试数据至所述待评测模型服务中，当第一事件发生或第二事件发生时，将下一条测试数据发送至所述待评测模型服务；

15、模型评测模块，用于基于所述待评测模型服务的执行过程获取所述待评测模型服务的相关参数，根据所述相关参数得到全局平均预测效果指标。

16、一种数据偏移应对策略评测设备，包括：

17、至少一个处理器；以及，

18、与所述至少一个处理器通过总线通信连接的存储器；其中，

19、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被执行，以实现如上述各实施例任一项所述的方法。

20、一种非易失性存储介质，存储有计算机可执行指令，所述计算机可执行指令由处理器执行，以实现如上述各实施例任一项所述的方法。

21、本专利技术提供了一种数据偏移应对策略评测方法、装置及设备，至少包括以下有益效果：通过本专利技术提供的评测方法，能够更精确地评测数据偏移应对策略，进而为用户判断不同数据偏移应对策略的优劣提供了更准确的依据；对于假设各环节耗时均为零所带来的评测结果不准确的问题，填补了深度学习领域当中数据偏移应对策略精确评测方法的空白，使评测更加准确。

本文档来自技高网...

【技术保护点】

1.一种数据偏移应对策略评测方法，其特征在于，包括：

2.根据权利要求1所述的数据偏移应对策略评测方法，其特征在于，所述当第一事件发生或第二事件发生时，将下一条测试数据发送至所述待评测模型服务，具体包括：

3.根据权利要求2所述的数据偏移应对策略评测方法，其特征在于，所述饥饿状态为所述待评测模型服务等待下一条测试数据的空闲状态。

4.根据权利要求2所述的数据偏移应对策略评测方法，其特征在于，检测所述待评测模型服务的饥饿状态，具体包括：

5.根据权利要求4所述的数据偏移应对策略评测方法，其特征在于，所述相关活跃线程为不依赖其他事件被动进行唤醒的线程。

6.根据权利要求4所述的数据偏移应对策略评测方法，其特征在于，在所述待评测模型服务的运行过程中，所述方法还包括：

7.根据权利要求1所述的数据偏移应对策略评测方法，其特征在于，所述测试数据为带时间戳的数据，包括输入数据和真实标签；

8.根据权利要求7所述的数据偏移应对策略评测方法，其特征在于，所述获取所述待评测模型服务的相关参数，根据所述相关参数得到全

9.一种数据偏移应对策略评测装置，其特征在于，包括：

10.一种数据偏移应对策略评测设备，其特征在于，包括：

11.一种非易失性存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令由处理器执行，以实现如权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种数据偏移应对策略评测方法，其特征在于，包括：

3.根据权利要求2所述的数据偏移应对策略评测方法，其特征在于，所述饥饿状态为所述待评测模型服务等待下一条测试数据的空闲状态。

4.根据权利要求2所述的数据偏移应对策略评测方法，其特征在于，检测所述待评测模型服务的饥饿状态，具体包括：

5.根据权利要求4所述的数据偏移应对策略评测方法，其特征在于，所述相关活跃线程为不依赖其他事件被动进行唤醒的线程。

6.根据权利要求4所述的数据偏移应对策略...

【专利技术属性】
技术研发人员：裴忠一，杨淇，龙明盛，王建民，黄亦芃，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人