【技术实现步骤摘要】
用于识别对预测器具有不利影响的数据漂移的方法和装置
本公开一般地涉及机器学习,更具体地说,涉及识别数据质量的下降。
技术介绍
机器学习(ML)算法处于学术研究以及商业化服务和产品的前沿。当寻找预测模型的问题已基本解决时,又出现了新问题。一个问题是实验室之外的预测模型的鲁棒性。诸如实施机器学习技术之类的预测模型取决于数据。预测模型可以与用于训练模型的数据一样好。如果训练数据提供了现实世界数据的充分表示,则预测模型很可能在用于生产时提供相对好的预测。一旦模型被训练并被用于在现实生活场景中做出实际预测,模型就可能遇到与用于训练模型的数据显著不同的数据,结果,模型可能提供不可靠的预测,并且在执行上通常会低于标准。
技术实现思路
所公开的主题的一个示例性实施例是一种方法,所述方法包括:获得基线数据集,其中,所述基线数据集包括第一组实例,每个实例包括在特征空间中的特征值,其中,所述第一组实例中的每个实例与标签相关联;基于所述第一组实例的所述特征值,在所述特征空间中确定一组集群;确定在所述一组集群上的实例的基线 ...
【技术保护点】
1.一种方法,包括:/n获得基线数据集,其中,所述基线数据集包括第一组实例,每个实例包括在特征空间中的特征值,其中,所述第一组实例中的每个实例与标签相关联;/n基于所述第一组实例的所述特征值,在所述特征空间中确定一组集群;/n确定在所述一组集群上的实例的基线分布,其中,所述确定所述基线分布是基于所述基线数据集;/n针对每个集群,计算所述每个集群的预测器的性能度量,其中,所述预测器被配置为估计实例的估计标签,其中,所述性能度量指示所述预测器对所述每个集群所包括的所述第一组实例的一部分的成功估计;/n获得第二数据集,其中,所述第二数据集包括第二组实例,其中,每个所述实例包括在所 ...
【技术特征摘要】
20190428 US 16/3967161.一种方法,包括:
获得基线数据集,其中,所述基线数据集包括第一组实例,每个实例包括在特征空间中的特征值,其中,所述第一组实例中的每个实例与标签相关联;
基于所述第一组实例的所述特征值,在所述特征空间中确定一组集群;
确定在所述一组集群上的实例的基线分布,其中,所述确定所述基线分布是基于所述基线数据集;
针对每个集群,计算所述每个集群的预测器的性能度量,其中,所述预测器被配置为估计实例的估计标签,其中,所述性能度量指示所述预测器对所述每个集群所包括的所述第一组实例的一部分的成功估计;
获得第二数据集,其中,所述第二数据集包括第二组实例,其中,每个所述实例包括在所述特征空间中的特征值;
确定在所述一组集群上的实例的第二分布,其中,所述确定所述第二分布是基于所述第二数据集;以及
基于所述第二分布和所述基线分布,并且基于所述一组集群中的至少一个集群的至少一个性能度量,识别所述第二数据集相对于所述基线数据集的数据漂移。
2.根据权利要求1所述的方法,
其中,所述获得所述第二数据集是使用硬件设备执行的;以及
其中,所述方法进一步包括:响应于识别所述数据漂移,替换所述硬件设备。
3.根据权利要求1所述的方法,
其中,所述预测器是使用训练数据集来训练的,其中,所述训练数据集包括训练实例和所述训练实例的标签;
其中,所述方法还包括:
响应于识别所述数据漂移,确定新的训练数据集,其中,所述新的训练数据集至少包括所述第二数据集的一部分,其中,所述新的训练数据集中的每个实例具有对应的标签;以及
使用所述新的训练数据集来训练所述预测器。
4.根据权利要求1所述的方法,
其中,所述确定所述一组集群是使用第一聚类函数执行的;
其中,所述方法还包括:
基于所述第一组实例的所述特征值,确定在所述特征空间...
【专利技术属性】
技术研发人员:E·法尔基,O·拉兹,M·扎马诺维奇,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。