用于机器学习性能测试和改进的数据分片制造技术

技术编号:26690718 阅读:16 留言:0更新日期:2020-12-12 02:41
用于机器学习性能测试和改进的数据分片。用于识别和改进表现不佳的机器学习ML的方法和计算机程序产品。该方法包括基于表示利用ML模型的系统的要求的功能模型对ML模型的数据进行分片。功能模型包括属性集合和相应的值域。每个数据分片与功能模型的一个或多个属性的不同估值相关联。基于属性的估值,将ML模型的每个数据实例映射到一个或多个数据分片。对于每个数据分片,基于ML模型在映射到数据分片的每个数据实例上的应用来计算ML模型的性能测度。可基于数据分片的性能测度来执行ML模型是否符合目标性能要求的确定。

【技术实现步骤摘要】
用于机器学习性能测试和改进的数据分片
本公开总体上涉及机器学习测试,并且尤其涉及表现不佳的机器学习的识别和改进。
技术介绍
基于机器学习的解决方案变得越来越流行和普及。许多计算机系统利用机器学习模型来有效地执行特定任务,而无需使用显式指令,而是依靠模式和推理。机器学习算法被广泛用于各种应用中,例如电子邮件过滤和计算机视觉,在这些应用中,开发用于执行任务的特定指令的算法是不可行的。可以利用不同的性能和准确度度量(metric)来评估机器学习模型的性能,例如F1分数、准确度等。准确度可以是作为被正确分类的总项目的百分比的测度(measure)。F1分数是精确度(例如,在被识别为正数的总项目当中被正确识别为正数的项目数)和召回率(例如,在总真正数(truepositives)当中被正确识别为正数的项目数)的调和平均值。
技术实现思路
所公开的主题的一个示例性实施例是一种方法,包括:利用机器学习预测模型获得表示系统的系统要求的功能模型。所述机器学习预测模型可被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合,每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签。所述原始数据包括元数据。所述方法还包括对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值。所述确定值可包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片,计算所述机器学习预测模型在所述数据分片上的性能测度。所述计算可基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用,从而对于每个数据分片计算不同的性能测度。所述方法还包括基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。所公开的主题的另一个示例性实施例是一种方法,包括:获得表示系统的系统要求的功能模型。所述系统可能够利用多个机器学习预测模型,每个机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合,每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签,其中所述原始数据包括元数据。所述方法还包括对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值。所述确定值包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片,计算所述多个机器学习预测模型中的每个机器学习预测模型在所述数据分片上的性能测度。所述计算可基于每个机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用来执行,从而对于每个数据分片计算不同性能测度集合,每个性能测度测量不同机器学习预测模型在所述数据分片上的性能。所述方法还包括对于每个数据分片,基于所述每个数据分片的所述不同性能测度集合从所述多个机器学习中确定所选择的机器学习预测模型。响应于获得标签要由所述系统所估计的数据实例,所述方法包括确定所述数据实例所映射到的数据分片;以及利用对于所述数据分片确定的所选择的机器学习预测模型来提供用于所述数据实例的所估计的标签。所公开的主题的又一示例性实施例是一种计算机程序产品,包括保存程序指令的非瞬态计算机可读存储介质,所述程序指令在被处理器读取时使所述处理器执行方法,所述方法包括:利用机器学习预测模型获得表示系统的系统要求的功能模型。所述机器学习预测模型可被配置为基于特征向量的估值来提供所估计的预测。所述功能模型可包括属性集合,每个属性具有相应的值域。所述属性集合可包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中。所述方法还包括基于所述功能模型确定数据分片集合。所述数据分片集合中的每个数据分片可与所述功能模型的一个或多个属性的不同估值相关联。所述方法还包括获得测试数据实例。每个测试数据实例可包括原始数据和标签。所述原始数据包括元数据。所述方法还包括对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值。所述确定值可包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片。所述方法还包括对于每个数据分片,计算所述机器学习预测模型在所述数据分片上的性能测度。所述计算可基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用,从而对于每个数据分片计算不同的性能测度。所述方法还包括基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。附图说明根据以下结合附图进行的详细描述,将会更充分地理解和领会本公开的主题,在附图中,对应或相似的数字或字符指示对应或相似的组件。除非另有指示,否则附图提供本公开的示例性实施例或方面,并且不限制本公开的范围。在附图中:图1A-图1B示出了根据所公开的主题的一些示例性实施例的方法的流程图;图2A-图2C示出了根据所公开的主题的一些示例性实施例的方法的流程图;和图3示出了根据所公开的主题的一些示例性实施例的示例性架构的示意图。具体实施方式由所公开的主题处理的一个技术问题是提供用于测试机器学习预测模型的质量的合适方法。在一些示例性实施例中,机器学习模型可能固有地不完整。机器学习模型可能仅保证统计上正确的答案。可以基于诸如F1分数、准确度等机器学习度量来执行测试机器学习模型。机器学习模型的这样的测试可能会忽略经典的质量问题,例如如何正确覆盖机器学习模型的所有业务要求、如何检测哪些业务领域未被充分测试等。这可能会导致机器学习模型与其业务要求之间的差距。例如,用来训练机器学习模型的训练数据可能偏向一组特定特征,例如攻击警官分析可能偏向男性黑人。当测试数据也类似地偏向时,机器学习模型的性能测度可能错误地高。为了确保这样的机器学习模型的质量,可能要求训练数据和测试数据包括黑人的真例和假例两者,白人的真例和假例两者,亚洲人、西班牙人等的真例和假例两者。作为另一示例,为了确保用于分析照片的机器学习预测模型的质量,可能要求训练数据对于白天和夜晚的照片两者有作用。由所公开的主题处理的另一技术问题是相对于模型的业务要求来改进机器学习性能。在一些示例性实施例中,在测试机器学习预测模型的质量中确定的低性能可能是差距的结果,从而导致训练数据丢失或不足。为了改进机器学习性能,可能要求弥补这样的差距。一种技术解决方案是调整旨在确保覆盖要求的经典软件的测试计划方法,以处理机器学习模型。可以利用该方法本文档来自技高网...

【技术保护点】
1.一种方法,包括:/n利用机器学习预测模型获得表示系统的系统要求的功能模型,其中所述机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测,其中所述功能模型包括属性集合,每个属性具有相应的值域,其中所述属性集合包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中;/n基于所述功能模型确定数据分片集合,其中所述数据分片集合中的每个数据分片与所述功能模型的一个或多个属性的不同估值相关联;/n获得测试数据实例,其中每个测试数据实例包括原始数据和标签,其中所述原始数据包括元数据;/n对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值,其中所述确定值包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片;/n对于每个数据分片,计算所述机器学习预测模型在所述数据分片上的性能测度,其中所述计算基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用,从而对于每个数据分片计算不同的性能测度;以及/n基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。/n

【技术特征摘要】
20190610 US 16/435,6481.一种方法,包括:
利用机器学习预测模型获得表示系统的系统要求的功能模型,其中所述机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测,其中所述功能模型包括属性集合,每个属性具有相应的值域,其中所述属性集合包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中;
基于所述功能模型确定数据分片集合,其中所述数据分片集合中的每个数据分片与所述功能模型的一个或多个属性的不同估值相关联;
获得测试数据实例,其中每个测试数据实例包括原始数据和标签,其中所述原始数据包括元数据;
对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值,其中所述确定值包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片;
对于每个数据分片,计算所述机器学习预测模型在所述数据分片上的性能测度,其中所述计算基于所述机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用,从而对于每个数据分片计算不同的性能测度;以及
基于所述数据分片的性能测度确定所述机器学习预测模型是否符合目标性能要求。


2.根据权利要求1所述的方法,还包括:
获得由用户确定的覆盖目标;
其中基于所述覆盖目标来执行所述确定数据分片集合。


3.根据权利要求1所述的方法,还包括:
响应于确定数据分片的性能测度低于所述目标性能要求,确定对于所述数据分片的第二机器学习预测模型;
其中响应于获得要估计的数据实例,
确定所述数据实例被映射到所述数据分片;以及
利用所述第二机器学习预测模型来提供对于所述数据实例的所估计的预测。


4.根据权利要求1所述的方法,其中所述功能模型还包括对所述属性的约束集合,每个约束定义对所述功能模型的至少两个属性的值组合的约束;其中基于所述约束集合来执行所述确定数据分片集合,由此将每个数据分片与满足所述约束集合的所述功能模型的所述一个或多个属性的估值相关联。


5.根据权利要求1所述的方法,其中所述计算包括:对于每个数据分片,确定映射到所述数据分片的测试数据实例的数量,其中响应于确定映射到数据分片的测试数据实例的数量低于预定阈值,针对所述数据分片提供负性能测度。


6.根据权利要求5所述的方法,其中响应于对所述数据分片提供负性能测度,执行以下至少一项:
添加映射到所述数据分片的测试数据实例;以及
指示无法提供对于映射到所述数据分片的数据实例的所估计的预测。


7.根据权利要求1所述的方法,其中所述确定所述功能模型的每个属性的值包括利用所述测试数据实例的元数据来确定所述至少一个基于元数据的属性的值,其中所述元数据不是用于所述机器学习预测模型的特征向量的估值。


8.一种方法,包括:
获得表示系统的系统要求的功能模型,其中所述系统能够利用多个机器学习预测模型,每个机器学习预测模型被配置为基于特征向量的估值来提供所估计的预测,其中所述功能模型包括属性集合,每个属性具有相应的值域,其中所述属性集合包括至少一个基于元数据的属性,所述至少一个基于元数据的属性没有包括在所述特征向量中;
基于所述功能模型确定数据分片集合,其中所述数据分片集合中的每个数据分片与所述功能模型的一个或多个属性的不同估值相关联;
获得测试数据实例,其中每个测试数据实例包括原始数据和标签,其中所述原始数据包括元数据;
对于每个测试数据实例,基于所述原始数据确定所述功能模型的每个属性的值,其中所述确定值包括利用所述测试数据实例的元数据,从而将所述测试数据实例映射到一个或多个数据分片;
对于每个数据分片,计算所述多个机器学习预测模型中的每个机器学习预测模型在所述数据分片上的性能测度,其中所述计算基于每个机器学习预测模型在映射到所述数据分片的每个测试数据实例上的应用,从而对于每个数据分片计算不同性能测度集合,每个性能测度测量不同机器学习预测模型在所述数据分片上的性能;
对于每个数据分片,基于每个数据分片的所述不同性能测度集合从所述多个机器学习中确定所选择的机器学习预测模型;
其中响应于获得标签要由所述系统所估计的数据实例,
确定所述数据实例所映射到的数据分片;以及
利用对于所述数据分片确定的所选择的机器学习预测模型来提供用于所述数据实例的所估计的标签...

【专利技术属性】
技术研发人员:R·博瑞尔E·法尔彻O·拉兹A·兹罗尼克
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1