针对机器学习模型的数据多样性可视化和量化制造技术

技术编号:39748838 阅读:12 留言:0更新日期:2023-12-17 23:46
提供了促进针对机器学习模型的数据多样性可视化和

【技术实现步骤摘要】
【国外来华专利技术】针对机器学习模型的数据多样性可视化和量化
[0001]相关申请的交叉引用
[0002]本申请要求
2021
年4月
28
日提交的名称为“DATA DIVERSITY VISUALIZATION AND QUANTIFICATION FOR MACHINE LEARNING MODELS”的美国非临时申请序列号
17/243,046
的优先权,该申请的全部内容以引用方式并入本文



[0003]本主题公开整体涉及机器学习模型,并且更具体地涉及用于可视化和
/
或量化由机器学习模型分析的数据中的多样性的技术


技术介绍

[0004]机器学习模型的性能取决于在其上训练机器学习模型的数据

在其上测试
/
验证机器学习模型的数据和
/
或机器学习模型在现场部署时遇到的数据

例如,如果在与原始训练数据显著不同的数据上进一步训练机器学习模型,则经训练的机器学习模型的性能可受到正面影响

相比之下,如果在与原始训练数据不显著不同的数据上进一步训练机器学习模型,则机器学习模型的性能可能受到负面影响

又如,当在现场部署时,经训练的机器学习模型可准确地分析基本上类似于原始训练数据的数据

相比之下,当在现场部署时,机器学习模型可能不准确地分析基本上不类似于原始训练数据的数据

因此,能够快速和r/>/
或准确地确定两个不同机器学习数据集是否彼此类似和
/
或彼此不同可以是有利的

遗憾的是,不存在促进不同机器学习数据集的快速手动和
/
或自动比较的常规工具

[0005]因此,可解决此技术问题的系统和
/
或技术可能是期望的


技术实现思路

[0006]以下呈现了
技术实现思路
以提供对本专利技术的一个或多个实施方案的基本理解


技术实现思路
不旨在标识关键或重要元素,也不旨在描绘具体实施方案的任何范围或权利要求的任何范围

其唯一目的是以简化形式呈现概念,作为稍后呈现的更详细描述的序言

在本文所述的一个或多个实施方案中,描述了促进针对机器学习模型的数据多样性可视化和
/
或量化的设备

系统

计算机实现的方法

装置和
/
或计算机程序产品

[0007]根据一个或多个实施方案,提供了一种系统

该系统可以包括可存储计算机可执行部件的计算机可读存储器

该系统还可以包括处理器,该处理器可以操作地耦接到计算机可读存储器并且可以执行存储在计算机可读存储器中的计算机可执行部件

在各种实施方案中,该计算机可执行部件可以包括接收器部件

在各种情况下,接收器部件可访问第一组数据候选和第二组数据候选,其中在该第一组数据候选上训练机器学习模型

在各个方面中,该计算机可执行部件还可包括激活部件

在各种情况下,该激活部件可获得由该机器学习模型基于该第一组数据候选生成的第一组潜在激活,并且可获得由该机器学习模型基于该第二组数据候选生成的第二组潜在激活

在各种情况下,该计算机可执行部件还可包括压缩部件

在各种情况下,该压缩部件可通过将维度降低技术应用于该第一组潜在激活
来生成第一组经压缩的数据点,并且可通过将该维度降低技术应用于该第二组潜在激活来生成第二组经压缩的数据点

在各个方面中,该计算机可执行部件还可包括多样性部件

在各种情况下,该多样性部件可基于该第一组经压缩的数据点和该第二组经压缩的数据点来计算多样性分数

[0008]根据一个或多个实施方案,上述系统可被实现为计算机实现的方法和
/
或计算机程序产品

附图说明
[0009]本专利或专利申请文件包含至少一个彩色绘制的附图

带有彩色附图的本专利或专利申请公布的副本将在提出请求并支付必要费用后由专利局提供

[0010]图1示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和
/
或量化的示例性

非限制性系统的框图

[0011]图2示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和
/
或量化的包括激活图的示例性

非限制性系统的框图

[0012]图3至图4示出了根据本文所述的一个或多个实施方案的示出可如何获得各种激活图的示例性

非限制性框图

[0013]图5示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和
/
或量化的包括经压缩的数据点的示例性

非限制性系统的框图

[0014]图6示出了根据本文所述的一个或多个实施方案的示出可如何获得各种经压缩的数据点的示例性

非限制性框图

[0015]图7示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和
/
或量化的包括多样性分数的示例性

非限制性系统的框图

[0016]图8示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和
/
或量化的包括图的示例性

非限制性系统的框图

[0017]图9至图
11
示出了根据本文所述的一个或多个实施方案的经压缩的数据点的示例性

非限制性图

[0018]图
12
至图
15
示出了根据本文所述的一个或多个实施方案的与针对机器学习模型的数据多样性的量化有关的示例性

非限制性计算机实现的方法的流程图

[0019]图
16
示出了根据本文所述的一个或多个实施方案的促进针对机器学习模型的数据多样性的可视化和
/
或量化的示例性

非限制性计算机实现的方法的流程图

[0020]图
17
示出了其中可促进本文所述的一个或多个实施方案的示例性

非限制性操作环境的框图

[0021]图
18
示出了可操作以本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种系统,所述系统包括:处理器,所述处理器执行存储在计算机可读存储器中的计算机可执行部件,所述计算机可执行部件包括:接收器部件,所述接收器部件访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;激活部件,所述激活部件获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;压缩部件,所述压缩部件通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及多样性部件,所述多样性部件基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数
。2.
根据权利要求1所述的系统,其中所述计算机可执行部件还包括:可视化部件,所述可视化部件呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图
。3.
根据权利要求2所述的系统,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且其中所述可视化部件响应于所述给定经压缩的数据点被点击而呈现所述给定数据候选
。4.
根据权利要求1所述的系统,其中所述第二组数据候选表示所述第一组数据候选的增强版本或者以其他方式表示用于所述机器学习模型的潜在训练数据,并且其中所述计算机可执行部件还包括:执行部件,所述执行部件响应于所述多样性分数满足预先确定的阈值的确定而推荐在所述第二组数据候选上训练所述机器学习模型,并且响应于所述多样性分数未能满足所述预先确定的阈值的确定而推荐不在所述第二组数据候选上训练所述机器学习模型
。5.
根据权利要求1所述的系统,其中所述第二组数据候选是未注释的,并且其中所述计算机可执行部件还包括:执行部件,所述执行部件通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个外围经压缩的数据点,并且推荐手动地注释来自所述第二组数据候选中的对应于所述一个或多个外围经压缩的数据点的一个或多个数据候选
。6.
根据权利要求1所述的系统,其中所述第二组数据候选是未注释的,并且其中所述计算机可执行部件还包括:执行部件,所述执行部件通过将所述第二组经压缩的数据点与所述第一组经压缩的数据点进行比较来识别所述第二组经压缩的数据点中的一个或多个非外围经压缩的数据点,并且推荐自动地注释来自所述第二组数据候选中的对应于所述一个或多个非外围经压缩的数据点的一个或多个数据候选
。7.
根据权利要求1所述的系统,其中所述维度降低技术是
t
分布随机相邻嵌入
(tSNE)

术或均匀流形近似和投影
(UMAP)
技术
。8.
一种计算机实现的方法,所述计算机实现的方法包括:由操作地耦接到处理器的设备访问第一组数据候选和第二组数据候选,其中在所述第一组数据候选上训练机器学习模型;由所述设备获得由所述机器学习模型基于所述第一组数据候选生成的第一组潜在激活,并且由所述设备获得由所述机器学习模型基于所述第二组数据候选生成的第二组潜在激活;由所述设备通过将维度降低技术应用于所述第一组潜在激活来生成第一组经压缩的数据点,并且由所述设备通过将所述维度降低技术应用于所述第二组潜在激活来生成第二组经压缩的数据点;以及由所述设备基于所述第一组经压缩的数据点和所述第二组经压缩的数据点来计算多样性分数
。9.
根据权利要求8所述的计算机实现的方法,所述计算机实现的方法还包括:由所述设备呈现描绘所述第一组经压缩的数据点和所述第二组经压缩的数据点的图
。10.
根据权利要求9所述的计算机实现的方法,其中被绘制在所述图上的给定经压缩的数据点对应于来自所述第一组数据候选或所述第二组数据候选的给定数据候选,其中所述给定经压缩的数据点如被绘制在所述图上那样是可点击的,并且还包括:响应于所述给定经压缩的数据点被点击而由所述设备呈现所述给定数据候选
。11.
根据权利要求8所述的计算机实现的方法,其中所述第二组数据候选表示所述第一组数据候选的增强版本或者以其他...

【专利技术属性】
技术研发人员:D
申请(专利权)人:通用电气精准医疗有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1