【技术实现步骤摘要】
测量给定AI任务的数据集的相似性的方法
技术介绍
本专利技术涉及测量数据集的相似性。
技术实现思路
根据本专利技术的实施例,本专利技术提供了一种计算机实现的方法,该方法包括:向自动编码器中输入一个或多个输入样本集,一个或多个输入样本集中的每个输入样本集包括:参考数据集的参考输入样本和一个或多个目标数据集的一个或多个目标输入样本,自动编码器使用参考数据集被训练;对于每个输入样本集:由自动编码器基于参考输入样本对参考输入样本的潜在空间表示进行编码;由自动编码器重构参考输入样本的潜在空间表示,从而生成参考输出;由自动编码器基于一个或多个目标输入样本对一个或多个目标输入样本中的每个目标输入样本的潜在空间表示进行编码;以及由自动编码器重构一个或多个目标输入样本中的每个目标输入样本的潜在空间表示,从而生成一个或多个目标输出;由此自动编码器为一个或多个输入样本集中的每个输入样本集生成相应输出集,从而形成一个或多个相应输出集,一个或多个相应输出集中的每个输出集包括相应输入样本集的参考输出和一个或多个目标输出;以及通过将一个或多个相应输出集中的每个输出 ...
【技术保护点】
1.一种计算机实现的方法,包括:/n向自动编码器中输入一个或多个输入样本集,所述一个或多个输入样本集中的每个输入样本集包括参考数据集的参考输入样本和一个或多个目标数据集的一个或多个目标输入样本,所述自动编码器使用所述参考数据集被训练;/n对于每个输入样本集:/n由所述自动编码器基于所述参考输入样本对所述参考输入样本的潜在空间表示进行编码;/n由所述自动编码器重构所述参考输入样本的所述潜在空间表示,从而生成参考输出;/n由所述自动编码器基于所述一个或多个目标输入样本对所述一个或多个目标输入样本中的每个目标输入样本的潜在空间表示进行编码;以及/n由所述自动编码器重构所述一个或多 ...
【技术特征摘要】
20190516 US 16/413,7021.一种计算机实现的方法,包括:
向自动编码器中输入一个或多个输入样本集,所述一个或多个输入样本集中的每个输入样本集包括参考数据集的参考输入样本和一个或多个目标数据集的一个或多个目标输入样本,所述自动编码器使用所述参考数据集被训练;
对于每个输入样本集:
由所述自动编码器基于所述参考输入样本对所述参考输入样本的潜在空间表示进行编码;
由所述自动编码器重构所述参考输入样本的所述潜在空间表示,从而生成参考输出;
由所述自动编码器基于所述一个或多个目标输入样本对所述一个或多个目标输入样本中的每个目标输入样本的潜在空间表示进行编码;以及
由所述自动编码器重构所述一个或多个目标输入样本中的每个目标输入样本的所述潜在空间表示,从而生成一个或多个目标输出;
由此所述自动编码器为所述一个或多个输入样本集中的每个输入样本集生成相应输出集,从而形成一个或多个相应输出集,所述一个或多个相应输出集中的每个输出集包括相应输入样本集的所述参考输出和所述一个或多个目标输出;以及
通过将所述一个或多个相应输出集中的每个输出集的所述一个或多个目标输出中的每个目标输出与所述一个或多个输入样本集中的每个输入样本集的相应目标输入进行比较来确定所述一个或多个目标数据集中的每个目标数据集与所述参考数据集的相似性。
2.根据权利要求1所述的计算机实现的方法,其中所述一个或多个输入样本集均由所述参考数据集的所述参考样本和目标数据集的目标样本组成。
3.根据权利要求1所述的计算机实现的方法,其中所述参考数据集和所述一个或多个目标数据集是同一数据集的不同类别。
4.根据权利要求1所述的计算机实现的方法,其中所述参考数据集是参考图像样本的数据集,并且所述一个或多个目标数据集中的每个目标数据集是目标图像样本的数据集。
5.根据权利要求4所述的计算机实现的方法,其中通过以下操作来通过将所述一个或多个相应输出集中的每个输出集的所述一个或多个目标输出中的每个目标输出与所述一个或多个输入样本集中的每个输入样本集的相应目标输入进行比较来确定所述一个或多个目标数据集中的每个目标数据集与所述参考数据集的相似性:对所述一个或多个相应输出集中的每个输出集的所述一个或多个目标输出中的每个目标输出与所述一个或多个输入样本集中的每个输入样本集的相应目标输入进行逐像素比较。
6.根据权利要求4所述的计算机实现的方法,其中所述参考数据集是手写字符的参考图像样本的数据集,并且所述一个或多个目标数据集中的每个目标数据集是手写字符的目标图像样本的数据集。
7.根据权利要求4所述的计算机实现的方法,其中所述参考数据集是符号的参考图像样本的数据集,并且所述一个或多个目标数据集均是符号的目标图像样本的数据集。
8.根据权利要求1所述的计算机实现的方法,其中所述参考数据集是参考语音样本的数据集,并且所述一个或多个目标数据集均是目标语音样本的数据集。
9.一种系统,包括一个或多个处理器和一个或多个计算机可读存储设备以及存储在所述一个或多个计算机可读存储设备上的程序指令,存储的所述程序指令包括:
向自动编码器中输入一个或多个输入样本集,所述一个或多个输入样本集中的每个输入样本集包括:参考数据集的参考输入样本和一个或多个目标数据集的一个或多个目标输入样本,所述自动编码器使用所述参考数据集被训练;
对于每个输入样本集:
由所述自动编码器基于所述参考输入样本对所述参考输入样本的潜在空间表示进行编码;
由所述自动编码器重构所述参考输入样本的所述潜在空间表示,从而生成参考输出;
由所述自动编码器基于所述一个或多个目标输入样本对所述一个或多个目标输入样本中的每个目标输入样本的潜在空间表示进行编码;以及
由所述自动编码器重构所述一个或多个目标输入样本中的每个目标输入样本的所述潜在空间表示,从而生成一个或多个目标输出;
由此所述自动编码器为所述一个或多个输入样本集中的每个输入样本集生成相应输出集,从而形成一个或多个相应输出集,所述一个或多个相应输出集中的每个输出集包括相应输入样本集的所述参考输出和所述一个或多个目标输出;以及
通过将所述一个或多个相...
【专利技术属性】
技术研发人员:赵敏植,F·刘,I·黄,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。