基于深度学习的图像分割的移位不变损失制造技术

技术编号:38329733 阅读:22 留言:0更新日期:2023-07-29 09:12
公开了改进密集预测神经网络中对齐的系统和方法。一种方法包括在计算系统处识别输入数据集和标记数据集,其中输入数据集的一个或多个第一部分对应于标记。计算系统使用神经网络处理输入数据集,以生成标识输入数据集被预测为对应于标记的一个或多个第二部分的预测标记数据集。计算系统使用预测标记数据集和标记数据集来确定对齐结果,并且基于对齐结果来确定一个或多个第一部分的包括移位、旋转、缩放和/或变形的变换。计算系统使用变换、标记数据和预测标记数据集来计算损失分数,并且基于损失分数来更新神经网络。损失分数来更新神经网络。损失分数来更新神经网络。

【技术实现步骤摘要】
基于深度学习的图像分割的移位不变损失
[0001]本申请是申请日为2021年1月13日,申请号为202180009741.4,专利技术名称“基于深度学习的图像分割的移位不变损失”的专利技术专利申请的分案申请。

技术介绍

[0002]各种机器学习任务可以包括特征检测。特征检测任务可以包括图像分割、音频文件的语言处理或波形的频谱分析。例如,关于图像分析,图像分割可以包括特征检测,其可以包括检测图像中对象的边缘。边缘可以用于识别图像中的对象。然而,在训练期间,卷积神经网络的准确性可能受到输入图像和标记图像之间的对齐的显著影响。未对齐可能是由于输入和标记之间的差异、标记中的错误等。在一些情况下,未对齐可以通过手动调整输入图像和/或标记图像来解决。即使只有少量的训练示例,这也可能是耗时的,并且卷积神经网络的许多用途被用于处理大量图像。一些技术可能依赖于单独的神经网络来对齐输入和标记。然而,这可能是密集的,并且需要第二训练过程来训练对齐网络。这些和其他需求都得到了满足。

技术实现思路

[0003]一个实施例包括一种方法,该方法包括在计算系统处识别输入数据集,以及在计算系统处识别标记数据集,该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分。该方法还包括由计算系统使用神经网络处理输入数据集,以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集,以及由计算系统使用预测标记数据集和标记数据集来确定对齐结果。该方法还包括由计算系统并基于对齐结果,确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换。该方法还包括由计算系统使用变换、标记数据和预测标记数据集来计算损失分数,以及由计算系统基于损失分数来更新神经网络。
[0004]另一个实施例包括一种系统,该系统包括一个或多个处理器和存储多个指令的计算机可读介质,该多个指令在被执行时使得一个或多个处理器识别输入数据集,以及识别标记数据集,该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分。处理器还可以使用神经网络处理输入数据集,以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集,以及使用预测标记数据集和标记数据集来确定对齐结果。处理器还可以基于对齐结果来确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换。处理器还可以使用变换、标记数据和预测标记数据集来计算损失分数,以及基于损失分数来更新神经网络。
[0005]另一个实施例包括一种存储多个指令的非暂时性计算机可读介质,该多个指令在由一个或多个处理器执行时执行一种方法,该方法包括识别输入数据集,以及识别标记数据集,该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分。该方法还包括使用神经网络处理输入数据集,以生成标识输入数据集被预测为对应于特定标记的一个
或多个第二部分的预测标记数据集,以及使用预测标记数据集和标记数据集来确定对齐结果。该方法还包括基于对齐结果来确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换,使用变换、标记数据和预测标记数据集来计算损失分数,以及基于损失分数来更新神经网络。
[0006]通过阅读以下详细描述,并适当参考附图,这些以及其他方面、优点和替代方案对于本领域普通技术人员来说将变得显而易见。
附图说明
[0007]图1示出了根据一些实施例的系统的示图。
[0008]图2是根据一些实施例的方法的流程图。
[0009]图3示出了根据一些实施例的方法的示例图像。
[0010]图4是根据一些实施例的方法的流程图。
[0011]图5是根据一些实施例的另一种方法的流程图。
[0012]图6A和图6B示出了根据一些实施例的利用方法的示例结果。
具体实施方式
[0013]在以下详细描述中,参考了附图,附图构成了描述的一部分。在附图中,类似的符号通常标识类似的组件,除非上下文另有指示。在详细描述、附图和权利要求中描述的说明性实施例不意味着是限制性的。在不脱离本文呈现的主题的范围的情况下,可以利用其他实施例,并且可以进行其他改变。将容易理解的是,如本文中一般描述的和在附图中示出的,本公开的各方面可以以多种不同的配置来布置、替换、组合、分离和设计,所有这些在本文中都是明确预期的。
[0014]一些实施例提供了对齐诸如图像分割网络的密集预测神经网络的特征和标记的系统和方法。在常规系统中,图像被输入到神经网络(例如,分割网络)中,以输出图像的预测标记。预测标记可以例如标识图像中可见的元素。可以使用损失函数将预测标记或预测标记集合与标记图像或标记图像集合进行比较。基于损失函数,可以调整神经网络以学习减少或最小化预测标记和地面真值标记之间的差异。然而,以这种方式训练的模型的准确性可能依赖于输入和标记之间的对齐。例如,一些图像可以从对应的标记图像移位或旋转。因此,由于对齐误差,被正确预测的图像可能看起来不准确,并且该模型可能具有持续的低准确性。
[0015]一些提出的解决方案包括为训练集中的每个图像手动识别对齐和/或手动检测未对齐的输入数据和输出特征/标记。然而,这是一个耗时的过程,尤其是对于包含数千或数百万训练样本的数据集。一些解决方案包括训练可以对齐标记和特征的单独模型。虽然这可能比手动标记更有效,但仍然需要单独开发和训练模型。
[0016]一些实施例提供了在训练机器学习模型时检测和校正未对齐的更高效和有效的方式。更具体地,在训练期间,输入图像可以被馈送到神经网络(例如,卷积神经网络)。输入图像可以包括图像的小块(patch)。神经网络可以生成预测标记数据集。预测标记数据集可以包括(例如)一个或多个标记,以及对于一个或多个标记中的每一个,对应于该标记的位置数据(例如,一个或多个像素的标识)。预测标记数据可以可替代地或可附加地为预测标
记图像,该预测标记图像对于输入图像中的像素集合中的每一个包括与该像素相关联的标记(如果有的话)的标识。
[0017]预测标记图像可以与真实标记图像进行比较。该比较可以包括对齐预测标记图像和真实标记图像,然后比较标记。在一些情况下,真实标记图像可以被裁剪和填充(例如,用常数值)回原始大小。可以使用预测标记图像和真实标记图像来计算相似性度量。相似性度量可以指示真实标记图像和预测标记图像是否未对齐,如果是,未对齐多少。可以使用互相关、互信息技术或基于熵的技术来计算相似性度量。例如,相似性度量可以为预测标记图像相对于实际标记图像的潜在变换集合中的每一个标识质量度量和/或损失。可以选择对应于潜在变换集合中的最大质量度量和/或潜在变换集合中的最小损失的变换。
[0018]例如,互相关的最大值可以与预测标记图像向左换位10个像素相关联。然后,在计算损失之前,预测标记图像可以向左移位10个像素(或者真实标记图像可以向右移位10个像素)。作为另一个示例,基于互信息的技术(如基于V本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:在计算系统处识别输入数据集;在计算系统处识别标记数据集,该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分;由计算系统使用神经网络处理输入数据集,以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集;由计算系统使用预测标记数据...

【专利技术属性】
技术研发人员:CH
申请(专利权)人:威里利生命科学有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1