数据处理方法、电子设备和计算机程序产品技术

技术编号:37704710 阅读:18 留言:0更新日期:2023-06-01 23:52
本公开的实施例涉及一种数据处理方法、电子设备和计算机程序产品。该方法可以包括确定数据的多个特征表示,多个特征表示分别对应于数据具有的预先标注的一组标签。该方法还可以包括获取多个特征表示的第一组检测结果。该方法可以进一步包括基于第一组检测结果与一组标签,从第一组检测结果中确定一组未命中结果以作为数据中的噪声,一组未命中结果的每个未命中结果是基于损失函数值从第一组检测结果中确定的。本公开的技术方案能够自动化地确定并修改训练数据中的噪声数据的真值标签,提升了用户体验。了用户体验。了用户体验。

【技术实现步骤摘要】
数据处理方法、电子设备和计算机程序产品


[0001]本公开的实施例主要涉及计算机领域,并且更具体地,涉及数据处理方法、模型训练方法、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]受益于复杂的网络架构和大量人工标注的训练数据,模型、尤其是目标检测模型具有快速、准确的检测能力,在各种应用中表现出突出的性能。在对模型进行训练的过程中,需要多组标注准确的数据。然而,由于标签的不准确注释,被训练的模型通常会被拟合为错误的目标模型,导致模型精度降低。特别是,由于人类视觉疲劳或对象重叠等问题,在众包形式的人工标注过程中经常会发生对对象位置和/或类别的不精确标注。被错误地标注的数据通常可以被称为“噪声数据”或“噪声”。因此,需要降低数据中的噪声数据的比例。

技术实现思路

[0003]根据本公开的示例实施例,提供了一种数据处理方案。
[0004]在本公开的第一方面中,提供了一种数据处理方法。该方法可以包括确定数据的多个特征表示,多个特征表示分别对应于数据具有的预先标注的一组标签。该方法还可以包括获取多个特征表示的第一组检测结果。该方法可以进一步包括基于第一组检测结果与一组标签,从第一组检测结果中确定一组未命中结果以作为数据中的噪声,一组未命中结果的每个未命中结果是基于损失函数值从第一组检测结果中确定的。
[0005]在本公开的第二方面中,提供了一种电子设备,包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时使得所述设备执行动作,所述动作包括:确定数据的多个特征表示,所述多个特征表示分别对应于所述数据具有的预先标注的一组标签;获取所述多个特征表示的第一组检测结果;以及基于所述第一组检测结果与所述一组标签,从所述第一组检测结果中确定一组未命中结果以作为所述数据中的噪声,所述一组未命中结果的每个未命中结果是基于损失函数值从第二组检测结果中确定的。
[0006]本公开的第三方面,提供了一种电子设备,包括:存储器和处理器;其中所述存储器用于存储一条或多条计算机指令,其中所述一条或多条计算机指令被所述处理器执行以实现根据本公开的第一方面所描述的方法。
[0007]本公开的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质具有在其上存储的机器可执行指令,该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。
[0008]本公开的第五方面,提供了一种计算机程序产品,包括计算机可执行指令,其中所述计算机可执行指令在被处理器执行时实现根据本公开的第一方面所描述的方法。
[0009]提供
技术实现思路
部分是为了以简化的形式来介绍一系列概念,它们在下文的具体实
施方式中将被进一步描述。
技术实现思路
部分不旨在标识本公开的关键特征或必要特征,也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0010]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
[0011]图1示出了根据本公开的实施例的用于数据处理的示例系统的框图;
[0012]图2示出了根据本公开的实施例的详细示例环境的示意图;
[0013]图3示出了根据本公开的实施例的示例性的数据处理过程的流程图;
[0014]图4示出了根据本公开的实施例的特征提取的示例环境的示意图;
[0015]图5A示出了根据本公开的实施例的用于数据处理的第一示例系统的详细框图;
[0016]图5B示出了根据本公开的实施例的用于数据处理的第二示例系统的详细框图;
[0017]图6示出了根据本公开的实施例的示例性的模型训练过程的流程图;
[0018]图7示出了根据本公开的实施例的用于训练模型的示例系统的详细框图;
[0019]图8示出了可以用来实施本公开的实施例的示例设备的示意性框图;以及
[0020]图9A至图9C示出了根据本公开的实施例的模型的识别效果图。
具体实施方式
[0021]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0022]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0023]在本公开的实施例中,术语“数据”一般是指包含标注信息的数据,例如,模型训练数据。该标注信息例如可以是预先标注的分类信息和位置信息。术语“分类信息”一般是指图像中的对象的识别结果,“位置信息”一般是指该对象在图像中的位置或检测框的坐标。术语“特征表示”一般是指利用深度神经网络中的至少部分网络从数据中提取的特征,在本文中也可以称为“特征向量”。
[0024]如上文所描述,随着计算机技术的不断发展,深度神经网络或机器学习模型被广泛应用于人们生活的各个方面。在模型训练过程中,训练数据的质量直接决定了模型的性能。然而,对于训练数据而言,标注信息不准确可能会对模型的性能造成较大的影响。例如,对于图像分类任务而言,一些训练数据可能会被添加错误的分类标注,这就会直接影响模型的拟合过程,最终导致降低图像分类模型的准确性。因此,对训练数据进行检测,以便清除其中的噪声数据,对于提升模型训练的质量是至关重要的。然而,用于对图像中的各个感兴趣对象进行类别和检测框的确定的模型而言,还没有出现较为有效的训练数据处理方式。
[0025]根据本公开的实施例,提出了一种用于数据处理的方案。该方案通过在模型中并行设置具有不同参数值的两个检测模块,来使用两个检测模块中的一个检测模块的检测结果来确定另一检测模块的检测结果中的噪声,从而能够解决上述问题和/或其他潜在问题。以下将结合上述示例场景来详细描述本公开的各实施例。应当理解,这仅仅是出于说明的目的,不旨在以任何方式限制本专利技术的范围。
[0026]图1示出了根据本公开的实施例的用于数据处理的示例系统100的框图。应当理解,图1所示的系统100仅仅是本公开的实施例可实现于其中的一种示例,不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。
[0027]如图1所示,系统100可以包括计算设备120。计算设备120可以被配置为接收待处理数据110,并输出与待处理数据110相关的处理结果130。
[0028]在一些实施例中,计算设备120本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:确定数据的多个特征表示,所述多个特征表示分别对应于所述数据具有的预先标注的一组标签;获取所述多个特征表示的第一组检测结果;以及基于所述第一组检测结果与所述一组标签,从所述第一组检测结果中确定一组未命中结果以作为所述数据中的噪声,所述一组未命中结果的每个未命中结果是基于损失函数值从所述第一组检测结果中确定的。2.根据权利要求1所述的方法,还包括:获取所述多个特征表示的第二组检测结果,所述第二组检测结果与所述第一组检测结果是基于不同检测参数来确定的;从所述第二组检测结果中确定与所述一组未命中结果的位置信息相对应的参考检测结果;以及至少基于所述参考检测结果更新所述一组标签,作为第一组更新标签。3.根据权利要求2所述的方法,还包括:基于所述第二组检测结果与所述一组标签,从所述第二组检测结果中确定另一组未命中结果以作为所述数据中的噪声,所述另一组未命中结果的每个未命中结果是基于损失函数值从所述第二组检测结果中确定的;从所述第一组检测结果中确定与所述另一组未命中结果的位置信息相对应的附加参考检测结果;以及至少基于所述附加参考检测结果更新所述一组标签,作为第二组更新标签。4.根据权利要求1所述的方法,其中确定所述多个特征表示包括:利用特征提取网络,从所述数据中获取所述多个特征表示。5.根据权利要求3所述的方法,还包括:基于所述第一组更新标签和所述第二组更新标签中的至少一组,确定所述模型的损失函数值;以及基于所述模型的损失函数值更新所述模型的参数。6.根据权利要求5所述的方法,其中确定所述模型的损失函数值包括:基于所述数据中的部分数据以及所述数据中的另一部分数据的组合,确定所述数据的附加特征表示;获取所述附加特征表示的第一附加检测结果;以及基于所述第一附加检测结果和所述第一组更新标签,确定所述模型的损失函数值。7.根据权利要求5所述的方法,其中确定所述模型的损失函数值包括:基于所述数据中的部分数据以及所述数据中的另一部分数据的组合,确定所述数据的附加特征表示;获取所述附加特征表示的第一附加检测结果;获取所述附加特征表示的第二附加检测结果,所述第二附加检测结果与所述第一附加检测结果是基于所述模型的不同检测参数来确定的;以及基于所述第一附加检测结果、所述第二附加检测结果、以及所述第一组更新标签和所述第二组更新标签,确定所述模型的损失函数值。
8.根据权利要求5所述的方法,其中所述部分数据以及所述另一部分数据的所述组合是加权组合。9.一种电子设备,包括:至少一个处理单元,所述至少一个处理单元被配置为:确定数据的多个特征表示,所述多个特征表示分别对应于所述数据具有的预先标注的一组标签;获取所述多个特征表示的第一组检测结果;以及基于所述第一组检测结果与所述一组标签,从所述第一组检测结果中确定一组未命中结果以作为所述数据中的噪声,所述一组未命中结果的每个未命中结...

【专利技术属性】
技术研发人员:兰凯张霓
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1