当前位置: 首页 > 专利查询>罗伯特专利>正文

用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备技术

技术编号:32724866 阅读:52 留言:0更新日期:2022-03-20 08:29
本发明专利技术涉及用于从测量数据、尤其从时间序列测量数据中为人工智能模块、特别是回归系统创建训练、验证或测试数据集的方法(100),具有如下步骤:将测量数据划分(101)、特别是按照时间部段进行划分;将数学函数应用(102)于测量数据的划分的部分,以便获得代表测量数据的相应划分的部分的签名;确定(103)相应签名出现的频率的度量;根据所确定的频率的度量从测量数据中创建(104)训练、验证或测试数据集。验证或测试数据集。验证或测试数据集。

【技术实现步骤摘要】
用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备


[0001]本专利技术在第一方面涉及一种用于为人工智能模块创建训练、验证和测试数据集的方法。在另外的方面,本专利技术涉及相应的计算机程序、存储介质、设备和人工智能模块。

技术介绍

[0002]在记录测量数据时,例如在借助于车辆的环境传感装置记录道路交通中的测量数据时,存在不同类型的场景。当然,这些场景不是均匀分布的,并且导致不平衡的数据集。例如,前方行驶的车辆的后视图比其他场景更频繁地呈现。在例如通过学习系统统计评估中,这导致较频繁场景的过度加权。特别是在场景很少出现的情况下,这表现为学习系统的非泛化行为,例如学习回归系统的非泛化行为。由此限制了这种系统在这些场景上的输出质量。
[0003]从Johnson,J.M. & Khoshgoftaar, T.M. J Big Data(2019)6:27. https://doi.org/10.1186/s40537

019

0192

5中已知:用于应对标记的、不平衡的类数据的方案。其中特别是包括以下采样技术:

代表性不足的类的过采样(英文:oversample minority class过采样少数类)

代表性过高的类的欠采样(英文:undersample majority class欠采样多数类)

生成代表性不足的类的合成示例

考虑误差和评估函数中的类分布(基于代表性不足的类对错误进行代表性过高的惩罚)。

技术实现思路

[0004]本专利技术的优点用于控制技术系统的人工智能模块通常借助于数据集进行训练,所述数据集从技术系统的记录的测量数据中导出。所述测量数据通常是不平衡的。当前,可将不平衡理解为:例如,如果从在技术系统的真实应用期间的测量中得出测量数据,则将技术系统的典型的应用情况比临界情况(英文:corner cases边角案例)更频繁地进行测量。因此,典型的应用情况比临界情况更频繁地在测量数据中出现。
[0005]因此,本专利技术的目的是:特别是以平衡和划分用于人工智能模块、诸如学习系统、例如回归系统的训练、验证或测试数据集为目的,实现从测量数据、例如时间序列测量数据中创建平衡的训练、验证和测试数据集,而没有场景标签。也可以通过该方法确保:时间序列测量数据的分布近似均匀。通过本专利技术尤其在临界情况(英文:corner cases边角案例)下可以实现借助于所创建的数据集训练的人工智能模块的更高的泛化能力和更高的性能。
[0006]在此背景下,本专利技术在第一方面实现一种用于创建用于训练人工智能模块的训练、验证或测试数据集的方法。为此,该方法具有以下步骤:划分测量数据。在测量数据时间不相关的情况下,可以根据数据的性质或人工智
能模块的目标应用进行划分。在测量数据时间相关的情况下,可以按时间部段进行划分。
[0007]测量数据可以是时间序列测量数据,诸如随时间记录的车辆传感器数据。
[0008]将数学函数应用于测量数据的划分的部分,以便获得代表测量数据的相应划分的部分的签名。
[0009]当前,可以将数学函数理解为简单的映射,诸如平均值、标准偏差等。此外,当前,也可以将数学函数理解为复杂函数、诸如机器学习的方法、诸如自动编码器、主成分分析、循环人工神经网络等。此外,也可以将其理解为数学函数的组合或系列。
[0010]当前,可以将签名理解为值、值对或通常理解为元组,所述值、值对或元组作为将当前描述的数学函数应用于测量数据的相应部分的结果而代表测量数据的相应部分。
[0011]确定相应签名出现频率的度量。
[0012]在本专利技术中,可以将频率的度量理解为值、值对或者通常理解为元组,所述值、值对或元组描述出自数学函数应用于测量数据的划分的部分上的特定的签名或签名的集合出现的频率如何。
[0013]根据所确定的频率度量从测量数据中创建训练、验证或测试数据集。
[0014]人工智能模块可以是分类系统或回归系统。
[0015]根据本专利技术的方法的一个实施方式,在划分测量数据的步骤中,按照固定的时间部段划分测量数据。
[0016]所述实施方式具有的优点是:可以由此确保检测的测量数据的均匀的粒度。
[0017]根据本专利技术的方法的一个实施方式,在应用步骤中,数学函数不应用于测量数据的所有部分。
[0018]该实施方式具有的优点是:通过忽略一些时间部段,数学函数所应用于的且随后用于创建训练、验证或测试数据集的剩余的时间部段时间上不那么强地相关。这有助于改进地训练人工智能模块。
[0019]根据本专利技术方法的一个实施方式,该方法无监控地执行。当前,可以将无监控(英文:unsupervised无监督)执行理解为其中没有注释(英文:labeled标记)训练数据或不存在训练数据的结果数据集的执行。
[0020]本专利技术的另一方面是一种计算机程序,其被设计用于执行根据本专利技术的方法的所有步骤。
[0021]本专利技术的另一方面是一种机器可读的存储介质,在所述存储介质上存储有根据本专利技术的一个方面的计算机程序。
[0022]本专利技术的另一方面是一种设备,所述设备被设计用于执行根据本专利技术的方法的所有步骤。
[0023]本专利技术的另一方面是一种适合于控制技术系统的人工智能模块。在此,用借助于根据本专利技术的第一方面的方法创建的训练数据集训练人工智能模块。
[0024]在本专利技术的范围中,技术系统尤其还可以是机器人、车辆、工具或机床。
[0025]按照根据本专利技术的人工智能模块的一个实施方式,人工智能模块的训练根据所确定的频率度量进行。
[0026]所述实施方式基于如下知识,即如果将所获得的关于测量数据的信息、即测量数据中的相应的签名的频率的度量用于控制训练方法,则可以借助于根据本专利技术的方法创建
的训练数据集改进用于人工智能模块的训练方法。
[0027]例如,这可以进行为,使得首先借助于根据本专利技术平衡的数据集进行训练并且在训练的过程中训练数据集连续回落到测量数据的最初测量的分布。
[0028]基于在按照根据本专利技术的方法创建训练数据集的过程中获得的信息对训练方法进行这种控制具有如下优点:在训练开始时使用平衡的数据集,而在训练结束时使用真实的数据集。
[0029]这样,在开始时、即学习步长较大的时间,可以使用优化的数据集;在最后,当学习步长较小且临界情况(英文:corner cases边角案例)对人工智能模块的整体性能影响较小时,使用真实的数据集。
[0030]这整体上引起获得更加平衡的人工智能模块。
附图说明
[0031]下面根据附图更详细地解释本专利技术的实施方式。
[0032]其中:图1示出根据本专利技术的训练方法的一个实施方式的流程图;图2a、2b示出测量数据集和从中产生的训练数据集的视图。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于从测量数据、尤其从时间序列测量数据中为人工智能模块、特别是回归系统创建训练、验证和/或测试数据集的方法(100),具有如下步骤:将所述测量数据划分(101)、特别是按照时间部段进行划分;将数学函数应用(102)于所述测量数据的划分的部分,以便获得代表相应部分的签名;确定(103)相应签名出现的频率的度量;根据所确定的频率的度量从所述测量数据中创建(104)训练、验证或测试数据集。2.根据权利要求1所述的方法(100),其中所述测量数据时间上相关,并且其中在划分(101)所述测量数据的步骤中,按照固定的时间部段进行划分。3.根据权利要求1或2所述的方法(100),其中在所述应用(102)的步骤中,所述数学函数不应用于所有...

【专利技术属性】
技术研发人员:M
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1