用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备技术

技术编号：32724866 阅读：52 留言：0更新日期：2022-03-20 08:29

本发明专利技术涉及用于从测量数据、尤其从时间序列测量数据中为人工智能模块、特别是回归系统创建训练、验证或测试数据集的方法（100），具有如下步骤：将测量数据划分（101）、特别是按照时间部段进行划分；将数学函数应用（102）于测量数据的划分的部分，以便获得代表测量数据的相应划分的部分的签名；确定（103）相应签名出现的频率的度量；根据所确定的频率的度量从测量数据中创建（104）训练、验证或测试数据集。验证或测试数据集。验证或测试数据集。

全部详细技术资料下载

【技术实现步骤摘要】
用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备

[0001]本专利技术在第一方面涉及一种用于为人工智能模块创建训练、验证和测试数据集的方法。在另外的方面，本专利技术涉及相应的计算机程序、存储介质、设备和人工智能模块。

技术介绍

[0002]在记录测量数据时，例如在借助于车辆的环境传感装置记录道路交通中的测量数据时，存在不同类型的场景。当然，这些场景不是均匀分布的，并且导致不平衡的数据集。例如，前方行驶的车辆的后视图比其他场景更频繁地呈现。在例如通过学习系统统计评估中，这导致较频繁场景的过度加权。特别是在场景很少出现的情况下，这表现为学习系统的非泛化行为，例如学习回归系统的非泛化行为。由此限制了这种系统在这些场景上的输出质量。
[0003]从Johnson，J.M. & Khoshgoftaar, T.M. J Big Data（2019）6:27. https://doi.org/10.1186/s40537
‑
019
‑
0192
‑
5中已知：用于应对标记的、不平衡的类数据的方案。其中特别是包括以下采样技术：
‑
代表性不足的类的过采样（英文：oversample minority class过采样少数类）
‑
代表性过高的类的欠采样（英文：undersample majority class欠采样多数类）
‑
生成代表性不足的类的合成示例
‑
...

【技术保护点】

【技术特征摘要】
1.一种用于从测量数据、尤其从时间序列测量数据中为人工智能模块、特别是回归系统创建训练、验证和/或测试数据集的方法（100），具有如下步骤：将所述测量数据划分（101）、特别是按照时间部段进行划分；将数学函数应用（102）于所述测量数据的划分的部分，以便获得代表相应部分的签名；确定（103）相应签名出现的频率的度量；根据所确定的频率的度量从所述测量数据中创建（104）训练、验证或测试数据集。2.根据权利要求1所述的方法（100），其中所述测量数据时间上相关，并且其中在划分（101）所述测量数据的步骤中，按照固定的时间部段进行划分。3.根据权利要求1或2所述的方法（100），其中在所述应用（102）的步骤中，所述数学函数不应用于所有...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人