标注数据生成方法、设备及计算机可读存储介质技术

技术编号：19694097 阅读：23 留言：0更新日期：2018-12-08 11:45

本发明专利技术提供了一种标注数据生成方法、设备及计算机可读存储介质。标注数据生成方法，包括以下步骤：S100：获取数据全集及包含于数据全集内已被标注的标注数据集；S200：分析标注数据集的数据特征，并根据数据特征制造符合数据特征的伪数据集；S300：基于GAN神经网络对伪数据集扩充，形成扩充数据集；S400：识别对扩充数据集内的数据是否需要标注，筛选被标注的数据以形成训练数据集；S500：对训练数据集进行神经网络训练形成训练模型；S600：基于训练模型对数据全集内处标注数据集外的数据清洗，标注符合训练模型的数据并归入标注数据集内，从而，以少量数据作为基础，可快速高效地生成与样本数据匹配度高，且随机性强的训练数集，从而扩大标注数据的数据量。

全部详细技术资料下载

【技术实现步骤摘要】
标注数据生成方法、设备及计算机可读存储介质
本专利技术涉及数据模型领域，尤其涉及一种标注数据生成方法、设备及计算机可读存储介质。
技术介绍
随着应用程序在智能终端上的快速发展，以及基于应用程序，搭建的人工智能技术，已越来越广泛地走进人们的生活。不论是日常使用、游戏、工作等领域，都将需要基于原始样本数据的学习，了解在该领域的使用习惯，从而智能化地做出判断。对于原始样本数据的学习，可采用深度神经网络技术。该深度神经网络技术在近几年发展迅速，在图像识别领域获得了远超预想的精度，在许多领域取得了喜人的应用。但是在实际工程应用中，许多特别的图像识别需求缺少可供训练的数据集，而深度神经网络的模型精度极大依赖于数据集的大小和质量。为解决训练数据缺少的情况，现有技术通常是对已有标注数据进行随机裁剪、旋转、拉伸、反转，但存在以下缺陷：1、某些模型对应的原始图像数据长宽较小，随机裁剪所能扩展的数据数量有限。2、当原始样本数据较少时，通过这些方法得到的数据由于特征不够分散容易使模型过拟合。3、某些模型对数据拉伸敏感，拉伸后识别率降低较明显；4、人工搜集并标注数据会耗费大量人力、精力。因此，需要一种新型的标注数据生成方法，可在已标注样本数据较少的情况下，快速且大量地生成随机性较强的训练数集，简化训练数据的搜集和标注工作。
技术实现思路
为了克服上述技术缺陷，本专利技术的目的在于提供一种标注数据生成方法、设备及计算机可读存储介质，以少量数据作为基础，快速高效地生成与样本数据匹配度高，且随机性强的训练数集，从而扩大标注数据的数据量。本专利技术公开了一种标注数据生成方法，包括以下步骤：S1...

【技术保护点】
1.一种标注数据生成方法，其特征在于，包括以下步骤：S100：获取一数据全集及包含于所述数据全集内已被标注的标注数据集；S200：分析所述标注数据集的数据特征，并根据所述数据特征制造符合所述数据特征的伪数据集；S300：基于GAN神经网络对所述伪数据集扩充，形成一扩充数据集；S400：识别对所述扩充数据集内的数据是否需要标注，筛选被标注的数据以形成一训练数据集；S500：对所述训练数据集进行神经网络训练形成一训练模型；S600：基于所述训练模型对所述数据全集内除所述标注数据集外的数据清洗，标注符合所述训练模型的数据并归入所述标注数据集内。

【技术特征摘要】
1.一种标注数据生成方法，其特征在于，包括以下步骤：S100：获取一数据全集及包含于所述数据全集内已被标注的标注数据集；S200：分析所述标注数据集的数据特征，并根据所述数据特征制造符合所述数据特征的伪数据集；S300：基于GAN神经网络对所述伪数据集扩充，形成一扩充数据集；S400：识别对所述扩充数据集内的数据是否需要标注，筛选被标注的数据以形成一训练数据集；S500：对所述训练数据集进行神经网络训练形成一训练模型；S600：基于所述训练模型对所述数据全集内除所述标注数据集外的数据清洗，标注符合所述训练模型的数据并归入所述标注数据集内。2.如权利要求1所述的标注数据生成方法，其特征在于，所述标注数据生成方法还包括以下步骤：S700：判断所述标注数据集内的数据量是否大于或等于一期望数据量；S800：当所述标注数据集内的数据量小于所述期望数据量时，取所述训练数据集及所述标注数据集的并集，并再次执行步骤S500-S600。3.如权利要求2所述的标注数据生成方法，其特征在于，所述步骤S800替换为：S800’：当所述标注数据集内的数据量小于所述期望数据量时，将所述伪数据集内的数据替换为所述标注数据集内的数据，并再次执行步骤S300-S600。4.如权利要求1所述的标注数据生成方法，其特征在于，所述标注数据生成方法还包括以下步骤：S900：基于步骤S600中形成的所述标注数据集和/或所述训练数据集训练除所述数据全集外的其他数据集。5.如权利要求1所述的标注数据生成方法，其特征在于，基于GAN神经网络对所述伪数据集扩充，形成一扩充数据集的步骤S300包括：S310：构建一生成模型及判别模型；S320：对所述判别模型配置为对所述伪数据集中的数...

【专利技术属性】
技术研发人员：郑斌，徐晖，
申请(专利权)人：南昌黑鲨科技有限公司，
类型：发明
国别省市：江西,36

全部详细技术资料下载我是这个专利的主人