标注数据生成方法、设备及计算机可读存储介质技术

技术编号:19694097 阅读:23 留言:0更新日期:2018-12-08 11:45
本发明专利技术提供了一种标注数据生成方法、设备及计算机可读存储介质。标注数据生成方法,包括以下步骤:S100:获取数据全集及包含于数据全集内已被标注的标注数据集;S200:分析标注数据集的数据特征,并根据数据特征制造符合数据特征的伪数据集;S300:基于GAN神经网络对伪数据集扩充,形成扩充数据集;S400:识别对扩充数据集内的数据是否需要标注,筛选被标注的数据以形成训练数据集;S500:对训练数据集进行神经网络训练形成训练模型;S600:基于训练模型对数据全集内处标注数据集外的数据清洗,标注符合训练模型的数据并归入标注数据集内,从而,以少量数据作为基础,可快速高效地生成与样本数据匹配度高,且随机性强的训练数集,从而扩大标注数据的数据量。

【技术实现步骤摘要】
标注数据生成方法、设备及计算机可读存储介质
本专利技术涉及数据模型领域,尤其涉及一种标注数据生成方法、设备及计算机可读存储介质。
技术介绍
随着应用程序在智能终端上的快速发展,以及基于应用程序,搭建的人工智能技术,已越来越广泛地走进人们的生活。不论是日常使用、游戏、工作等领域,都将需要基于原始样本数据的学习,了解在该领域的使用习惯,从而智能化地做出判断。对于原始样本数据的学习,可采用深度神经网络技术。该深度神经网络技术在近几年发展迅速,在图像识别领域获得了远超预想的精度,在许多领域取得了喜人的应用。但是在实际工程应用中,许多特别的图像识别需求缺少可供训练的数据集,而深度神经网络的模型精度极大依赖于数据集的大小和质量。为解决训练数据缺少的情况,现有技术通常是对已有标注数据进行随机裁剪、旋转、拉伸、反转,但存在以下缺陷:1、某些模型对应的原始图像数据长宽较小,随机裁剪所能扩展的数据数量有限。2、当原始样本数据较少时,通过这些方法得到的数据由于特征不够分散容易使模型过拟合。3、某些模型对数据拉伸敏感,拉伸后识别率降低较明显;4、人工搜集并标注数据会耗费大量人力、精力。因此,需要一种新型的标注数据生成方法,可在已标注样本数据较少的情况下,快速且大量地生成随机性较强的训练数集,简化训练数据的搜集和标注工作。
技术实现思路
为了克服上述技术缺陷,本专利技术的目的在于提供一种标注数据生成方法、设备及计算机可读存储介质,以少量数据作为基础,快速高效地生成与样本数据匹配度高,且随机性强的训练数集,从而扩大标注数据的数据量。本专利技术公开了一种标注数据生成方法,包括以下步骤:S100:获取一数据全集及包含于所述数据全集内已被标注的标注数据集;S200:分析所述标注数据集的数据特征,并根据所述数据特征制造符合所述数据特征的伪数据集;S300:基于GAN神经网络对所述伪数据集扩充,形成一扩充数据集;S400:识别对所述扩充数据集内的数据是否需要标注,筛选被标注的数据以形成一训练数据集;S500:对所述训练数据集进行神经网络训练形成一训练模型;S600:基于所述训练模型对所述数据全集内处所述标注数据集外的数据清洗,标注符合所述训练模型的数据并归入所述标注数据集内。优选地,所述标注数据生成方法还包括以下步骤:S700:判断所述标注数据集内的数据量是否大于或等于一期望数据量;S800:当所述标注数据集内的数据量小于所述期望数据量时,取所述训练数据集及所述标注数据集的并集,并再次执行步骤S500-S600。优选地,所述步骤S800替换为:S800’:当所述标注数据集内的数据量小于所述期望数据量时,将所述伪数据集内的数据替换为所述标注数据集内的数据,并再次执行步骤S300-S600。优选地,所述标注数据生成方法还包括以下步骤:S900:基于步骤S600中形成的所述标注数据集和/或所述训练数据集训练除所述数据全集外的其他数据集。优选地,基于GAN神经网络对所述伪数据集扩充,形成一扩充数据集的步骤S300包括:S310:构建一生成模型及判别模型;S320:对所述判别模型配置为对所述伪数据集中的数据的判别概率值输出大于0.5,基于对伪数据集中的数据的判别概率值深度学习对非所述伪数据集中的数据的判别概率值的输出;S330:所述生成模型基于所述伪数据集中的数据生成待扩充数据集;S340:所述生成模型将所述伪数据集及待扩充数据集输入至所述判别模型;S350:收集所述判别模型输出的判别概率值大于0.5的数据以形成所述扩充数据集。优选地,识别对所述扩充数据集内的数据是否需要标注,筛选被标注的数据以形成一训练数据集的步骤S400包括:S410:根据所述标注数据集及所述数据特征验证所述扩充数据集内的数据;S420:提取对验证结果为识别标注的数据,并将所述扩充数据集中验证结果不为识别标注的数据删除。优选地,根据所述标注数据集及所述数据特征验证所述扩充数据集内的数据的步骤S410包括:S411:以所述标注数据集中的数据为模型验证所述扩充数据集中的数据;S412:当所述模型中的一半级以上或全部对所述数据验证为结果一致,则判定所述验证结果为识别标注。优选地,所述数据特征包括:所述数据的背景、所述数据的单元数字、所述数据的数字间隙、所述数据的目标、所述数据的噪音中的一种或多种。本专利技术还公开了一种标注数据生成设备,所述标注数据生成设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的标注数据生成方法。本专利技术又公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的标注数据生成方法。采用了上述技术方案后,与现有技术相比,具有以下有益效果:1.即使样本数据的量较少,也可快速地生成包含大量标注数据的数据集;2.数据随机性强,不易发生过拟合的情况,提高标注数据集的质量;3.借助伪数据集生成的模型,进行识别并标注其他数据,扩充已标注数据集的大小和丰富度,该过程可以循环正向迭代,加快了深度神经网络模型的训练速度和精度。附图说明图1为符合本专利技术一优选实施例中标注数据生成方法的流程示意图;图2为符合本专利技术一优选实施例中伪数据集的数据;图3为符合本专利技术一进一步优选实施例中标注数据生成方法的流程示意图;图4为符合本专利技术再一进一步优选实施例中标注数据生成方法的流程示意图;图5为符合本专利技术一优选实施例中标注数据生成方法的步骤S300的流程示意图;图6为符合本专利技术一优选实施例中标注数据生成方法的步骤S400的流程示意图。具体实施方式以下结合附图与具体实施例进一步阐述本专利技术的优点。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应本文档来自技高网...

【技术保护点】
1.一种标注数据生成方法,其特征在于,包括以下步骤:S100:获取一数据全集及包含于所述数据全集内已被标注的标注数据集;S200:分析所述标注数据集的数据特征,并根据所述数据特征制造符合所述数据特征的伪数据集;S300:基于GAN神经网络对所述伪数据集扩充,形成一扩充数据集;S400:识别对所述扩充数据集内的数据是否需要标注,筛选被标注的数据以形成一训练数据集;S500:对所述训练数据集进行神经网络训练形成一训练模型;S600:基于所述训练模型对所述数据全集内除所述标注数据集外的数据清洗,标注符合所述训练模型的数据并归入所述标注数据集内。

【技术特征摘要】
1.一种标注数据生成方法,其特征在于,包括以下步骤:S100:获取一数据全集及包含于所述数据全集内已被标注的标注数据集;S200:分析所述标注数据集的数据特征,并根据所述数据特征制造符合所述数据特征的伪数据集;S300:基于GAN神经网络对所述伪数据集扩充,形成一扩充数据集;S400:识别对所述扩充数据集内的数据是否需要标注,筛选被标注的数据以形成一训练数据集;S500:对所述训练数据集进行神经网络训练形成一训练模型;S600:基于所述训练模型对所述数据全集内除所述标注数据集外的数据清洗,标注符合所述训练模型的数据并归入所述标注数据集内。2.如权利要求1所述的标注数据生成方法,其特征在于,所述标注数据生成方法还包括以下步骤:S700:判断所述标注数据集内的数据量是否大于或等于一期望数据量;S800:当所述标注数据集内的数据量小于所述期望数据量时,取所述训练数据集及所述标注数据集的并集,并再次执行步骤S500-S600。3.如权利要求2所述的标注数据生成方法,其特征在于,所述步骤S800替换为:S800’:当所述标注数据集内的数据量小于所述期望数据量时,将所述伪数据集内的数据替换为所述标注数据集内的数据,并再次执行步骤S300-S600。4.如权利要求1所述的标注数据生成方法,其特征在于,所述标注数据生成方法还包括以下步骤:S900:基于步骤S600中形成的所述标注数据集和/或所述训练数据集训练除所述数据全集外的其他数据集。5.如权利要求1所述的标注数据生成方法,其特征在于,基于GAN神经网络对所述伪数据集扩充,形成一扩充数据集的步骤S300包括:S310:构建一生成模型及判别模型;S320:对所述判别模型配置为对所述伪数据集中的数...

【专利技术属性】
技术研发人员:郑斌徐晖
申请(专利权)人:南昌黑鲨科技有限公司
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1