当前位置: 首页 > 专利查询>清华大学专利>正文

基于忆阻器噪声的数据增强方法、装置、电子设备及介质制造方法及图纸

技术编号:34258364 阅读:17 留言:0更新日期:2022-07-24 13:14
本申请公开了一种基于忆阻器噪声的数据增强方法、装置、电子设备及介质,其中,方法包括:确定表征输入数据与输出数据之间关系的映射关系;基于映射关系,将映射关系对应的映射网络映射至目标忆阻器阵列;以及将输入数据输入至映射后的目标忆阻器阵列,并在目标忆阻器阵列施加随机噪声后,得到数据增强后的输出数据。本申请实施例利用忆阻器的随机噪声进行数据增强,增强的数据具有多样性和随机性,解决了相关技术中离线数据增强的方式适用的数据集较小,在线数据增强的方式耗时长,效率低,并且数据增强方式单一的问题。且数据增强方式单一的问题。且数据增强方式单一的问题。

Data enhancement method, device, electronic equipment and medium based on memristor noise

【技术实现步骤摘要】
基于忆阻器噪声的数据增强方法、装置、电子设备及介质


[0001]本申请涉及数据增强
,特别涉及一种基于忆阻器噪声的数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]人工智能是研究、开发用于模拟、延伸和扩展人行为的理论、方法、技术及应用系统的一门技术科学,是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。通常,为获得理想的人工智能模型,人们利用大量有标签的数据使模型进行监督学习。模型可以从给定的训练数据集中学习出一个函数即模型参数,当新的数据到来时,可以根据这个函数预测结果,从而达到预测的目的。
[0003]监督学习的预测效果很大程度上与训练阶段所接受数据的数量和多样性成正相关。随着神经网络规模的不断增大,对于数据量与数据多样性的需求也在不断增大。然而相比庞大的数据量需求,现有的数据集往往无法满足其要求。因此,一种解决该问题的方法是采用数据增强,即通过对有限数据进行一定的变换从而生成新的训练数据,以达到扩充数据的目的。数据增强除了可以扩充数据量与数据多样性以外,还可以用来解决分类任务中的类别不平衡问题,例如利用数据增强来调整正负样本比例。
[0004]针对数据增强的实现方法有很多,以下以图像数据为例,通过对现有数据进行裁剪,翻转,旋转等规律变换来实现数据增强。数据增强通常分为离线数据增强与在线数据增强。离线数据增强是指对数据集进行处理后将扩充的数据集缓存,以备模型的训练及推理使用。在线数据增强是指在模型训练及推理过程中,仅对当前训练批次的数据进行变化。其中与本文最相似的一种在线数据增强的方案被称为自编码器,是先将数据压缩编码至特定向量,后对特定向量添加一个采样的高斯噪声。再通过解码器将其还原成原图的数据增强方案称为自编码器。该方法的核心在于将数据通过神经网络后,通过添加一个随机的高斯扰动,从而实现对数据的变换。由于添加的是随机扰动,因而可以提高训练模型的鲁棒性。
[0005]其中,离线数据增强直接对数据集进行处理,数据的数目会变成增强因子乘以原数据集的数目。该方案的优点在于不需要增加模型训练及推理时长,预先处理过的数据可用于多个模型的不同任务。然而离线数据增强的方案缺点也十分明显,由于是直接对数据集进行处理,因而该方案对芯片缓存有着较高要求。因此该方案通常用于较小的数据集。
[0006]在线数据增强是在模型训练过程中,仅对当前使用批次的数据进行变换。训练过程中,已经使用过的数据不会被保存。该方案的优点在于不需要额外缓存,数据在模型训练及推理过程中即用即删。然而该方案同样有较为明显的缺点,当遇到较为复杂的变换时,在线数据增强将加长模型训练及推理的时长。以前文所提到的自编码器方案为例,生成随机数的过程将耗费大量时间。针对每个批次随机生成大量随机数将严重增加模型训练及推理的时间成本。
[0007]采用单一变换手段,例如平移、旋转、缩放等对图像进行变换是图像数据增强常用
的方案之一。主要缺陷在于生成图像欠缺多样性与随机性,因而对模型的鲁棒性的提升无法达到预期的效果。

技术实现思路

[0008]本申请提供一种基于忆阻器噪声的数据增强方法、装置、电子设备及存储介质,利用忆阻器的随机噪声进行数据增强,增强的数据具有多样性和随机性,解决了相关技术中离线数据增强的方式适用的数据集较小,在线数据增强的方式耗时长,效率低,并且数据增强方式单一的问题。
[0009]本申请第一方面实施例提供一种基于忆阻器噪声的数据增强方法,包括以下步骤:确定表征输入数据与输出数据之间关系的映射关系;基于所述映射关系,将所述映射关系对应的映射网络映射至目标忆阻器阵列;以及将所述输入数据输入至映射后的所述目标忆阻器阵列,并在所述目标忆阻器阵列施加随机噪声后,得到数据增强后的所述输出数据。
[0010]可选地,在本申请的一个实施例中,还包括:将所述映射关系作为训练数据进行神经网络训练,在满足训练终止条件时,停止训练,得到所述映射网络。
[0011]可选地,在本申请的一个实施例中,所述将所述输入数据输入至映射后的所述目标忆阻器阵列,并在所述目标忆阻器阵列施加随机噪声后,得到数据增强后的所述输出数据,包括:将所述输入数据的电压信号输入至映射后的所述目标忆阻器阵列;通过所述忆阻器阵列施加随机噪声后,输出所述输入数据的电流信号;对所述电流信号进行转换得到所述数据增强后的输出数据。
[0012]可选地,在本申请的一个实施例中,所述训练终止条件包括:所述映射网络的损失函数小于预设阈值;和/或,所述输入数据与所述输出数据之间的误差小于预设误差阈值。
[0013]本申请第二方面实施例提供一种基于忆阻器噪声的数据增强装置,包括:获取模块,用于确定表征输入数据与输出数据之间关系的映射关系;映射模块,用于基于所述映射关系,将所述映射关系对应的映射网络映射至目标忆阻器阵列;以及增强模块,用于将所述输入数据输入至映射后的所述目标忆阻器阵列,并在所述目标忆阻器阵列施加随机噪声后,得到数据增强后的所述输出数据。
[0014]可选地,在本申请的一个实施例中,还包括:训练模块,用于将所述映射关系作为训练数据进行神经网络训练,在满足训练终止条件时,停止训练,得到所述映射网络。
[0015]可选地,在本申请的一个实施例中,所述增强模块,具体用于将所述输入数据的电压信号输入至映射后的所述目标忆阻器阵列,通过所述忆阻器阵列施加随机噪声后,输出所述输入数据的电流信号,对所述电流信号进行转换得到所述数据增强后的输出数据。
[0016]可选地,在本申请的一个实施例中,所述训练终止条件包括:所述映射网络的损失函数小于预设阈值;和/或所述输入数据与所述输出数据之间的误差小于预设误差阈值。
[0017]本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以执行如上述实施例所述的基于忆阻器噪声的数据增强方法。
[0018]本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以执行如上述实施例所述的基于忆阻器噪声的数据增强方法。
[0019]本申请实施例利用忆阻器的噪声实现数据增强中噪声扰动添加的功能,避免了生
成随机数所需的时间,在数据增强过程中,将忆阻器的真实噪声替换相关技术中使用的随机高斯噪声,可以实现对有限数据进行数据增强,并且数据增强后生成图像具有多样性与强随机性,并且忆阻器的输出数据直接输入任务网络进行应用,使用完毕后即可删除,无需缓存。
[0020]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0021]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0022]图1为根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于忆阻器噪声的数据增强方法,其特征在于,包括以下步骤:确定表征输入数据与输出数据之间关系的映射关系;基于所述映射关系,将所述映射关系对应的映射网络映射至目标忆阻器阵列;以及将所述输入数据输入至映射后的所述目标忆阻器阵列,并在所述目标忆阻器阵列施加随机噪声后,得到数据增强后的所述输出数据。2.根据权利要求1所述的方法,其特征在于,还包括:将所述映射关系作为训练数据进行神经网络训练,在满足训练终止条件时,停止训练,得到所述映射网络。3.根据权利要求1所述的方法,其特征在于,所述将所述输入数据输入至映射后的所述目标忆阻器阵列,并在所述目标忆阻器阵列施加随机噪声后,得到数据增强后的所述输出数据,包括:将所述输入数据的电压信号输入至映射后的所述目标忆阻器阵列;通过所述忆阻器阵列施加随机噪声后,输出所述输入数据的电流信号;对所述电流信号进行转换得到所述数据增强后的输出数据。4.根据权利要求2所述的方法,其特征在于,所述训练终止条件包括:所述映射网络的损失函数小于预设阈值;和/或所述输入数据与所述输出数据之间的误差小于预设误差阈值。5.一种基于忆阻器噪声的数据增强装置,其特征在于,包括:获取模块,用于确定表征输入数据与输出数据之间关系的映射关系;映射模块,用于基于所述映射关系,将所述映射关系对应的映射网络映射...

【专利技术属性】
技术研发人员:张清天李源堃高滨唐建石钱鹤吴华强
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1