当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于三维垂直阻变存储器的视频动作识别方法和装置制造方法及图纸

技术编号:33968207 阅读:42 留言:0更新日期:2022-06-30 01:52
本发明专利技术属于非易失性存储器技术领域,涉及一种基于三维垂直阻变存储器的视频动作识别方法和装置,该方法包括:步骤一,搭建基于自整流器件的三维垂直阻变存储器;步骤二,采集并预处理用于视频动作识别的训练集图像和测试集图像;步骤三,构造三维卷积神经网络模型;步骤四,使用训练集图像,在三维垂直阻变存储器上仿真训练三维卷积神经网络模型;步骤五,利用在三维垂直阻变存储器上训练好的三维卷积神经网络模型,输入测试集图像,进行视频动作识别。本发明专利技术基于的三维垂直阻变存储器具有高整流率,可以实现较低的读写误差,同时由于本发明专利技术的三维堆叠结构的设计,具有高度并行性,可以快速高效的从视频中识别动作。可以快速高效的从视频中识别动作。可以快速高效的从视频中识别动作。

【技术实现步骤摘要】
一种基于三维垂直阻变存储器的视频动作识别方法和装置


[0001]本专利技术属于非易失性存储器
,涉及一种基于三维垂直阻变存储器的视频动作识别方法和装置。

技术介绍

[0002]近年来,人工智能技术越来越成熟,卷积神经网络是深度学习的代表算法之一。卷积核是卷积神经网络中重要的特征提取器。应用于2维图像的卷积神经网络缺乏捕捉图像之间相关性的能力。因此,对于视频动作识别,为了捕获时间的相关性,采用三维卷积神经网络3D

CNN,在卷积核中引入了视频的时间信息。但是,3D

CNN的硬件实现在面积和能量上都比较昂贵。VRRAM即垂直RRAM作为一种新兴技术,在面积,能源效率和并行性方面将比1T1R和1S1R等集成技术具有更大的优势。此外,得益于三维堆叠结构的优势,三维垂直交叉阻变存储器3D

VRRAM中的每一层都可以作为单独的卷积核使用,具有高度的并行性。然而仍然存在一些问题,首先,实现3D

VRRAM技术的挑战是高自整流器件,其次,由于非线性和非对称电导调节会引入误差,卷积神经网络在硬件上的性能通常比在软件上差很多。

技术实现思路

[0003]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种基于三维垂直阻变存储器的视频动作识别方法和装置,其具体技术方案如下:一种基于三维垂直阻变存储器的视频动作识别方法,包括以下步骤:步骤一,搭建基于自整流器件的三维垂直阻变存储器;步骤二,采集并预处理用于视频动作识别的训练集图像和测试集图像;步骤三,构造三维卷积神经网络模型;步骤四,使用训练集图像,在三维垂直阻变存储器上仿真训练三维卷积神经网络模型;步骤五,利用在三维垂直阻变存储器上训练好的三维卷积神经网络模型,输入测试集图像,进行视频动作识别。
[0004]进一步地,所述三维垂直阻变存储器由4层RRAM阻变存储器阵列堆叠组成,每个RRAM阻变存储器阵列由m行n列的RRAM单元器件组成,每个RRAM单元的器件结构包括铂Pt、碳C、氧化铌NbO
x
和锡TiN,其中阻变材料氧化铌NbO
x
与铂Pt电极形成肖特基势垒,使RRAM阵列出现整流特性。
[0005]进一步地,所述步骤二,具体为:采集视频,对视频流进行视频分帧处理,得到多帧RGB图像,每4帧图像作为一个样本,每个样本的大小为4
×
H
×
W
×
C,其中4表示帧数,H表示图像高度,W表示图像宽度,C表示图像通道数;将每个样本的RGB图像转换为灰度图像,得到新的样本,大小为4
×
H
×
W,然后将每个样本的尺寸缩小1/2,缩放后的样本大小为4
×
H
½×
W
ꢀ½
,将缩放后的所有样本选取80%作为训练集图像,剩余的20%作为测试集图像。
[0006]进一步地,所述三维卷积神经网络模型的结构为:依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类器,其中,每层参数的设置如下:输入层的特征通道数设置为4;第一卷积层的特征通道数设置为32,第一卷积层卷积核的尺寸设置为32
×5×5×
4;第一池化层的特征通道数设置为32,第一池化层池化尺寸设置为2
×
2;第二卷积层的特征通道数设置为64,第二卷积层卷积核的尺寸设置为64
×5×5×
32;第二池化层的特征通道数设置为64,第二池化层池化尺寸设置为2
×
2;第三卷积层的特征通道数设置为128,第三卷积层卷积核的尺寸设置为128
×5×5×
64;第三池化层的特征通道数设置为128,第三池化层池化尺寸设置为2
×
2;全连接层的特征通道数设置为3。
[0007]进一步地,所述步骤四,具体为:首先将训练数据集作为三维卷积神经网络模型的输入,利用模型提取数据集中每个像素点的空间特征和时间特征,将模型前向传播的结果作为模型的输出,通过求解所述输出与实际动作类别之间的误差并对误差进行反向传播,来更新三维卷积神经网络模型的权重;然后将更新的权重映射到三维垂直阻变存储器的阵列的电导上,将更新的权重加上映射的权重误差作为网络训练过程中新的参数,再不断的进行迭代,直至网络输出与实际动作类别之间的误差不再减小,此时网络收敛,得到收敛时的三维卷积神经网络模型的权重,从而得到训练好的三维卷积神经网络模型。
[0008]进一步地,所述步骤五,具体为:将测试集图像输入到三维卷积神经网络模型中,并加载训练好的三维卷积神经网络模型的权重,得到测试集图像的动作识别精度。
[0009]一种基于三维垂直阻变存储器的视频动作识别装置,包括一个或多个处理器,用于实现所述的基于三维垂直阻变存储器的视频动作识别方法。
[0010]一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于三维垂直阻变存储器的视频动作识别方法。
[0011]与现有技术相比,本专利技术具有以下优点:第一,本专利技术提出的三维垂直阻变存储器3D

VRRAM采用的器件具有高于4
×
104的高整流率,且由于高自整流的特性,读误差低于2.2%。
[0012]第二,由于本专利技术采用的是三维堆叠结构,3D

VRRAM中的每一层都可以作为单独的卷积核使用,具有高度的并行性;基于3D

VRRAM的卷积神经网络可以快速高效的从视频中识别人类打篮球,足球和高尔夫的动作。
附图说明
[0013]图1是本专利技术的基于三维垂直阻变存储器的视频动作识别方法流程图;图2是本专利技术的三维垂直阻变存储器3D

VRRAM结构示意图;
图3是RRAM单元器件Pt/C/NbO
x
/TiN结构示意图;图4是Icc=100 μA时的I

V曲线示意图;图5是器件之间的耐力示意图;图6是8个电导态在室温下1000秒的保留试验示意图;图7a是本专利技术实施例的数据集中的踢足球的样本图像示意图;图7b是本专利技术实施例的数据集中的打篮球的样本图像示意图;图7c是本专利技术实施例的数据集中的打高尔夫的样本图像示意图;图8是训练过程中,在本专利技术和软件上的3D

CNN的损失曲线示意图;图9是训练过程中,在本专利技术和软件上的3D

CNN的视频动作识别精度曲线示意图;图10是本专利技术的一种基于三维垂直阻变存储器的视频动作识别装置的结构示意图。
具体实施方式
[0014]为了使本专利技术的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本专利技术作进一步详细说明。
[0015]如图1所示,一种基于三维垂直阻变存储器的视频动作识别方法,包括以下步骤:步骤一,搭建基于自整流器件的三维垂直阻变存储器。...

【技术保护点】

【技术特征摘要】
1.一种基于三维垂直阻变存储器的视频动作识别方法,其特征在于,包括以下步骤:步骤一,搭建基于自整流器件的三维垂直阻变存储器;步骤二,采集并预处理用于视频动作识别的训练集图像和测试集图像;步骤三,构造三维卷积神经网络模型;步骤四,使用训练集图像,在三维垂直阻变存储器上仿真训练三维卷积神经网络模型;步骤五,利用在三维垂直阻变存储器上训练好的三维卷积神经网络模型,输入测试集图像,进行视频动作识别。2.如权利要求1所述的一种基于三维垂直阻变存储器的视频动作识别方法,其特征在于,所述三维垂直阻变存储器由4层RRAM阻变存储器阵列堆叠组成,每个RRAM阻变存储器阵列由m行n列的RRAM单元器件组成,每个RRAM单元的器件结构包括铂Pt、碳C、氧化铌NbO
x
和锡TiN,其中阻变材料氧化铌NbO
x
与铂Pt电极形成肖特基势垒,使RRAM阵列出现整流特性。3.如权利要求1所述的一种基于三维垂直阻变存储器的视频动作识别方法,其特征在于,所述步骤二,具体为:采集视频,对视频流进行视频分帧处理,得到多帧RGB图像,每4帧图像作为一个样本,每个样本的大小为4
×
H
×
W
×
C,其中4表示帧数,H表示图像高度,W表示图像宽度,C表示图像通道数;将每个样本的RGB图像转换为灰度图像,得到新的样本,大小为4
×
H
×
W,然后将每个样本的尺寸缩小1/2,缩放后的样本大小为4
×
H
½×
W
ꢀ½
,将缩放后的所有样本选取80%作为训练集图像,剩余的20%作为测试集图像。4.如权利要求1所述的一种基于三维垂直阻变存储器的视频动作识别方法,其特征在于,所述三维卷积神经网络模型的结构为:依次连接的输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、全连接层和分类器,其中,每层参数的设置如下:输入层的特征通道数设置为4;第一卷积层的特征通道数设置为32,...

【专利技术属性】
技术研发人员:时拓刘琦
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1