基于常微分方程的GRU网络模型及特征提取方法、装置制造方法及图纸

技术编号:31377597 阅读:9 留言:0更新日期:2021-12-15 11:16
本发明专利技术公开了一种基于常微分方程的GRU网络模型及特征提取方法、装置,该GRU网络模型包括至少一个门控循环单元,所述至少一个门控循环单元中的每个门控循环单元均包括候选隐藏层,所述候选隐藏层基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。该GRU网络模型在训练过程中不需要耗费大量的空间来存储中间结果,减小存储空间,提高内存效率。提高内存效率。提高内存效率。

【技术实现步骤摘要】
基于常微分方程的GRU网络模型及特征提取方法、装置


[0001]本专利技术涉及深度学习
,具体涉及一种基于常微分方程的GRU网络模型及特征提取方法、装置。

技术介绍

[0002]近几年深度学习发展迅猛,更是由于前段时间的谷歌的AlphaGo而轰动一时,国内也开始迎来这一技术的研究热潮。深度学习目前还处于发展阶段,研究人员已将深度学习应用到相关图像处理及其计算机视觉领域中,深度学习算法在众多有监督学习问题上取得了卓越的成果,其在精度、效率和智能化等方面的性能远超传统机器学习算法,部分甚至超越了人类水平。当前,深度学习研究者的研究兴趣逐渐从监督学习转移到强化学习、半监督学习以及无监督学习领域。自2006年以来,深度学习在学术界持续升温,美国、加拿大、欧洲相继成为此领域的科研重镇。2013年,欧洲委员会发起模仿人脑的超级计算机项目,计划历时10年投入16亿美元,由全球80个机构的超过200名研究人员共同参与,希望在理解人脑工作方式上取得重大进展,并推动更多能力强大的新型计算机的研发。
[0003]目前的多层神经网络,譬如,GRU网络模型,其是有多个重复的门控循环单元串联而成。门控循环单元(Gated Recurrent Units,GRU)是循环神经网络RNN中的一种门控机制,与其他门控机制相似,其旨在解决标准RNN中的梯度消失/爆炸问题并同时保留序列的长期信息。GRU网络模型中的每个门控循环单元都有序的保留了一定的信息,并在训练过程中得到优化。
[0004]神经网络本质主要是在拟合一个复杂的复合函数,复合的次数就是神经网络的层数,要找到参数的梯度,很容易就想到链式法则,然而,在前向传播时需要保留所有层的激活值,并在反向传播时利用这些激活值,这对内存的占用非常大,对深度模型的训练过程来说是一个很大的瓶颈。

技术实现思路

[0005]本专利技术为了解决上述技术问题提供一种基于常微分方程的GRU网络模型及特征提取方法、装置,训练过程中不需要耗费大量的空间来存储中间结果,减小存储空间,提高内存效率。
[0006]本专利技术通过下述技术方案实现:
[0007]本专利技术第一方面提供一种基于常微分方程的GRU网络模型,包括至少一个门控循环单元,所述至少一个门控循环单元中的每个门控循环单元均包括候选隐藏层,所述候选隐藏层基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。
[0008]本专利技术第一方面对候选隐藏层做了改进,即候选隐藏层采用常微分方程,将深度学习的GRU网络模型和常微分方程结合在一起,将隐藏状态的导数作为参数,参数则不是一系列离散值,而是一个连续的空间,因此并不需要依次传递到前向传播中的每一个函数进行评估,从而不用耗费大量空间来存储中间结果,大大减少存储空间,提高了内存效率。参
数效率高,通过求解常微分方程,隐藏层动态被参数化为时间的连续函数时,附近“网络层”的参数自动连接在一起,从而减少了监督学习任务所需的参数数量。
[0009]在一种可能的设计中,所述候选隐藏层采用欧拉方法Euler或者龙格

库塔方法Runge

Kutta对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。
[0010]本专利技术第二方面提供一种特征提取方法,包括以下步骤:
[0011]获取至少一张图像,所述至少一张图像中的每张图像均包括至少一个待识别目标;
[0012]对所述至少一张图像中的每张图像进行卷积、池化后输入已训练完成的GRU网络模型中对所述至少一个待识别目标中的每个待识别目标进行特征提取,所述GRU网络模型为第一方面及其任一种可能中所述的一种基于常微分方程的GRU网络模型。
[0013]本专利技术第二方面公开了第一方面中GRU网络模型的应用,通过对具有待识别目标的图像卷积池化后,采用GRU网络模型实现待识别目标的特征提取,减小GRU网络模型在训练过程中对内存占用。
[0014]在一种可能的设计中,所述获取至少一张图像之后还包括:对所述至少一张图像中的每张图像进行预处理的步骤。
[0015]在一种可能的设计中,所述对所述至少一张图像中的每张图像进行预处理的步骤包括:
[0016]利用双边滤波算法对所述至少一张图像中的每张图像的空洞进行填空。
[0017]本方案采用双边滤波算法对每张图像的空洞进行填空,这样预处理得到的图像更清晰,特征提取更加准确,提高了识别率,进一步的提高特征提取的准确性。
[0018]在一种可能的设计中,所述图像为RGB

D图像。
[0019]现有的特征提取一般基于二维的RGB图像,本方案优选的采用RGB

D图像,其为深度图像,其对光照强度变化不受颜色和纹理变化的影响,可靠的应用于特征提取,并提供丰富的3D场景的结构信息。
[0020]在一种可能的设计中,采用卷积神经网络对所述至少一张图像中的每张图像进行卷积、池化。
[0021]本专利技术第三方面公开了一种特征提取装置,包括依次通信连接的存储器和控制器,所述存储器上存储有计算机程序,所述控制器用于读取所述计算机程序,执行第二方面及其任一种可能中所述的一种特征提取方法。
[0022]本专利技术第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行第二方面及其任一种可能中所述的一种特征提取方法。
[0023]本专利技术与现有技术相比,具有如下的优点和有益效果:
[0024]1、本专利技术GRU网络模型的候选隐藏层采用常微分方程,将隐藏状态的导数作为参数,参数由现有的离散值变为连续值,在训练时,不需要依次传递到前向传播中的每一个函数进行评估,从而不用耗费大量空间来存储中间结果,大大减少存储空间,提高了内存效率。
[0025]2、本专利技术的特征提取方法基于上述的常微分

GRU网络模型实现待识别目标的特征提取,减小GRU网络模型在训练过程中对内存占用。
附图说明
[0026]此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。
[0027]图1为门控循环单元的架构图。
[0028]图2为本专利技术特征提取方法的流程图。
具体实施方式
[0029]下面结合附图及具体实施例来对本专利技术作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本专利技术,但并不构成对本专利技术的限定。本文公开的特定结构和功能细节仅用于描述本专利技术的示例实施例。然而,可用很多备选的形式来体现本专利技术,并且不应当理解为本专利技术限制在本文阐述的实施例中。
[0030]应当理解,尽管本文可能使用术语第一、第二等等来描述各种单元,但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本专利技术的示例实施例的范围本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于常微分方程的GRU网络模型,其特征在于,包括至少一个GRU层,所述至少一个GRU层中的每个GRU层均包括候选隐藏层,所述候选隐藏层基于常微分方程对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。2.根据权利要求1所述的一种基于常微分方程的GRU网络模型,其特征在于,所述候选隐藏层采用欧拉方法Euler或者龙格

库塔方法Runge

Kutta对候选隐藏层的输入信息进行计算将其转化为隐藏状态序列输出。3.一种特征提取方法,其特征在于,包括以下步骤:获取至少一张图像,所述至少一张图像中的每张图像均包括至少一个待识别目标;对所述至少一张图像中的每张图像进行卷积、池化后输入已训练完成的GRU网络模型中对所述至少一个待识别目标中的每个待识别目标进行特征提取,所述GRU网络模型为权利要求1或2任一所述的一种基于常微分方程的GRU网络模型。4.根据权利要求3所述的一种特征提取方法,其特征在于,所述...

【专利技术属性】
技术研发人员:宗兆文黄军建蒋仁庆钟鑫杜文琼贾益君周小林杨昊洋
申请(专利权)人:中国人民解放军陆军军医大学第二附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1