一种多媒体数据识别方法及装置制造方法及图纸

技术编号:26172304 阅读:49 留言:0更新日期:2020-10-31 13:49
本发明专利技术提供了一种多媒体数据识别方法及装置,该方法包括:将待识别多媒体数据输入预先构建的神经网络结构中;其中,所述神经网络结构包括自适应的泄露‑集成‑发射ALIF时序模型,所述ALIF时序模型包括多层ALIF网络层;所述待识别多媒体数据包括图像数据和/或视频数据;通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算,并输出计算结果。本发明专利技术提出了一种融合了SNN和ANN于一身的新型算法ALIF,在模糊图像识别任务中能够表现出更好的识别能力和抗噪声能力,模型的鲁棒性更强,能够有效的识别出场景中是否含有目标物体。

【技术实现步骤摘要】
一种多媒体数据识别方法及装置
本专利技术涉及深度学习
,特别是涉及一种多媒体数据识别方法及装置。
技术介绍
深度学习是指多层神经网络上运用各种机器学习算法解决图像,文本等各种问题的算法集合。深度学习从大类上可以归入神经网络,不过在具体实现上有许多变化。深度学习的核心是特征学习,旨在通过分层网络获取分层次的特征信息,从而解决以往需要人工设计特征的重要难题。深度学习是一个框架,包含多个重要算法如卷积神经网络(ConvolutionalNeuralNetworks,CNN)、自动编码器AutoEncoder、稀疏编码SparseCoding、限制波尔兹曼机(RestrictedBoltzmannMachine,RBM)、深信度网络(DeepBeliefNetworks,DBN)以及多层反馈循环神经网络(RecurrentneuralNetwork,RNN)等神经网络。对于不同问题(图像,语音,文本),需要选用不同网络模型才能达到更好效果。在深度学习出现之前,常用的机器算法如支持向量机(SupportVectorMachine,SVM)等,亦被广泛应用于各类任务当中。目前,我们所说的人工智能(ArtificialIntelligence,AI),主要是指以神经网络模型为代表的深度学习算法和以SVM为代表的机器学习算法。由于以深度学习为代表的人工神经网络(ArtificialNeuralNetwork,ANN)类方法有缺陷--可解释性差,生物模拟层次低等种种原因,开始有人将注意力转到了类脑(brain-inspired)计算领域,以脉冲神经网络(SpikingNeuralNetwork,SNN)为代表的第3代神经网络开始得到了广泛的关注。相比ANN,SNN具有很低的功耗,这意味着低功耗意味着可以近似的模拟人脑的数百亿的神经元细胞成为可能(因为深度学习的本质就是将神经网络加深、加大,使其参数量爆增)。此外,SNN还具备更强的生物合理性。无论是从1907年法国生理科学家LouisLapicque提出的泄露-集成-发射(LeakyIntegrate-and-Fire,LIF)模型,还是20世纪中叶剑桥大学三一学院的霍奇金和赫胥黎专利技术的霍奇金-赫胥黎(Hodgkin-Huxley,HH)模型,都是从真正的生物大脑出发,分析神经元的工作机制以及其受到不同程度刺激下的反应。但是,由于纯粹的SNN只能接收离散信号输入,而我们现实世界的任务基本都是连续输入。而目前对信号转换的研究还没有那么深入,而且,SNN类算法主要被用于神经形态芯片的设计和开发中。可以说,SNN还没有像ANN一样在例如目标识别、物体分类、图像生成等种种实际任务中大显神威。图像识别,是计算机视觉领域的一个经典问题,随着以深度学习为代表的AI技术的飞速发展,图像识别领域受到了许多研究人员的关注。但是,在模糊图像识别领域,由于难以评估模糊和噪声的数据分布形式并对其进行模拟建模,现有的基于ANN的算法难以达到与近似人类的识别能力。目前,经典的模糊图像识别过程可以分为2个步骤:1)去除图像的噪声和模糊;2)对去噪后的图像进行图像识别。我们知道,图像中噪声的来源通常是由于剧烈的空间场景转换或由拍摄手法或装置(比如分辨率过低的拍摄设备)导致的。作为一个高度的病态问题(highlyill-posedproblem),图像/视频的去噪通常需要依赖于大量的先验知识(比如对各种可能的噪声进行知识蒸馏(knowledgedistilling)),对于噪声/模糊来源比较固定的情况,有3种比较常用的基于先验方式的去噪模式:1.来自UCLA的Tony陈等于1998年提出的“全变分盲反卷积”;2.Levin.L等于2009年基于Tony陈的全变分盲反卷积,提出了考虑稀疏图像先验的新方法;3.Freeman等于2008年提出的重尾梯度先验,可以从单张图像中有效的去除由于拍摄者手抖而造成的模糊。这些算法都是通过一个由粗到细的最大后验概率(MAP)框架来估计模糊核,但是这种类型算法的问题在于比较耗时,而且对低分辨率图像效果不佳。从2012年以来,随着深度学习的重新火热,有很多基于CNN的图像去模糊算法被提出来,比如西安交通大学的孙剑教授,提出了一种估计图像中各个小区域的模糊核方向的端到端的CNN架构。来自韩国首尔大学的研究人员提出了一种加入时序信息(可以对视频序列进行操作)的统一框架,可以有效的对视频/图像去模糊并进行超分辨率重建,并通过光流信息来对运动进行估计(有效去模糊)。而对模糊来源高度异化的情况,如图1所示(有飞机的机场),因为原图本身包含的信息不足以让CNN类模型进行识别,所以相对CNN,加入时间维度的信息的模糊图片序列更容易被识别出来(基于图像的感兴趣区域随时间可以被RNN类时序模型搜集全的假设)。虽然之前的方法在图像/视频去噪方面取得了较好的效果,有利于识别任务的进行,但是运动模糊核估计或序列建模对不规则和密集噪声都具有较高的敏感性。此外,随着图像/视频中噪声和模糊的增加,时序模型的识别的成功率也会出现显著的降低。
技术实现思路
鉴于上述问题,本专利技术提供了一种克服上述问题或至少部分地解决了上述问题的一种多媒体数据识别方法及装置。根据本专利技术的一个方面,提供了一种多媒体数据识别方法,包括:将待识别多媒体数据输入预先构建的神经网络结构中;其中,所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型,所述ALIF时序模型包括多层ALIF网络层;所述待识别多媒体数据包括图像数据和/或视频数据;通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算,并输出计算结果。可选地,对于任意一层ALIF网络层,神经元输出通过以下公式进行计算:yt=σ(vt+δ)其中,t表示第t个时间步,yt表示ALIF网络层在第t个时间步的神经元的输出;σ表示包含自适应调整fthres算法的激活函数;δ表示模拟大脑的随机噪声而设置的张量;vt表示第t个时间步的膜电位。可选地,第t个时间步的膜电位vt通过以下公式进行计算:vt=Wxxt+αvt-1其中,vt表示第t个时间步的膜电位,Wx表示ALIF时序模型中对输入进行变化的二维权重矩阵;xt表示ALIF网络层的输入;vt-1表示第t-1个时间步的膜电位;α表示预设矩阵;若yt≥fthres,则vt'=vt-β,β表示预设参数。可选地,所述Wx的形状为:每个时间步输入的数据维度×ALIF网络层的单元数。可选地,所述图像数据和/或视频数据为模糊图像数据和/或视频数据。根据本专利技术的另一方面,还提供了一种多媒体数据识别装置,包括:数据输入模块,配置为将待识别多媒体数据输入预先构建的神经网络结构中;其中,所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型,所述ALIF时序模型包括多层ALIF网络层;所述待识别多媒体数据包括图像数据和/或视频数据;数据计算模本文档来自技高网
...

【技术保护点】
1.一种多媒体数据识别方法,包括:/n将待识别的多媒体数据输入预先构建的神经网络结构中;其中,所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型,所述ALIF时序模型包括多层ALIF网络层;所述待识别多媒体数据包括图像数据和/或视频数据;/n通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算,并输出计算结果。/n

【技术特征摘要】
1.一种多媒体数据识别方法,包括:
将待识别的多媒体数据输入预先构建的神经网络结构中;其中,所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型,所述ALIF时序模型包括多层ALIF网络层;所述待识别多媒体数据包括图像数据和/或视频数据;
通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算,并输出计算结果。


2.根据权利要求1所述的方法,其中,对于任意一层ALIF网络层,神经元输出通过以下公式进行计算:
yt=σ(vt+δ)
其中,t表示第t个时间步,yt表示ALIF网络层在第t个时间步的神经元的输出;σ表示包含自适应调整fthres算法的激活函数;δ表示模拟大脑的随机噪声而设置的张量;vt表示第t个时间步的膜电位。


3.根据权利要求2所述的方法,其中,第t个时间步的膜电位vt通过以下公式进行计算:
vt=Wxxt+αvt-1
其中,vt表示第t个时间步的膜电位,Wx表示ALIF时序模型中对输入进行变化的二维权重矩阵;xt表示ALIF网络层的输入;vt-1表示第t-1个时间步的膜电位;α表示预设矩阵;
若yt≥fthres,则vt'=vt-β,β表示预设参数。


4.根据权利要求3所述的方法,其中,所述Wx的形状为:每个时间步输入的数据维度×ALIF网络层的单元数。


5.根据权利要求1-4任一项所述的方法,其中,所述图像数据和/或视频数据为模糊图像数据和/或视频数据。


6.一种多媒体数据识别装置,包括:
数据输入模块,配置为将待识别的多媒体数据输入预先构建的神经网络结...

【专利技术属性】
技术研发人员:高岱恒
申请(专利权)人:北京灵汐科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1