一种多媒体数据识别方法及装置制造方法及图纸

技术编号：26172304 阅读：49 留言：0更新日期：2020-10-31 13:49

本发明专利技术提供了一种多媒体数据识别方法及装置，该方法包括：将待识别多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露‑集成‑发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。本发明专利技术提出了一种融合了SNN和ANN于一身的新型算法ALIF,在模糊图像识别任务中能够表现出更好的识别能力和抗噪声能力,模型的鲁棒性更强，能够有效的识别出场景中是否含有目标物体。

全部详细技术资料下载

【技术实现步骤摘要】
一种多媒体数据识别方法及装置
本专利技术涉及深度学习
，特别是涉及一种多媒体数据识别方法及装置。
技术介绍
深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。深度学习是一个框架，包含多个重要算法如卷积神经网络(ConvolutionalNeuralNetworks,CNN)、自动编码器AutoEncoder、稀疏编码SparseCoding、限制波尔兹曼机(RestrictedBoltzmannMachine，RBM)、深信度网络(DeepBeliefNetworks，DBN)以及多层反馈循环神经网络(RecurrentneuralNetwork，RNN)等神经网络。对于不同问题(图像，语音，文本)，需要选用不同网络模型才能达到更好效果。在深度学习出现之前,常用的机器算法如支持向量机(SupportVectorMachine，SVM)等,亦被广泛应用于各类任务当中。目前,我们所说的人工智能(ArtificialIntelligence，AI),主要是指以神经网络模型为代表的深度学习算法和以SVM为代表的机器学习算法。由于以深度学习为代表的人工神经网络(ArtificialNeuralNetwork,ANN)类方法有缺陷--可解释性差,生物模拟层次低等种种原因,开始有人将注意力转到了类脑(brain-i...

【技术保护点】
1.一种多媒体数据识别方法，包括：/n将待识别的多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；/n通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。/n

【技术特征摘要】
1.一种多媒体数据识别方法，包括：
将待识别的多媒体数据输入预先构建的神经网络结构中；其中，所述神经网络结构包括自适应的泄露-集成-发射ALIF时序模型，所述ALIF时序模型包括多层ALIF网络层；所述待识别多媒体数据包括图像数据和/或视频数据；
通过所述神经网络结构中的多层ALIF网络层对所述待识别多媒体数据进行识别计算，并输出计算结果。

2.根据权利要求1所述的方法，其中，对于任意一层ALIF网络层，神经元输出通过以下公式进行计算：
yt＝σ(vt+δ)
其中，t表示第t个时间步，yt表示ALIF网络层在第t个时间步的神经元的输出；σ表示包含自适应调整fthres算法的激活函数；δ表示模拟大脑的随机噪声而设置的张量；vt表示第t个时间步的膜电位。

3.根据权利要求2所述的方法，其中，第t个时间步的膜电位vt通过以下公式进行计算：
vt＝Wxxt+αvt-1
其中，vt表示第t个时间步的膜电位，Wx表示ALIF时序模型中对输入进行变化的二维权重矩阵；xt表示ALIF网络层的输入；vt-1表示第t-1个时间步的膜电位；α表示预设矩阵；
若yt≥fthres，则vt'＝vt-β，β表示预设参数。

4.根据权利要求3所述的方法，其中，所述Wx的形状为：每个时间步输入的数据维度×ALIF网络层的单元数。

5.根据权利要求1-4任一项所述的方法，其中，所述图像数据和/或视频数据为模糊图像数据和/或视频数据。

6.一种多媒体数据识别装置，包括：
数据输入模块，配置为将待识别的多媒体数据输入预先构建的神经网络结...

【专利技术属性】
技术研发人员：高岱恒，
申请(专利权)人：北京灵汐科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人