【技术实现步骤摘要】
一种基于长短时记忆网络变体的视频描述生成方法
本专利技术涉及视频理解和自然语言处理交叉
,尤其是涉及一种基于长短时记忆网络变体的视频描述生成方法。
技术介绍
视频描述是视觉智能中的高级任务,要求模型具备对视频内容深度理解的能力,该任务通过机器学习模型,将视频信息自动转换为自然语言描述,在视频搜索、互联网内容审查、视频监控、机器人、智能医疗等领域都有广泛的应用前景,因此引起了国内外众多学者的研究兴趣,而视觉内容描述作为从视觉到语言的转化,是一项结合了计算机视觉和自然语言处理两个领域的综合任务,视频描述任务不仅要求算法模型能够识别视频中的对象,还需要识别对象的行为、理解对象之间的关系,再用自然语言进行描述,因此该任务也是机器学习领域的一大难点问题。目前,大部分学者主要使用深度学习方法来实现视觉描述任务,最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视觉特征送入长短时记忆网络(LSTM)来生成自然语言描述,如中国专利CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集 ...
【技术保护点】
1.一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,包括以下步骤:/n1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;/n2)输入待描述的视频,通过卷积神经网络获取初始视频特征;/n3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;/n4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。/n
【技术特征摘要】 【专利技术属性】
1.一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,包括以下步骤:
1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;
2)输入待描述的视频,通过卷积神经网络获取初始视频特征;
3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;
4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。
2.根据权利要求1所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,所述的步骤3)具体为:
将初始视频特征按时间序列输入到第一LSTM中,获取带有语义信息的全局视频特征。
3.根据权利要求2所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,对于第一LSTM,在第i时间步,其第一LSTM的隐藏层和细胞层的计算式为:
其中,vi为第i时间步视频特征序列中的元素,分别为第一LSTM的第i-1时间步的隐藏层和细胞层,分别为第一LSTM的初始隐藏层和细胞层,LSTM1(·)为第一长短时记忆网络。
4.根据权利要求1所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息,并生成句子特征,所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,即注意力视频特征,所述的CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和句子特征作为输入。
5.根据权利要求4所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,所述的步骤4)中,卷积神经网络输出的初始视频特征经维数变换后使其与注意力网络的维数一致,输入描述生成模块的注意力网络中。
技术研发人员:王瀚漓,李秦渝,杨龙雨,
申请(专利权)人:同济大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。