一种基于多模态融合的视频描述文本生成方法技术

技术编号:26689848 阅读:20 留言:0更新日期:2020-12-12 02:39
本发明专利技术提供一种基于多模态融合的视频描述文本生成方法,包括:获取待描述视频,待描述视频包括视频帧,待描述视频设置有对应的视频描述语句;获取视频描述语句的文本主题信息,给每个文本主题信息设置文本主题信息编码;分别获取待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码;将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果;将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本。本发明专利技术的有益效果在于:实现在视频、音频、文本多种模态融合的基础上生成视频的自然语言描述,提高生成的准确率和鲁棒性。

【技术实现步骤摘要】
一种基于多模态融合的视频描述文本生成方法
本专利技术涉及图像处理
,尤其涉及一种基于多模态融合的视频描述文本生成方法。
技术介绍
视频资源已经变成人们获取信息最流行和喜爱的方式,尤其是在一些视频APP出现后,每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户,需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。目前通常会对视频进行视频内容描述(videocaptioning),视频内容描述是通过给定一段视频,生成描述视频内容的一段文字。视频内容描述需要用通顺准确的一句话来描述视频内容。现有技术通过采用深度卷积神经网络模型提取图像层面的RGB、灰度光流等特征,音频层面的时序等特征,将两类特征向量拼接并输入到循环神经网络中,通过基于注意力机制的循环神经网络迭代输出自然语言描述文本。然后上述现有技术会对视频进行抽帧,并将抽帧后的图像作为独立的特征用于输出描述文本,但抽帧后的独立图像无法反映出视频的动态内容和时域信息;并且自然语言描述文本的输出需要文本层面信息的支撑,然而上述现有技术没有融合文本层面信息的特征,从而导致输出的描述文本内容发散性大、语义方向不稳定。
技术实现思路
针对现有技术中存在的上述问题,现提供一种基于多模态融合的视频描述文本生成方法。具体技术方案如下:一种基于多模态融合的视频描述文本生成方法,其中,包括:获取待描述视频,待描述视频包括视频帧和音频,待描述视频设置有对应的视频描述语句;获取视频描述语句的至少一个文本主题信息,并给每个文本主题信息设置文本主题信息编码;将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取待描述视频的动态时域信息编码和静态信息编码;将待描述视频的音频输入至对应的神经网络中,以获取待描述视频的音频特征向量编码;将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理,以得到融合结果;将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本。优选的,视频描述文本生成方法,其中,获取视频描述语句的至少一个文本主题信息,并给每个文本主题信息设置文本主题信息编码,包括:根据视频描述语句中的词语分布,确定视频描述语句对应的至少一个文本主题信息;获取与文本主题信息对应的多个关联词,并获取得到每个关联词的词向量,其中,关联词的词向量预先训练得到;对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码。优选的,视频描述文本生成方法,其中,根据视频描述语句中的词语分布,确定视频描述语句对应的至少一个文本主题信息,包括:从视频描述语句中的词语分布中抽取一个词语,并返回继续执行上述抽取步骤,直至获取视频描述语句中的所有词语;根据所有词语和词语的连接关系,预测视频描述语句对应的至少一个文本主题。优选的,视频描述文本生成方法,其中,词向量的预先训练过程包括:获取训练描述语句中的所有第一训练词语,并获取得到与每个第一训练词语相邻的至少一个第二训练词语;根据第二训练词语与第一训练词语之间的比较结果,对第一训练词语的初始词向量进行调整;基于调整后的第一训练词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件。优选的,视频描述文本生成方法,其中,对文本主题信息对应的每个关联词的词向量进行处理,以得到文本主题信息对应的文本主题信息编码,包括:获取得到文本主题信息对应的每个关联词的词向量的平均值,并将平均值作为文本主题信息编码。优选的,视频描述文本生成方法,其中,神经网络包括第一神经网络、第二神经网络和第二循环神经网络;将待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取待描述视频的动态时域信息编码和静态信息编码,包括以下步骤:将待描述视频的视频帧的序列作为输入序列输入至第一神经网络中,以获取每个视频帧的特征向量序列,并将特征向量序列依次输入到第二循环神经网络中得到待描述视频的动态时域信息编码;将待描述视频的视频帧的序列作为输入序列输入至第二神经网络模型,以获取得到所有视频帧的序列对应的一个视频帧特征向量,并根据所有视频帧特征向量获取得到待描述视频的静态信息编码。优选的,视频描述文本生成方法,其中,根据所有视频帧特征向量获取得到待描述视频的静态信息编码,包括:对每个视频帧特征向量进行最大池化操作,以获取得到每个视频帧特征向量的最大池化结果,并将每个视频帧特征向量的最大池化结果作为待描述视频的静态信息编码。优选的,视频描述文本生成方法,其中,第一神经网络为Resnet神经网络模型;和/或第二神经网络为I3D神经网络模型;和/或第三神经网络为VGG神经网络模型。优选的,视频描述文本生成方法,其中,将待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码进行融合处理,以得到融合结果,包括:将动态时域信息编码、静态信息编码和音频特征向量编码按照预设拼接顺序进行拼接,以得到融合结果。优选的,视频描述文本生成方法,其中,将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定待描述视频的视频内容描述文本,包括:将融合结果和文本主题信息编码输入至基于注意力机制的第一循环神经网络中,以根据融合结果逐步输出的当前位置的视频内容描述词语的上一位置的视频内容描述词语和文本主题信息编码,并依照注意力机制,确定当前位置的视频内容描述词语;根据所有频内容描述词语设置视频内容描述文本。上述技术方案具有如下优点或有益效果:从而实现了在传统的特征提取基础上融入视频的动态内容、静态内容、时域信息和文本主题信息,进而实现在视频、图像、音频、文本多种模态融合的基础上生成视频的自然语言描述,提高生成的准确率和鲁棒性。附图说明参考所附附图,以更加充分的描述本专利技术的实施例。然而,所附附图仅用于说明和阐述,并不构成对本专利技术范围的限制。图1为本专利技术基于多模态融合的视频描述文本生成方法实施例的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。本专利技术包括一种基于多模态融合的视频描述文本生成方法,如图1所示,包括以下步骤:步骤S1,获取待描述视频,待描述视频包括视频帧和音频,待本文档来自技高网...

【技术保护点】
1.一种基于多模态融合的视频描述文本生成方法,其特征在于,包括:/n获取待描述视频,所述待描述视频包括视频帧和音频,所述待描述视频设置有对应的视频描述语句;/n获取所述视频描述语句的至少一个文本主题信息,并给每个所述文本主题信息设置文本主题信息编码;/n将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取所述待描述视频的动态时域信息编码和静态信息编码;/n将所述待描述视频的音频输入至对应的神经网络中,以获取所述待描述视频的音频特征向量编码;/n将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果;/n将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定所述待描述视频的视频内容描述文本。/n

【技术特征摘要】
1.一种基于多模态融合的视频描述文本生成方法,其特征在于,包括:
获取待描述视频,所述待描述视频包括视频帧和音频,所述待描述视频设置有对应的视频描述语句;
获取所述视频描述语句的至少一个文本主题信息,并给每个所述文本主题信息设置文本主题信息编码;
将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中,以分别获取所述待描述视频的动态时域信息编码和静态信息编码;
将所述待描述视频的音频输入至对应的神经网络中,以获取所述待描述视频的音频特征向量编码;
将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理,以得到融合结果;
将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理,确定所述待描述视频的视频内容描述文本。


2.如权利要求1所述的视频描述文本生成方法,其特征在于,所述获取所述视频描述语句的至少一个文本主题信息,并给每个所述文本主题信息设置文本主题信息编码,包括:
根据所述视频描述语句中的词语分布,确定所述视频描述语句对应的至少一个所述文本主题信息;
获取与所述文本主题信息对应的多个关联词,并获取得到每个所述关联词的词向量,其中,所述关联词的词向量预先训练得到;
对所述文本主题信息对应的每个所述关联词的词向量进行处理,以得到所述文本主题信息对应的所述文本主题信息编码。


3.如权利要求2所述的视频描述文本生成方法,其特征在于,所述根据所述视频描述语句中的词语分布,确定所述视频描述语句对应的至少一个所述文本主题信息,包括:
从所述视频描述语句中的词语分布中抽取一个词语,并返回继续执行上述抽取步骤,直至获取所述视频描述语句中的所有词语;
根据所有词语和词语的连接关系,预测所述视频描述语句对应的至少一个所述文本主题。


4.如权利要求2所述的视频描述文本生成方法,其特征在于,所述词向量的预先训练过程包括:
获取训练描述语句中的所有第一训练词语,并获取得到与每个第一训练词语相邻的至少一个第二训练词语;
根据所述第二训练词语与所述第一训练词语之间的比较结果,对所述第一训练词语的初始词向量进行调整;
基于调整后的所述第一训练词语的词向量,返回继续执行上述训练步骤,直至满足训练截止条件。


5.如权利要求2所述的视频描述文本生成方法,其特征在于,所述对所述文本主题信息对应的每个所述关联词的词向量进行处理,以得到所述文本主题信息对应的所述文本主题...

【专利技术属性】
技术研发人员:刘辉
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1