一种基于多模态融合的视频描述文本生成方法技术

技术编号：26689848 阅读：20 留言：0更新日期：2020-12-12 02:39

本发明专利技术提供一种基于多模态融合的视频描述文本生成方法，包括：获取待描述视频，待描述视频包括视频帧，待描述视频设置有对应的视频描述语句；获取视频描述语句的文本主题信息，给每个文本主题信息设置文本主题信息编码；分别获取待描述视频的动态时域信息编码、静态信息编码和音频特征向量编码；将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果；将融合结果和文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定待描述视频的视频内容描述文本。本发明专利技术的有益效果在于：实现在视频、音频、文本多种模态融合的基础上生成视频的自然语言描述，提高生成的准确率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态融合的视频描述文本生成方法
本专利技术涉及图像处理
，尤其涉及一种基于多模态融合的视频描述文本生成方法。
技术介绍
视频资源已经变成人们获取信息最流行和喜爱的方式，尤其是在一些视频APP出现后，每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户，需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。目前通常会对视频进行视频内容描述(videocaptioning)，视频内容描述是通过给定一段视频，生成描述视频内容的一段文字。视频内容描述需要用通顺准确的一句话来描述视频内容。现有技术通过采用深度卷积神经网络模型提取图像层面的RGB、灰度光流等特征，音频层面的时序等特征，将两类特征向量拼接并输入到循环神经网络中，通过基于注意力机制的循环神经网络迭代输出自然语言描述文本。然后上述现有技术会对视频进行抽帧，并将抽帧后的图像作为独立的特征用于输出描述文本，但抽帧后的独立图像无法反映出视频的动态内容和时域信息；并且自然语言描述文本的输出需要文本层面信息的支撑，然而上述现有技术没有融合文本层面信息的特征，从而导致输出的描述文本内容发散性大、语义方向不稳定。
技术实现思路
针对现有技术中存在的上述问题，现提供一种基于多模态融合的视频描述文本生成方法。具体技术方案如下：一种基于多模态融合的视频描述文本生成方法，其中，包括：获取待描述视频，待描述视频包括视频帧和音频，待描述视...

【技术保护点】
1.一种基于多模态融合的视频描述文本生成方法，其特征在于，包括：/n获取待描述视频，所述待描述视频包括视频帧和音频，所述待描述视频设置有对应的视频描述语句；/n获取所述视频描述语句的至少一个文本主题信息，并给每个所述文本主题信息设置文本主题信息编码；/n将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取所述待描述视频的动态时域信息编码和静态信息编码；/n将所述待描述视频的音频输入至对应的神经网络中，以获取所述待描述视频的音频特征向量编码；/n将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果；/n将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定所述待描述视频的视频内容描述文本。/n

【技术特征摘要】
1.一种基于多模态融合的视频描述文本生成方法，其特征在于，包括：
获取待描述视频，所述待描述视频包括视频帧和音频，所述待描述视频设置有对应的视频描述语句；
获取所述视频描述语句的至少一个文本主题信息，并给每个所述文本主题信息设置文本主题信息编码；
将所述待描述视频的视频帧的序列作为输入序列输入至对应的神经网络中，以分别获取所述待描述视频的动态时域信息编码和静态信息编码；
将所述待描述视频的音频输入至对应的神经网络中，以获取所述待描述视频的音频特征向量编码；
将所述待描述视频的所述动态时域信息编码、所述静态信息编码和所述音频特征向量编码进行融合处理，以得到融合结果；
将所述融合结果和所述文本主题信息编码输入至第一循环神经网络中进行迭代处理，确定所述待描述视频的视频内容描述文本。

2.如权利要求1所述的视频描述文本生成方法，其特征在于，所述获取所述视频描述语句的至少一个文本主题信息，并给每个所述文本主题信息设置文本主题信息编码，包括：
根据所述视频描述语句中的词语分布，确定所述视频描述语句对应的至少一个所述文本主题信息；
获取与所述文本主题信息对应的多个关联词，并获取得到每个所述关联词的词向量，其中，所述关联词的词向量预先训练得到；
对所述文本主题信息对应的每个所述关联词的词向量进行处理，以得到所述文本主题信息对应的所述文本主题信息编码。

3.如权利要求2所述的视频描述文本生成方法，其特征在于，所述根据所述视频描述语句中的词语分布，确定所述视频描述语句对应的至少一个所述文本主题信息，包括：
从所述视频描述语句中的词语分布中抽取一个词语，并返回继续执行上述抽取步骤，直至获取所述视频描述语句中的所有词语；
根据所有词语和词语的连接关系，预测所述视频描述语句对应的至少一个所述文本主题。

4.如权利要求2所述的视频描述文本生成方法，其特征在于，所述词向量的预先训练过程包括：
获取训练描述语句中的所有第一训练词语，并获取得到与每个第一训练词语相邻的至少一个第二训练词语；
根据所述第二训练词语与所述第一训练词语之间的比较结果，对所述第一训练词语的初始词向量进行调整；
基于调整后的所述第一训练词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件。

5.如权利要求2所述的视频描述文本生成方法，其特征在于，所述对所述文本主题信息对应的每个所述关联词的词向量进行处理，以得到所述文本主题信息对应的所述文本主题...

【专利技术属性】
技术研发人员：刘辉，
申请(专利权)人：新华智云科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人