【技术实现步骤摘要】
一种局部语义指导的多特征融合视频文本生成方法
[0001]本专利技术涉及视觉字幕领域,特别是涉及一种局部语义指导的多特征融合视频文本生成方法、装置、设备以及计算机可读存储介质。
技术介绍
[0002]视频字幕旨在理解视频中的事件并自动预测相应的字幕,在视频搜索、视频摘要、视频密钥识别和许多其他应用中发挥着重要作用。传统的视频字幕通过预测视频帧中对象和动作所代表的单词,并将其放入预定义模板生成句子。这种方法的明显缺点是无法生成多样化和灵活的视频描述。
[0003]为了解决上述存在的问题,如公开号为CN111866598A的中国专利公开了训练字幕模型的方法和装置、计算机设备及存储介质,包括初始化模块、第一训练模块、第二训练模块和生成模块。工作时,首先使用交叉熵损失初始化包括在所述字幕模型中的多个长短期记忆(LSTM)单元;接着使用强化训练LSTM单元;然后使用多任务训练对所述字幕模型中的LSTM单元和多个卷积神经网络(CNN)进行训练;最后使用所述字幕模型生成对应于所述输入视频的视频字幕。该装置节省了内存和数据消耗、简化 ...
【技术保护点】
【技术特征摘要】
1.一种局部语义指导的多特征融合视频文本生成方法,其特征在于,包括:构建并训练视频文本生成模型,将视频片段输入训练好的视频文本生成模型中;提取所述视频片段中预设帧数的局部空间语义特征;提取所述视频片段的全局空间语义特征;提取所述全局空间语义特征中的时间序列特征;将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征;将所述融合特征进行平均池化操作,得到全局平均池化特征;将所述融合特征和所述全局平均池化特征输入编码器
‑
解码器模块,得到预测视频字幕。2.如权利要求1所述的视频文本生成方法,其特征在于,所述提取所述视频片段中预设帧数的的局部空间语义特征包括:提取所述视频片段中所述预设帧数的视频片段;利用Faster
‑
RCNN目标检测器提取所述预设帧数视频片段中的局部空间语义;利用ResNet50的Conv5层提取所述局部空间语义中的目标特征;利用多层感知器模块处理所述目标特征,得到所述局部空间语义特征。3.如权利要求1所述的视频文本生成方法,其特征在于,所述提取所述视频片段的全局空间语义特征包括:利用CLIP4Clip模型提取所述视频片段的空间语义信息,得到所述全局空间语义特征。4.如权利要求1所述的视频文本生成方法,其特征在于,所述提取所述全局空间语义特征中的时间序列特征包括:利用GRU模块循环提取所述全局空间语义特征中每一时刻与下一时刻之间的时间线索,得到多个时间线索;将所述多个时间线索进行融合得到所述时间序列特征。5.如权利要求1所述的视频文本生成方法,其特征在于,所述将所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征级联得到融合特征包括:将所述局部空间语义特征和所述全局空间语义特征通过线性投影层进行同步维度;将同步维度后的所述局部空间语义特征、所述全局空间语义特征和所述时间序列特征进行级联融合,得到所述融合特征。6.如权利要求1所述的视频文本生成方法,其特征在于,所述训练视频文本生成模型包括:将训练视频片段输入所述视频文本生成模型中进行训练,得到预测视频字幕;提取...
【专利技术属性】
技术研发人员:徐天阳,赖丽娜,张赟捷,宋晓宁,朱学峰,吴小俊,
申请(专利权)人:江南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。