当前位置: 首页 > 专利查询>同济大学专利>正文

视频字幕生成方法、装置及存储介质制造方法及图纸

技术编号:42842743 阅读:24 留言:0更新日期:2024-09-27 17:13
本发明专利技术涉及一种视频字幕生成方法、装置及存储介质。该方法获取原始视频数据并采样得到视频帧;利用训练好的图像字幕模型生成帧字幕、利用目标检测模型获取每帧目标检测区域及相应的标签、利用视频编码器提取视频嵌入特征;从预先获取的知识图谱中导出子图作为额外的输入特征,并利用字幕时序编码器对每帧字幕进行时序特征编码得到相应的帧字幕嵌入特征;进行聚类和计数并利用区域时空编码器对经聚类和计数的区域特征进行编码,得到经聚类和计数的区域嵌入特征;将获取的多模态特征输入多模态解码器模型中,得到最终的视频字幕。与现有技术相比,本发明专利技术具有等优点。

【技术实现步骤摘要】

本专利技术涉及视频处理,尤其是涉及一种视频字幕生成方法、装置及存储介质


技术介绍

1、视频字幕(video captioning)是一项结合了计算机视觉和自然语言处理技术的任务,旨在自动生成视频内容的描述文字。通过深度学习模型(如resnet、vittransformer)提取视频帧的视觉特征,同时可能结合音频、语音转录文本、帧目标检测结果、知识图谱等多模态信息,这些信息随后被序列到序列(seq2seq)模型,例如长短期记忆网络(lstm)或transformer处理,以生成连贯的文字描述。视频字幕在无障碍服务、内容检索和自动字幕生成等领域有着广泛的应用,能够提升视觉障碍人士对视频内容的理解,增强视频搜索的效率。随着技术的持续发展,视频字幕的能力正逐步提升,对于推动人工智能在多媒体内容理解和生成方面的应用具有重要价值。在社区场景中,视频字幕技术有着巨大的潜力,对于增强社区的互动性和可访问性具有显著影响。如为公共安全视频提供实时字幕,以帮助听障人士获得紧急信息,或在社区活动直播中自动生成字幕,使得不同语言背景的居民也能参与到活动中。随着技术的进步,预计视频本文档来自技高网...

【技术保护点】

1.一种视频字幕生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的视频字幕生成方法,其特征在于,基于所述帧字幕与所述目标检测区域及相应标签,进行聚类和计数的具体过程包括:

3.根据权利要求2所述的视频字幕生成方法,其特征在于,判断各标签是否属于所述前k个聚类的具体过程包括:

4.根据权利要求2所述的视频字幕生成方法,其特征在于,所述单词间的余弦相似度表示为:

5.根据权利要求1所述的视频字幕生成方法,其特征在于,所述多模态解码器模型包括多模态bert模型。

6.根据权利要求1所述的视频字幕生成方法,其特征在于,利用区...

【技术特征摘要】

1.一种视频字幕生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的视频字幕生成方法,其特征在于,基于所述帧字幕与所述目标检测区域及相应标签,进行聚类和计数的具体过程包括:

3.根据权利要求2所述的视频字幕生成方法,其特征在于,判断各标签是否属于所述前k个聚类的具体过程包括:

4.根据权利要求2所述的视频字幕生成方法,其特征在于,所述单词间的余弦相似度表示为:

5.根据权利要求1所述的视频字幕生成方法,其特征在于,所述多模态解码器模型包括多模态bert模型。

6.根据权利要求1所述的视频字幕生成方法,其...

【专利技术属性】
技术研发人员:赵生捷刘洪博陈伟超邓浩
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1