【技术实现步骤摘要】
本专利技术涉及视频处理,尤其是涉及一种视频字幕生成方法、装置及存储介质。
技术介绍
1、视频字幕(video captioning)是一项结合了计算机视觉和自然语言处理技术的任务,旨在自动生成视频内容的描述文字。通过深度学习模型(如resnet、vittransformer)提取视频帧的视觉特征,同时可能结合音频、语音转录文本、帧目标检测结果、知识图谱等多模态信息,这些信息随后被序列到序列(seq2seq)模型,例如长短期记忆网络(lstm)或transformer处理,以生成连贯的文字描述。视频字幕在无障碍服务、内容检索和自动字幕生成等领域有着广泛的应用,能够提升视觉障碍人士对视频内容的理解,增强视频搜索的效率。随着技术的持续发展,视频字幕的能力正逐步提升,对于推动人工智能在多媒体内容理解和生成方面的应用具有重要价值。在社区场景中,视频字幕技术有着巨大的潜力,对于增强社区的互动性和可访问性具有显著影响。如为公共安全视频提供实时字幕,以帮助听障人士获得紧急信息,或在社区活动直播中自动生成字幕,使得不同语言背景的居民也能参与到活动中。随着
...【技术保护点】
1.一种视频字幕生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的视频字幕生成方法,其特征在于,基于所述帧字幕与所述目标检测区域及相应标签,进行聚类和计数的具体过程包括:
3.根据权利要求2所述的视频字幕生成方法,其特征在于,判断各标签是否属于所述前k个聚类的具体过程包括:
4.根据权利要求2所述的视频字幕生成方法,其特征在于,所述单词间的余弦相似度表示为:
5.根据权利要求1所述的视频字幕生成方法,其特征在于,所述多模态解码器模型包括多模态bert模型。
6.根据权利要求1所述的视频字幕生成方法
...【技术特征摘要】
1.一种视频字幕生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的视频字幕生成方法,其特征在于,基于所述帧字幕与所述目标检测区域及相应标签,进行聚类和计数的具体过程包括:
3.根据权利要求2所述的视频字幕生成方法,其特征在于,判断各标签是否属于所述前k个聚类的具体过程包括:
4.根据权利要求2所述的视频字幕生成方法,其特征在于,所述单词间的余弦相似度表示为:
5.根据权利要求1所述的视频字幕生成方法,其特征在于,所述多模态解码器模型包括多模态bert模型。
6.根据权利要求1所述的视频字幕生成方法,其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。