一种基于分层语义表示和聚合网络的视频字幕生成方法技术

技术编号:42631602 阅读:36 留言:0更新日期:2024-09-06 01:32
本发明专利技术公开了一种基于分层语义表示和聚合网络的视频字幕生成方法,该方法首先对视频进行预处理,获取视频特征。其次构建视频字幕分层语义表示和聚合网络整体架构。然后根据视频特征,在构建的视频字幕分层语义表示和聚合网络中生成字幕。最后训练视频字幕分层语义表示和聚合网络,优化网络参数。本发明专利技术显著提高了生成字幕中动词的精度和多样性。

【技术实现步骤摘要】

本专利技术属于视频处理,具体涉及一种基于分层语义表示和聚合网络的视频字幕生成方法


技术介绍

1、视频字幕的目的是“理解”和描述视频数据的语义内容。目前,大多数视频字幕采用编码器-解码器结构,同时针对视频字幕中语义信息的提取和建模已经得到了广泛的研究,当前的方法虽然已经取得了一定的成果,但仍存在缺陷。现有方法在动作语义的提取上存在明显不足,导致生成的字幕中动词的多样性和准确性受限。

2、此外,现有技术中的分层或多粒度架构常常忽视了不同层或粒度之间的语义对齐问题,这阻碍了视频的全面理解,并可能导致字幕的语义不一致和歧义。再者,多数现有方法在处理编码器的多粒度语义输出时,未能有效区分重要性与非重要性事件,降低了视频字幕的整体性能。


技术实现思路

1、针对现有技术中存在的不足,本专利技术提出了一个层次语义表示和聚合(hsra)网络。该网络的目的是捕捉细粒度的语义,视觉内容通过层次语义表示模块,结构化的视觉语义到一个“对象-动作-事件”的层次结构。“事件”表示涉及在给定上下文内参与“动作”的一个或多个“对本文档来自技高网...

【技术保护点】

1.一种基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,所述对视频进行预处理具体实现如下:

3.根据权利要求2所述的基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,所述视频字幕分层语义表示和聚合网络分为两个部分:分层语义表示模块和语义聚合模块。

4.根据权利要求3所述的基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,所述分层语义表示模块具体实现如下:

5.根据权利要求4所述的基于分层语义表示和聚合网络的视频字幕生成...

【技术特征摘要】

1.一种基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,所述对视频进行预处理具体实现如下:

3.根据权利要求2所述的基于分层语义表示和聚合网络的视频字幕生成方法,其特征在于,所述视频字幕分层语义表示和聚合网络分为两个部分:分层语义表示模块和语义聚合模块...

【专利技术属性】
技术研发人员:韩婷婷徐耀晨余宙俞俊
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1