基于深度学习的视频内容语义理解与文本描述生成方法技术

技术编号:46590559 阅读:4 留言:0更新日期:2025-10-10 21:24
本发明专利技术公开了基于深度学习的视频内容语义理解与文本描述生成方法,涉及多媒体信息处理技术领域,本发明专利技术通过CLIP模型计算文本与视频帧的语义相似度,选取相关关键帧并聚合特征;分别提取音频、视觉和语义特征;利用自注意力对齐不同模态特征,LSTM统一维度后拼接融合;在视频级、帧级和通道级计算注意力权重,强化关键信息表达;Swin Transformer编码融合特征,LSTM逐步解码生成自然语言描述;构建文本‑视频索引库,基于语义相似度实现快速检索。本发明专利技术通过深度学习模型端到端学习视频特征与自然语言的映射关系,可摆脱对固定模板的依赖,生成句式多样、逻辑连贯的语义描述。

【技术实现步骤摘要】

本专利技术属于多媒体信息处理,特别是涉及基于深度学习的视频内容语义理解与文本描述生成方法


技术介绍

1、视频内容文本生成是一种跨模态、多学科交叉的研究,也是计算机和多媒体领域极具挑战性的研究课题。

2、当前视频内容语义理解与文本生成技术主要分为基于模板和基于深度学习两类方法。当前基于模板的视频内容语义描述方法依赖于预定义的语法模板(如主-谓-宾结构),通过填充识别出的物体和动作生成固定句式的文本。

3、然而,此类方法严重受限于模板的刚性规则,若视频中无法提取足够的关键词汇,生成的描述语句易出现语法错误或逻辑断裂,且缺乏自然语言的灵活性和多样性。此外,现有方法多聚焦于英文视频分析,对中文及少数地区民族语言视频的语义理解与描述能力不足,难以满足实际应用需求,针对以上问题,提出下列方案。


技术实现思路

1、本专利技术的目的在于提供基于深度学习的视频内容语义理解与文本描述生成方法,通过深度学习模型端到端学习视频特征与自然语言的映射关系,可摆脱对固定模板的依赖,生成句式多样、逻辑连贯的语义描述本文档来自技高网...

【技术保护点】

1.基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述生成方法包括以下步骤:

2.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤S1,视频关键帧提取具体包括以下步骤:

3.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤S2,多模态特征提取具体包括以下步骤:

4.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤S3,多模态特征融合具体包括以下步骤:

5.根据权利要求1所述的基于深度学习的视频内容语义...

【技术特征摘要】

1.基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述生成方法包括以下步骤:

2.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤s1,视频关键帧提取具体包括以下步骤:

3.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤s2,多模态特征提取具体包括以下步骤:

4.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤s3,多模态特征融合具体包括以下步骤:

5.根据权利...

【专利技术属性】
技术研发人员:党杜均惠巧娟
申请(专利权)人:银川科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1