【技术实现步骤摘要】
本专利技术属于多媒体信息处理,特别是涉及基于深度学习的视频内容语义理解与文本描述生成方法。
技术介绍
1、视频内容文本生成是一种跨模态、多学科交叉的研究,也是计算机和多媒体领域极具挑战性的研究课题。
2、当前视频内容语义理解与文本生成技术主要分为基于模板和基于深度学习两类方法。当前基于模板的视频内容语义描述方法依赖于预定义的语法模板(如主-谓-宾结构),通过填充识别出的物体和动作生成固定句式的文本。
3、然而,此类方法严重受限于模板的刚性规则,若视频中无法提取足够的关键词汇,生成的描述语句易出现语法错误或逻辑断裂,且缺乏自然语言的灵活性和多样性。此外,现有方法多聚焦于英文视频分析,对中文及少数地区民族语言视频的语义理解与描述能力不足,难以满足实际应用需求,针对以上问题,提出下列方案。
技术实现思路
1、本专利技术的目的在于提供基于深度学习的视频内容语义理解与文本描述生成方法,通过深度学习模型端到端学习视频特征与自然语言的映射关系,可摆脱对固定模板的依赖,生成句式多样
...【技术保护点】
1.基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述生成方法包括以下步骤:
2.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤S1,视频关键帧提取具体包括以下步骤:
3.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤S2,多模态特征提取具体包括以下步骤:
4.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤S3,多模态特征融合具体包括以下步骤:
5.根据权利要求1所述的基于深
...【技术特征摘要】
1.基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述生成方法包括以下步骤:
2.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤s1,视频关键帧提取具体包括以下步骤:
3.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤s2,多模态特征提取具体包括以下步骤:
4.根据权利要求1所述的基于深度学习的视频内容语义理解与文本描述生成方法,其特征在于,所述步骤s3,多模态特征融合具体包括以下步骤:
5.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。