【技术实现步骤摘要】
本专利技术涉及视频理解和深度学习,特别涉及一种基于细粒度层级事件特征的视频语义理解模型及生成方法。
技术介绍
1、21世纪是多模态的时代,伴随着社交媒体、物联网以及其他数字技术的飞速发展,现代信息的呈现方式变得日益多样化,涵盖图像、文本、视频等多种数据模态。视频,作为多模态数据的重要组成部分,通过动态连续的图像流形式传递信息,不仅具有显著的时序性,还蕴含着丰富的语境和情感交互特征。视频语义理解旨在使模型能够准确识别和理解视频中的物体、场景和行为等关键要素,并能推断出视频所表达的深层含义,从而实现对复杂多模态信息的全面解读。在数字媒体技术不断推陈出新的今天,视频已经成为人们分享信息,表达观点以及记录生活的重要媒介。因此,视频语义理解在当前背景下显得尤为关键。成熟的视频语义理解技术不仅可以优化用户的媒体体验,还能在教育、安全以及娱乐等多个领域发挥关键作用。完善的视频语义理解模型能显著提升用户的生产效率、节约人力和时间成本,为构建智能化社会提供强有力的支持,展现出深远的研究与应用价值。
2、传统的视频语义理解技术通常专注于优化特定
...【技术保护点】
1.一种基于细粒度层级事件特征的视频语义理解模型,其特征在于,包括视觉编码器、预训练的BERT模型、事件特征编码层、大语言模型,其中,
2.根据权利要求1所述的视频语义理解模型,其特征在于,还包括相似帧融合模块,用于融合相似帧,减少帧特征的总数,降低计算负担。
3.根据权利要求2所述的视频语义理解模型,其特征在于,相似帧融合模块中,通过判断相邻帧特征之间的余弦相似度是否超过设定的相似度阈值来合并相邻帧特征。
4.根据权利要求1所述的视频语义理解模型,其特征在于,还包括图像特征压缩器,图像特征压缩器基于多头交叉注意力机制,对视频帧特征
...【技术特征摘要】
1.一种基于细粒度层级事件特征的视频语义理解模型,其特征在于,包括视觉编码器、预训练的bert模型、事件特征编码层、大语言模型,其中,
2.根据权利要求1所述的视频语义理解模型,其特征在于,还包括相似帧融合模块,用于融合相似帧,减少帧特征的总数,降低计算负担。
3.根据权利要求2所述的视频语义理解模型,其特征在于,相似帧融合模块中,通过判断相邻帧特征之间的余弦相似度是否超过设定的相似度阈值来合并相邻帧特征。
4.根据权利要求1所述的视频语义理解模型,其特征在于,还包括图像特征压缩器,图像特征压缩器基于多头交叉注意力机制,对视频帧特征数量进行压缩,并添加时序编码。
5.根据权利要求4所述的视频语义理解模型,其特征在于,图像特征压缩器包括顺次连接的第一多头交叉注意力单元和第一前馈单元,第一多头交叉注意力单元由顺次连接的多头交叉注意力层、残差连接和层归一化构成;第一前馈单元由顺次连接的前馈网络、残差连接和层归一化构成。
6.根据权利要求1所述的视频语义理解模型,其特征在于,事件特征提取器包括顺次连接的第二多头自注意力单元、第二多头交叉注意力单元和第二前馈单元。第二多头自注意力单元由顺次连接的多头自注意力层、残差连接和层归一化构成;第二...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。