一种基于细粒度层级事件特征的视频语义理解模型及生成方法技术

技术编号：42532487 阅读：31 留言：0更新日期：2024-08-27 19:39

本发明专利技术包括视觉编码器、图像特征压缩器、预训练的BERT模型、事件特征编码层和大语言模型。视觉编码器将视频帧编码为帧特征；事件特征编码层提取和筛选事件特征；事件特征提取器通过自适应滑动窗口从视频中提取耦合的细粒度事件特征，事件特征感知器根据用户输入的问题筛选相关的事件特征。本发明专利技术使用层级放置的事件特征提取器充分考虑视频帧之间的关联，将视频信息编码为细粒度的层级事件特征，解决了现有模型存在的粗粒度特征提取问题，使用事件特征感知器从每一层事件特征提取器输出的事件特征中选择与用户查询最相关的特征，大幅减少了视频的特征令牌数量，辅以相似帧融合模块和图像特征压缩器，解决了长视频理解困难问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频理解和深度学习，特别涉及一种基于细粒度层级事件特征的视频语义理解模型及生成方法。

技术介绍

1、21世纪是多模态的时代，伴随着社交媒体、物联网以及其他数字技术的飞速发展，现代信息的呈现方式变得日益多样化，涵盖图像、文本、视频等多种数据模态。视频，作为多模态数据的重要组成部分，通过动态连续的图像流形式传递信息，不仅具有显著的时序性，还蕴含着丰富的语境和情感交互特征。视频语义理解旨在使模型能够准确识别和理解视频中的物体、场景和行为等关键要素，并能推断出视频所表达的深层含义，从而实现对复杂多模态信息的全面解读。在数字媒体技术不断推陈出新的今天，视频已经成为人们分享信息，表达观点以及记录生活的重要媒介。因此，视频语义理解在当前背景下显得尤为关键。成熟的视频语义理解技术不仅可以优化用户的媒体体验，还能在教育、安全以及娱乐等多个领域发挥关键作用。完善的视频语义理解模型能显著提升用户的生产效率、节约人力和时间成本，为构建智能化社会提供强有力的支持，展现出深远的研究与应用价值。

2、传统的视频语义理解技术通常专注于优化特定...

【技术保护点】

1.一种基于细粒度层级事件特征的视频语义理解模型，其特征在于，包括视觉编码器、预训练的BERT模型、事件特征编码层、大语言模型，其中，

2.根据权利要求1所述的视频语义理解模型，其特征在于，还包括相似帧融合模块，用于融合相似帧，减少帧特征的总数，降低计算负担。

3.根据权利要求2所述的视频语义理解模型，其特征在于，相似帧融合模块中，通过判断相邻帧特征之间的余弦相似度是否超过设定的相似度阈值来合并相邻帧特征。

4.根据权利要求1所述的视频语义理解模型，其特征在于，还包括图像特征压缩器，图像特征压缩器基于多头交叉注意力机制，对视频帧特征数量进行压缩，并添加...

【技术特征摘要】

1.一种基于细粒度层级事件特征的视频语义理解模型，其特征在于，包括视觉编码器、预训练的bert模型、事件特征编码层、大语言模型，其中，

2.根据权利要求1所述的视频语义理解模型，其特征在于，还包括相似帧融合模块，用于融合相似帧，减少帧特征的总数，降低计算负担。

4.根据权利要求1所述的视频语义理解模型，其特征在于，还包括图像特征压缩器，图像特征压缩器基于多头交叉注意力机制，对视频帧特征数量进行压缩，并添加时序编码。

5.根据权利要求4所述的视频语义理解模型，其特征在于，图像特征压缩器包括顺次连接的第一多头交叉注意力单元和第一前馈单元，第一多头交叉注意力单元由顺次连接的多头交叉注意力层、残差连接和层归一化构成；第一前馈单元由顺次连接的前馈网络、残差连接和层归一化构成。

6.根据权利要求1所述的视频语义理解模型，其特征在于，事件特征提取器包括顺次连接的第二多头自注意力单元、第二多头交叉注意力单元和第二前馈单元。第二多头自注意力单元由顺次连接的多头自注意力层、残差连接和层归一化构成；第二...

【专利技术属性】
技术研发人员：孙新，张峰，张浩然，米永清，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人