基于深度学习的任意长度视频全自动多模态机器标注方法技术

技术编号：44892135 阅读：12 留言：0更新日期：2025-04-08 00:30

本发明专利技术涉及一种基于深度学习的任意长度视频全自动多模态机器标注方法，包括如下步骤：获取待标注长视频，通过对镜头变化进行分析识别得到镜头切换点，基于镜头切换点将所述待标注长视频进行分割，得到多个语义独立的视频片段；针对每个视频片段，通过捕捉视频的空间时序生成视频描述信息并翻译为与视频字幕相匹配的语种，通过主题分类得到所述待标注长视频的分类标签；针对待标注长视频，通过音频转录，生成包括时间戳的视频字幕信息；针对每个视频片段，将视频描述信息和视频字幕信息作为提示，推理得到多模态标注文本，实现多模态机器标注。本发明专利技术具有标注效果好、适用于任意长度的视频、融合多模态信息实现自动标注等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据标注，尤其是涉及一种基于深度学习的任意长度视频全自动多模态机器标注方法。

技术介绍

1、视频作为当今信息时代的重要载体，其内容的丰富性和数量正呈现指数级增长。在线教育、短视频平台、社交媒体等应用的快速普及，使得视频信息呈现出多样化和海量化的发展态势。在这些视频数据中，信息不仅体现在静态画面，还包括时序变化、声音、文字字幕等多模态特征，这些特性使得视频数据相较于图片数据更具复杂性和动态性。然而，正因如此，视频的标注成为一项高难度任务。传统的视频标注工作主要依赖人工处理，这种方式耗时耗力，效率极低，且受限于人为的主观偏差，难以保持一致性。同时，面对视频内容的高增长和快速迭代，人工标注的方法难以满足实际应用的需求。因此，基于深度学习的自动化标注方法逐渐成为该领域的新的解决途径。

2、随着transformer架构在自然语言处理和计算机视觉领域的成功，越来越多的视频标注工作尝试将语言模型应用于视频任务。例如，使用videochat、video-llama等具备跨模态理解和生成能力的多模态大语言模型，可以用于生成视频...

【技术保护点】

1.一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，基于待标注视频得到多个独立的视频片段的过程包括如下步骤：

3.根据权利要求1所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，生成视频描述信息和分类标签的过程包括如下步骤：

4.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，所述的视频多态大模型为VideoChat2多态大模型。

5.根据权利要求3所...

【技术特征摘要】

1.一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，包括如下步骤：

4.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，所述的视频多态大模型为videochat2多态大模型。

5.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法，其特征在于，利用基于vllm库加速的qwen2模型实现主题分类。

6.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法...

【专利技术属性】
技术研发人员：吴越，于家硕，王毅，何逸楠，王亚立，王利民，乔宇，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人