【技术实现步骤摘要】
本专利技术涉及数据标注,尤其是涉及一种基于深度学习的任意长度视频全自动多模态机器标注方法。
技术介绍
1、视频作为当今信息时代的重要载体,其内容的丰富性和数量正呈现指数级增长。在线教育、短视频平台、社交媒体等应用的快速普及,使得视频信息呈现出多样化和海量化的发展态势。在这些视频数据中,信息不仅体现在静态画面,还包括时序变化、声音、文字字幕等多模态特征,这些特性使得视频数据相较于图片数据更具复杂性和动态性。然而,正因如此,视频的标注成为一项高难度任务。传统的视频标注工作主要依赖人工处理,这种方式耗时耗力,效率极低,且受限于人为的主观偏差,难以保持一致性。同时,面对视频内容的高增长和快速迭代,人工标注的方法难以满足实际应用的需求。因此,基于深度学习的自动化标注方法逐渐成为该领域的新的解决途径。
2、随着transformer架构在自然语言处理和计算机视觉领域的成功,越来越多的视频标注工作尝试将语言模型应用于视频任务。例如,使用videochat、video-llama等具备跨模态理解和生成能力的多模态大语言模型,可以用于生成视频
...【技术保护点】
1.一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,基于待标注视频得到多个独立的视频片段的过程包括如下步骤:
3.根据权利要求1所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,生成视频描述信息和分类标签的过程包括如下步骤:
4.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,所述的视频多态大模型为VideoChat2多态大模型。
...
【技术特征摘要】
1.一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,基于待标注视频得到多个独立的视频片段的过程包括如下步骤:
3.根据权利要求1所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,生成视频描述信息和分类标签的过程包括如下步骤:
4.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,所述的视频多态大模型为videochat2多态大模型。
5.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法,其特征在于,利用基于vllm库加速的qwen2模型实现主题分类。
6.根据权利要求3所述的一种基于深度学习的任意长度视频全自动多模态机器标注方法...
【专利技术属性】
技术研发人员:吴越,于家硕,王毅,何逸楠,王亚立,王利民,乔宇,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。