分割视频的多模态系统、分割多媒体的多模态系统及方法技术方案

技术编号:36867432 阅读:14 留言:0更新日期:2023-03-15 19:20
本发明专利技术公开了一种用于分割视频的多模态系统、用于分割多媒体的多模态系统、利用多模态系统分割视频的方法和利用多模态系统分割多媒体的方法。多模态分割系统利用光学信息、时间信息和空间信息来增强AR和VR或其他带有准确细节的娱乐目的的分割。该系统可以分割视频帧内的前景目标,例如人和显著目标,并允许定位感兴趣目标以用于多种用途。定位感兴趣目标以用于多种用途。定位感兴趣目标以用于多种用途。

【技术实现步骤摘要】
分割视频的多模态系统、分割多媒体的多模态系统及方法


[0001]本专利技术涉及用于实时视频应用程序的视频分割工具。更具体地,涉及一种用于分割多媒体内的人和显著目标等前景目标的多模态系统,该多模态系统允许定位用于多种目的的感兴趣目标。更具体地,本专利技术还涉及一种用于分割视频帧以同时检测目标和跟踪视频帧的方法。专利技术背景
[0002]随着设备计算能力和5G快速通信技术的快速发展,最近对虚拟现实(AV和VR)、在线直播等视频应用程序的需求蓬勃发展。如果机器可以帮助准确地指示视频中的显著目标或前景,则许多应用程序可以进行使用。
[0003]随着图像处理和视频处理的改进,众多应用都需要语义上更有用的表示,例如基于目标的视频编码、视频索引、检索和视频摘要等。
[0004]对前景、有趣事件或异常事件的稳健检测是诸如跟踪、识别和监视之类的许多图像和视频应用程序的重要前提。尽管通常不存在待检测前景目标有关的先验信息,但在很多情况下,背景场景存在于视频的所有帧中。动态背景、移动或由于振动、风等引起的摄像机运动是使前景检测面临重大挑战的重要因素,大多数应用程序都需要视频的实时或准实时检测。这些因素导致前景检测或目标检测非常困难。针对前景检测的背景建模常用于不同应用中,以对背景进行建模,然后检测视频监控等场景中的移动目标。
[0005]视频分割是一项系统任务,目的在于提高视觉质量以获得更好的用户体验。分割视频的目的是改善用户的视觉体验。目前可用的视频分割系统或图像分割系统无法准确地指示视频或图像中的显著目标和前景。因此,该视频分割系统或图像分割系统无法为用户提供高质量的视频帧分割。视频目标跟踪任务正处于其质量最高水平。虽然视频目标分割(Video Object Segmentation,VOS)任务能够自然地解耦为图像语义分割和视频目标跟踪,但在分割方面的研究工作远多于跟踪方面的研究工作。
[0006]然而,现有图像分割系统和视频分割系统仅使用本地信息来分割视频或图像。现有视频分割系统或图像分割系统中,一些视频分割系统或图像分割系统是基于摄像头的配置的。在示例中,静态摄像机场景或固定摄像机场景中进行现场表演、在线教学等时分割视频或图像的几率较高。当今,视频分割已成为具有挑战性的问题。
[0007]转让给台湾成功大学、专利号为8,774,502的美国专利描述了一种利用纹理特征进行图像和视频分割的方法。利用纹理特征进行图像和视频分割的方法结合了图像信号的文本特征和图像信号的颜色特征。虽然该专利技术提供的利用纹理特征的图像分割方法通过结合图像信号的纹理特征和颜色特征,能够将图像信号分割成多个纹理颜色特征,但是,该方法效率低,且没有公开与视频信号和图像信号的跟踪相关的任何内容。
[0008]转让给Avigilon Fortress Corp、专利号为7,224,852的另一项美国专利公开了一种视频分割技术,该技术基于源视频的统计特性利用统计像素建模方法将视频分割成前景信息和背景信息。虽然该方法基于统计信息创建和更新与视频区域的特征和这些区域的标注(即,标注为前景或背景)有关的统计信息,但是所描述的用于将视频片段分割成前景
信息和背景信息的方法是在未获取确定系统中涉及的任何语义或时间信息的情况下执行粗略分割。因此,我们提出了可以利用和分析附加信息使结果受益的方法。
[0009]上述现有技术中仅为单一系统,该系统灵活性受限,且以有限类型的操作对视频和图像进行分割。尽管许多应用程序采用基于学习的方法仅获取本地信息,而不是传统方法在要求严苛的技术上实现更佳性能,但还没有任何专利技术能够让系统智能、灵活且自适应地分割视频和图像。
[0010]此外,现有系统也没有适当考虑用户体验。也就是说,视频分割中没有提供无缝用户体验的单一范式来保证高质量的前景分割。
[0011]因此,为了克服现有技术的不足,需要提供一种利用人工智能对视频进行智能且自适应地分割的视频分割系统。此外,希望提供一种基于经视频处理获取的全局信息来分割视频以提高视频质量的视频分割系统。因此,需要提供一种多模态系统,其基于由多媒体单元获取的视频所获取的全局信息为用户提供更好视觉效果和无缝体验。
[0012]此外,在这些应用中,固定摄像头场景等一些特定摄像头配置出现的几率较高,例如做直播、采访甚至在线教学。这些特定情况通常可以比可用于升级分割质量的正常情况提供更多的信息。
[0013]很明显,目前现有技术中开发了许多用于各种目的的方法和系统。此外,即便这些专利技术可能适用于其所针对的特定目的,它们也不适用于如前所述的本专利技术的目的。因此,需要提供一种用于分割视频的多模态系统,其基于视频分割系统获取的全局信息为用户提供更好视觉效果和无缝体验。

技术实现思路

[0014]本专利技术提供的通过多模态系统对多媒体进行高质量分割的方法,基本上避免了现有技术的缺点和限制。多模态系统是一个用户友好系统,为用户提供无缝体验。
[0015]本专利技术公开了一种多模态系统,用于分割视频并跟踪视频内的目标,例如人或显著目标。多模态系统包括级联细化模块、背景补全模块和处理模块。级联细化模块通过感知视频中的运动来优化视频。级联细化模块包括用于记录该视频的多媒体单元。进一步地,级联细化模块包括从多媒体单元接收视频的输入单元。进一步地,级联细化模块包括细化单元,用于通过将附加信息连接到视频以生成优化输出来细化视频。
[0016]进一步地,该多模态系统包括用于处理优化结果的背景补全模块。进一步地,该背景补全模块包括捕获单元,用于捕获与优化输出相关联的帧。此外,捕获单元合成与优化单元相关联的背景信息以生成输出。进一步地,背景补全模块包括掩模单元,用于基于该捕获单元生成的输出产生多个掩模。此外,该多模态系统包括处理模块,用于处理多个掩模。此外,处理模块从背景补全模块接收多个掩模。此外,处理模块处理多个掩模以产生分段视频。
[0017]根据本专利技术的一方面,级联细化模块提供无缝用户体验。根据本专利技术的另一方面,级联细化模块提供高质量的前景分割。根据本专利技术的又一方面,与多模态系统相关联的背景补全模块还包括通知单元,该通知单元用于向多媒体单元发送通知,以捕获与视频相关联的一个或多个附加信息。根据本专利技术的另一方面,多媒体单元是数码相机、移动电话、摄像机、平板电脑、网络摄像头、笔记本电脑或iPad。
[0018]根据本专利技术的另一方面,一个或多个附加信息是背景、前景人物、一致帧、像素、运动图和语义边界。根据本专利技术的另一方面,由掩模单元产生的一个或多个掩模是基于人工智能的掩模。根据本专利技术的另一方面,与多模态系统相关联的处理模块包括信息处理单元。此外,处理单元利用提取器提取与掩模单元生成的一个或多个掩模相关联的一个或多个特征。根据本专利技术的另一个方面,该提取器是CNN特征提取器。
[0019]根据本专利技术的另一方面,与多模态系统相关联的处理模块包括选择单元。此外,选择单元在从一个或多个掩模提取的一个或多个信息中选择一个或多个有效主导特征。根据本专利技术的另一方面中,选择单元学习自动选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于分割视频的多模态系统,其特征在于,包括:级联细化模块,其中,所述级联细化模块包括:多媒体单元;输入单元,用于从所述多媒体单元接收视频;以及细化单元,用于将一个或多个附加信息连接到所述视频以生成优化视频;背景补全模块,其中,所述背景补全模块包括:捕获单元,用于捕获与所述优化视频相关联的帧以生成视频输出;以及掩模单元,用于基于所述视频输出产生一个或多个掩模;以及处理模块,用于接收并随后处理所述一个或多个掩模,以产生分段视频。2.根据权利要求1所述的多模态系统,其特征在于,所述多模态系统还包括用于记录所述视频的记录器。3.根据权利要求1所述的多模态系统,其特征在于,所述级联细化模块分割所述视频的前景区域。4.根据权利要求1所述的多模态系统,其特征在于,所述背景补全模块还包括通知单元,用于基于对所述视频的背景区域的捕获发送通知。5.根据权利要求4所述的多模态系统,其特征在于,所述通知为拒绝捕获所述背景区域。6.根据权利要求5所述的多模态系统,其特征在于,所述拒绝捕获所述背景区域触发拍摄单元,然后对所述背景区域进行捕获和合成。7.根据权利要求1或4所述的多模态系统,其特征在于,所述背景补全模块还包括拍摄单元,用于拍摄所述视频。8.根据权利要求1所述的多模态系统,其特征在于,所述背景补全模块还包括背景合成模块,用于合成所述背景区域并由所述捕获单元采集所述背景区域。9.根据权利要求7所述的多模态系统,其特征在于,所述通知还允许捕获所述背景区域。10.根据权利要求9所述的多模态系统,其特征在于,所述通知触发所述捕获单元,以捕获所述背景区域,然后由所述拍摄单元拍摄所述视频。11.根据权利要求1所述的多模态系统,其特征在于,所述多媒体单元是数码相机、智能手机、摄像机、平板电脑、网络摄像头、笔记本电脑和iPad中的任一种。12.根据权利要求1所述的多模态系统,其特征在于,所述一个或多个附加信息基于所述视频的背景、前景人物、一致帧、像素、运动图和语义边界中的至少一种。13.根据权利要求1所述的多模态系统,其特征在于,所述一个或多个掩模是基于人工智能AI的掩模。14.根据权利要求1所述的多模态系统,其特征在于,所述处理模块还包括:处理单元,用于利用提取器提取与所述掩模单元生成的一个或多个掩模相关联的一个或多个特征;选择单元,用于从所述一个或多个特征中选择一个或多个主导特征;以及组合单元,其中,所述组合单元组合所述一个或多个主导特征以产生所述分段视频。15.根据权利要求14所述的多模态系统,其特征在于,所述提取器是CNN特征提取器。
16.根据权利要求14所述的多模态系统,其特征在于,所述选择单元自动选择所述一个或多个主导特征。17.根据权利要求16所述的多模态系统,其特征在于,所述选择单元是自适应的。18.一种用于分割多媒体的多模态系统,其特征在于,包括:级联细化模块,其中,所述级联细化模块包括:输入单元,用于从电子设备接收所述多媒体;以及细化单元,用于将一个或多个附加信息连接到所述多媒体以生成优化多媒体;背景补全模块,其中,所述背景补全模块包括:捕获单元,用于捕获与所述...

【专利技术属性】
技术研发人员:屠方闻李博
申请(专利权)人:黑芝麻智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1