用于多说话人场景中的多模式视频分割的系统和方法技术方案

技术编号：39821056 阅读：22 留言：0更新日期：2023-12-22 19:40

提供了一种用于多说话人场景中的多模式视频分割的系统和方法

全部详细技术资料下载

【技术实现步骤摘要】
用于多说话人场景中的多模式视频分割的系统和方法
[0001]相关申请的交叉引用
[0002]本申请要求于
2022
年7月
18
日提交的美国专利申请第
17/867,667
号的优先权，其全部内容通过引用并入本文
。

[0003]本专利技术涉及视频处理，更具体地，涉及一种用于使用多个说话人对视频执行多模式视频分割的系统
、
方法及非暂时性计算机可读存储介质
。

技术介绍

[0004]视频剪辑是将视频分成有意义的和独立的短剪辑的任务
。
每个剪辑具有相对独立和完整的内容，并且单独作为短视频输出，或者用作后续处理的素材
。
随着来自各种源的越来越多的视频的出现，对视频剪辑的需求也在增加
。
传统的手动视频剪辑要求编辑具有一定的专业视频剪辑知识
。
例如，编辑者需要观看整个视频，然后使用编辑软件根据视频内容将视频分割成剪辑
。
这种手动视频剪辑是耗时和劳动...

【技术保护点】

【技术特征摘要】
1.
一种用于多说话人场景中的多模式视频分割的系统，其特征在于，该系统包括：被配置为存储指令的存储器；和处理器，被耦合到所述存储器并且被配置为执行所述指令以执行过程，所述过程包括：将具有多个说话人的视频的抄本分割成多个语句；基于所述视频的音频内容或视觉内容中的至少一者来检测所述多个语句的每两个相邻语句之间的说话人改变信息；以及基于所述视频的所述抄本和所述说话人改变信息将所述视频分割成多个视频剪辑
。2.
根据权利要求1所述的系统，其特征在于，为分割所述视频的所述抄本，所述处理器还被配置为：预测用于所述抄本中文本的标点；基于所述标点将所述文本分割成所述多个语句；以及分别确定用于所述多个语句的多个时间戳
。3.
根据权利要求1所述的系统，其特征在于，为检测所述说话人改变信息，所述处理器还被配置为：基于所述视频的所述音频内容确定每两个相邻语句之间的相应的第一说话人改变概率
。4.
根据权利要求3所述的系统，其特征在于，为了确定相应的第一说话人改变概率，所述处理器还被配置为：基于所述视频的音频内容和所述两个相邻语句之间的时间点获得声学特征的集合；基于所述声学特征的集合生成说话人嵌入的集合；以及将所述说话人嵌入的集合馈送到基于神经网络的分类模型中，以确定在所述两个相邻语句之间的所述时间点处的所述相应的第一说话人改变概率
。5.
根据权利要求4所述的系统，其特征在于，所述基于神经网络的分类模型包括基于卷积神经网络的二进制分类模型
。6.
根据权利要求3所述的系统，其特征在于，为检测所述说话人改变信息，所述处理器还被配置为：基于所述视频的所述视觉内容确定每两个相邻语句之间的相应的第二说话人改变概率
。7.
根据权利要求6所述的系统，其特征在于，为了确定相应的第二说话人改变概率，所述处理器还被配置为：标识出现在所述视频中的所述多个说话人，其中所述多个说话人由多个唯一面部标识符
ID
来标识
。8.
根据权利要求7所述的系统，其特征在于，为了标识出现在所述视频中的所述多个说话人，所述处理器还被配置为：确定所述视频中的一系列场景；进行人脸检测和跟踪以确定每个所述场景中的人脸
ID
集合，从而分别为所述系列场景确定一系列人脸
ID
集合；以及跨所述一系列场景执行跨场景脸部重新识别以从所述一系列脸部
ID
集合中识别所述多个唯一脸部
ID。
9.
根据权利要求7所述的系统，其特征在于，为了确定相应的第二说话人改变概率，所述处理器还被配置为：对于包括第一语句和第二语句的每两个相邻语句，分别确定在与所述第一语句相关联的第一语句时间窗口内在所述视频中出现的第一说话人集合的第一语音概率集合；分别确定在与所述第二语句相关联的第二语句时间窗口内在所述视频中出现的第二说话人集合的第二语音概率集合；以及基于所述第一语音概率集合和所述第二语音概率集合确定所述第一语句和第二语句之间的相应的第二说话人改变概率
。10.
根据权利要求9所述的系统，其特征在于，所述处理器还被配置为：执行语句说话人识别过程以从所述多个说话人中确定出现在所述第一语句时间窗口中的所述第一说话人集合；以及执行所述语句说话人识别过程以从所述多个说话人中确定出现在所述第二语句时间窗口中的所述第二说话人集合
。11.
根据权利要求9所述的系统，其特征在于，为了分别确定所述...

【专利技术属性】
技术研发人员：吴欣怡，夏天，于欣璐，陈子意，朱益兴，徐思睿，韩玫，肖京，常鹏，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人