用于实时活动说话者检测的方法和系统技术方案

技术编号：46624964 阅读：1 留言：0更新日期：2025-10-14 21:21

提供了用于实时活动说话者检测的方法和系统。活动说话者检测(ASD)系统包括捕捉包括第一人的视觉场景的视觉传感器。ASD系统还包括计算机系统，计算机系统包括视听编码器和分类器。计算机系统被配置成从视觉传感器获得第一组帧和第二组帧，并且使用视听编码器分别根据第一组帧和第二组帧产生第一嵌入和第二嵌入。计算机还被配置成根据第一嵌入和第二嵌入生成一个或更多个复合嵌入，并且使用分类器确定一个或更多个复合嵌入中的每个复合嵌入的ASD评分。计算机还被配置成聚集一个或更多个ASD评分以形成检测结果，并且基于检测结果确定第一人是否正在说话。

全部详细技术资料下载

【技术实现步骤摘要】

本公开内容一般地涉及用于实时活动说话者检测的方法和系统。

技术介绍

1、包括一个或更多个说话者的视觉场景(例如，可以利用一个或更多个摄像装置获取的视频)可以通过识别活动说话者并且相应地修改视觉场景的显示被增强。例如，一旦在视觉场景中捕捉到的一个或更多个人之中识别了活动说话者，显示可以适于仅框选(frame)或描绘活动说话者。已经开发了通常在机器学习模型的分类下的算法，以使用音频数据和视觉数据中的一个或更多个来检测活动说话者，其中音频数据和视觉数据的任何组合可以统称为视听数据。然而，这样的方法的准确度与计算上处理视听数据所需的时间成反比。

技术实现思路

1、提供本
技术实现思路
以介绍在下面的具体实施方式中进一步描述的一系列构思。本
技术实现思路
不旨在标识所要求保护的主题的关键或必要特征，也不旨在用于帮助限制所要求保护的主题的范围。

2、一般地，在一个方面，实施方式涉及活动说话者检测系统，该活动说话者检测系统包括捕捉包括第一人的视觉场景的视觉传感器和计算机系统。计算机系统包括一个或更多...

【技术保护点】

1.一种活动说话者检测系统，包括：

2.根据权利要求1所述的活动说话者检测系统，其中，对所述第一人是否正在说话的确定与所述第二组帧对应。

3.根据权利要求1所述的活动说话者检测系统，其中，所述第二组帧在时间上在所述第一组帧之后。

4.根据权利要求1所述的活动说话者检测系统，其中，

5.根据权利要求1所述的活动说话者检测系统，其中，所述视听编码器包括神经网络，并且所述分类器包括递归神经网络。

6.根据权利要求1所述的活动说话者检测系统，其中，

7.根据权利要求6所述的活动说话者检测系统，其中，>

8.一种用于...

【技术特征摘要】

1.一种活动说话者检测系统，包括：

2.根据权利要求1所述的活动说话者检测系统，其中，对所述第一人是否正在说话的确定与所述第二组帧对应。

3.根据权利要求1所述的活动说话者检测系统，其中，所述第二组帧在时间上在所述第一组帧之后。

4.根据权利要求1所述的活动说话者检测系统，其中，

5.根据权利要求1所述的活动说话者检测系统，其中，所述视听编码器包括神经网络，并且所述分类器包括递归神经网络。

6.根据权利要求1所述的活动说话者检测系统，其中，

7.根据权利要求6所述的活动说话者检测系统，其中，

8.一种用于确定在包括第一人的视觉场景中人是否正在说话的方法，所述方法包括：

9.根据权利要求8所述的方法，其中，对所述第一人是否正在说话的确定与所述第二组帧对应。

10.根据权利要求8所述的方法，其中，所述第二组帧在时间上在所述第一组帧之后。...

【专利技术属性】
技术研发人员：曼南·姆德·阿卜杜勒，要强，
申请(专利权)人：联想新加坡私人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人