说话人定位方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40836301 阅读：21 留言：0更新日期：2024-04-01 15:01

本申请提供了一种说话人定位方法、装置、电子设备及存储介质。本申请通过，获取影视作品中的多句待匹配台词；针对每句待匹配台词，获取所述待匹配台词对应的音频序列及至少一条人脸序列，其中，每条人脸序列中仅包含一个人物的人脸；在至少一条人脸序列中确定所述音频序列对应的目标人脸序列，其中，所述目标人脸序列包含的人物为所述待匹配台词对应的说话人；基于对应的目标人脸序列从多句所述待匹配台词中确定至少一句目标台词；基于每句目标台词对应的音频序列和目标人脸序列，对所有目标台词进行分组，得到至少一个台词分组，其中，每个台词分组中包含的目标台词对应同一个说话人。由此提高说话人定位的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种说话人定位方法、装置、电子设备及存储介质。

技术介绍

1、随着社会的发展进步和科技创新，多媒体技术也呈现出突飞猛进的发展。集计算机技术、通信技术以及电视技术为一体的多媒体技术已经与人们的日常生活密不可分。其中，视频影视作品作为常见的多媒体形式，具有很好的娱乐性和传播性。对于多角色的视频影视作品，需要区分视频影视作品中各个对话所属的角色，使得不同角色的演播人能够快速准确地录制自己的台词部分，以及，便于用户使用“只看他”功能，在观看影视作品过程中，锁定自己感兴趣的角色台词，提升用户体验。

2、然而，目前通常通过人工方式识别视频影视作品中各句台词所属的角色，不仅需要耗费大量的人力成本而且识别效率较低。

技术实现思路

1、本申请实施例的目的在于提供一种说话人定位方法、装置、电子设备及存储介质，以解决通过人工方式识别视频影视作品中各句台词所属的角色效率较低的问题。具体技术方案如下：

2、第一方面，本申请提供了一种说话人定位方法，包括：

>3、获取影视作品中本文档来自技高网...

【技术保护点】

1.一种说话人定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每句目标台词对应的音频序列和目标人脸序列，对所有目标台词进行分组，得到至少一个台词分组，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述待匹配台词对应的音频序列及至少一条人脸序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述从所述视频序列中提取至少一条所述人脸序列，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于对应的目标人脸序列从多句所述待匹配台词中确定至少一句目标台词，包括：