角色识别方法、系统及计算设备、计算机可读存储介质技术方案

技术编号：41151998 阅读：8 留言：0更新日期：2024-04-30 18:17

本说明书实施例提供角色识别方法、系统及计算设备、计算机可读存储介质，所述方法包括：获取视频中的图像数据和音频数据；利用所述音频数据的声纹特征进行人物角色分类，识别出所述音频数据对应的第一人物角色集合；利用所述图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人；如果是，将所述任一人物角色分解为多个人物角色，获得第二人物角色集合；针对所述第二人物角色集合中的多个人物角色，基于所述多个人物角色对应的声纹特征和/或图像特征，判断所述多个人物角色是否对应同一人；如果是，将所述多个人物角色合并为同一人物角色，获得第三人物角色集合。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及计算机，特别涉及一种角色识别方法、系统及计算设备、计算机可读存储介质。

技术介绍

1、多人对话场景下，角色分离是语音信号处理技术中的一个热门领域，它的目标是需要确定一段多人对话音频中的说话人数，以及确定哪个时间段是由谁说的。目前在多人会议场景、客服电话场景以及销售场景中应用广泛。为了便捷、快速地针对一段音频进行角色分段，需要角色识别技术来提供角色信息。角色识别在会议纪要或文本摘录等场景中会极大地提高使用者的工作效率。

2、但是，有时候因为录音场景比较嘈杂或者录音设备离说话者比较远，录集到的音频质量比较差，或者说话者之间的声音比较相似，这种情况下角色识别准确率会比较低，用户体验不佳。因此，如何角色识别能够更加准确，是一个亟需解决的重要问题。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种角色识别方法。本说明书一个或者多个实施例同时涉及一种角色识别系统，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种角色识别方法，包括：获取视频中的图像数据和音频数据；利用所述音频数据的声纹特征进行人物角色分类，识别出所述音频数据对应的第一人物角色集合；利用所述图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人；如果是，将所述任一人物角色分解为多个人物角色，获得第二人物角色集合；针对所述第二人物角色集合中的多个人物角色，基于所述多个人物角色对应的声纹

3、根据本说明书实施例的第二方面，提供了一种角色识别方法，包括：接收直播视频，并获取所述直播视频中的图像数据和音频数据；利用所述直播音频数据的声纹特征进行人物角色分类，识别出所述直播音频数据对应的第一人物角色集合；利用所述直播图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人；如果是，将所述任一人物角色分解为多个人物角色，获得第二人物角色集合；针对所述第二人物角色集合中的多个人物角色，基于所述多个人物角色对应的声纹特征和/或图像特征，判断所述多个人物角色是否对应同一人；如果是，将所述多个人物角色合并为同一人物角色，获得第三人物角色集合；将所述第三人物角色集合对应的人物角色信息发送给所述直播图像数据对应的任一个或多个直播用户。

4、根据本说明书实施例的第三方面，提供了一种角色识别系统，包括：云侧设备，用于接收角色识别请求，根据所述角色识别请求，获得视频，获得所述视频中的图像数据和音频数据，利用所述音频数据的声纹特征进行人物角色分类，识别出所述音频数据对应的第一人物角色集合，利用所述图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人，如果是，将所述任一人物角色分解为多个人物角色，获得第二人物角色集合，针对所述第二人物角色集合中的多个人物角色，基于所述多个人物角色对应的声纹特征和/或图像特征，判断所述多个人物角色是否对应同一人，如果是，将所述多个人物角色合并为同一人物角色，获得第三人物角色集合；端侧设备，用于向所述云侧设备发送所述角色识别请求，接收所述云侧设备返回的第三人物角色集合。

5、根据本说明书实施例的第四方面，提供了一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述角色识别方法的步骤。

6、根据本说明书实施例的第五方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述角色识别方法的步骤。

7、根据本说明书实施例的第六方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述角色识别方法的步骤。

8、本说明书一个实施例实现了角色识别方法，由于该方法获取视频中的图像数据和音频数据后，先利用所述音频数据的声纹特征进行人物角色分类，识别出所述音频数据对应的第一人物角色集合，再利用所述图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人，如果是，则将所述任一人物角色分解为多个人物角色，获得第二人物角色集合，针对所述第二人物角色集合中的多个人物角色，基于所述多个人物角色对应的声纹特征和/或图像特征，判断所述多个人物角色是否对应同一人，如果是，则将所述多个人物角色合并为同一人物角色，获得第三人物角色集合。可见，该方法联合音频中的声纹特征和和视频中的图像特征进行角色识别，先分析声纹特征识别人物角色，再通过视频的图像特征进一步辅助判断是否存在可能混合多人的人物角色，针对可能混合多人的人物角色进行人物角色分解之后，再对可能为同一人的人物角色进行合并，提高了角色识别的准确率。

本文档来自技高网...

【技术保护点】

1.一种角色识别方法，包括：

2.根据权利要求1所述的方法，所述利用所述图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人，包括：

3.根据权利要求1所述的方法，所述针对所述第二人物角色集合中的多个人物角色，基于所述多个人物角色对应的声纹特征和/或图像特征，判断所述多个人物角色是否对应同一人，包括：

4.根据权利要求1所述的方法，所述利用所述音频数据的声纹特征进行人物角色分类，识别出所述音频数据对应的第一人物角色集合，包括：

5.根据权利要求2所述的方法，所述判断所述第一人物角色集合中的任一人物角色的人脸特征是否对应多人，包括：

6.根据权利要求5所述的方法，所述从所述分帧图像提取人脸特征之前，还包括：

7.根据权利要求6所述的方法，所述判断所述分帧图像的人脸图像质量是否达到预设图像质量条件，包括：

8.根据权利要求1所述的方法，所述获取视频中的图像数据和音频数据之前，还包括：

9.根据权利要求8所述的方法，所述将所述第三人物角色集合发送给所述用户之后，还包括：</p>

10.一种角色识别方法，包括：

11.根据权利要求10所述的方法，还包括：

12.根据权利要求10所述的方法，还包括：

13.一种角色识别系统，包括：

14.一种计算设备，包括：

15.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述角色识别方法的步骤。

...

【技术特征摘要】

1.一种角色识别方法，包括：

2.根据权利要求1所述的方法，所述利用所述图像数据的图像特征，判断所述第一人物角色集合中的任一人物角色是否对应多人，包括：

4.根据权利要求1所述的方法，所述利用所述音频数据的声纹特征进行人物角色分类，识别出所述音频数据对应的第一人物角色集合，包括：

5.根据权利要求2所述的方法，所述判断所述第一人物角色集合中的任一人物角色的人脸特征是否对应多人，包括：

6.根据权利要求5所述的方法，所述从所述分帧图像提取人脸特征之前，还包括：<...

【专利技术属性】
技术研发人员：王绘，郑斯奇，陈亚峰，程路遥，
申请(专利权)人：浙江阿里巴巴机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人