声纹聚类方法、电子设备和存储介质技术

技术编号：33533351 阅读：33 留言：0更新日期：2022-05-19 02:08

本发明专利技术公开声纹聚类方法、电子设备和存储介质，其中，一种声纹聚类方法，包括：获取与音频信息同步的人脸检测信息；基于所述人脸检测信息确定人数信息；基于所述人数信息辅助所述音频信息进行声纹聚类。本申请实施例的方法通过结合音频信息和视频信息中的人脸信息，可以提升说话人日志算法的性能和效果，说话人日志是众多语音任务的前置环节，可以适用于后续的语音识别任务、TTS等语音相关的任务，另外还可以进行语义理解，辅助其他人机对话，语义的结果可以形成知识图谱，具有广泛的应用前景。具有广泛的应用前景。具有广泛的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
声纹聚类方法、电子设备和存储介质

[0001]本专利技术属于声纹聚类
，尤其涉及声纹聚类方法、系统、电子设备和存储介质。

技术介绍

[0002]相关技术中，声纹验证,判断说话人是否匹配已知的某一个说话人。声纹辨认，判断说话人是否从属于数据库中多个候选人中的某一个说话人，即：多个候选人中匹配出1个。个性化语音检测，关注某一个特定说话人的说话内容。单模态的说话人日志，说话人日志一般指的是单语音模态的算法，也就是借用纯音频的角度来对说话人进行日志记录。
[0003]专利技术人发现：声纹验证和声纹辨认的缺陷为只用于验证某一个段说话人是否有特定的说话人，并不记录说话发生的时刻；个性化语音检测的缺陷为只关注某一个特定说话人的内容和发生时刻，而非记录对话中出现的所有人；单模态的说话人日志的缺陷为在高噪声和人声较多重叠的情况下，无法有效工作，只借用语音模态的信息，没有很好利用视觉信息。

技术实现思路

[0004]本专利技术实施例提供一种声纹聚类方法、电子设备和存储介质，用于至少解决上述技术问题之一。
[...

【技术保护点】

【技术特征摘要】
1.一种声纹聚类方法，用于多音频的说话人日志，包括：获取与音频信息同步的人脸检测信息；基于所述人脸检测信息确定人数信息；基于所述人数信息辅助所述音频信息进行声纹聚类。2.根据权利要求1所述的方法，其中，所述基于所述人脸检测信息确定人数信息包括：获取每一帧人脸检测信息中的人脸数量；基于所述每一帧的人脸数量中的最大人脸数量确定人数信息。3.根据权利要求1所述的方法，其中，在所述获取与音频信息同步的人脸检测信息之前，还包括：确定所述音频信息中包含说话人音频的说话段；对所述说话段进行声纹特征提取得到声纹特征。4.根据权利要求3所述的方法，其中，所述基于所述人数信息辅助所述音频信息进行声纹聚类包括：基于所述人数信息辅助声纹聚类算法对所述声纹特征进行处理，其中，所述声纹聚类算法为谱聚法；输出所述声纹聚类算法的聚类结果。5.一种声纹聚类方法，用于多音频的说话人日志，包括：获取与音频信息同步的人脸检测信息；对人脸在所述人脸检测信息中的坐标位置信息进行跟踪；将跟踪得到的对应于同一个人的人脸进行聚类得到聚类结果；基于所述音频信息和...

【专利技术属性】
技术研发人员：俞凯，刘涛，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人