声音源的识别方法、装置、服务器及存储介质制造方法及图纸

技术编号：23894711 阅读：29 留言：0更新日期：2020-04-22 07:58

本发明专利技术公开了一种声音源的识别方法、装置、服务器及存储介质。一种声音源的识别方法，包括：获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。本发明专利技术的技术方案达到了降低根据用户的语音信号对应谱图的身份编码向量识别并汇总至少一个相同声音源对应的所述语音信号的计算难度和耗资源占空间的效果。同时还提升了对多个声音源产生的语音信号进行分离归类的准确性。

Identification method, device, server and storage medium of sound source

全部详细技术资料下载

【技术实现步骤摘要】
声音源的识别方法、装置、服务器及存储介质
本专利技术实施例涉及声音源的识别技术，尤其涉及一种声音源的识别方法、装置、服务器及存储介质。
技术介绍
在常见的会话场景中，尤其是在电话服务中，电话录音作为和客户沟通的依据会被服务的公司保留下来，在对电话录音进行分析处理的过程中，通常比较关注客户的声音，尤其是在金融业务中，通过进一步分析客户语音信号还可以起到用户的身份认证的作用，因此，将一段电话录音中的客户一人说话的声音分离并汇总就变得很重要。而人的声纹(用于表达声音特征)如同人脸、指纹、虹膜等生物特征一样，具有独特性，因此可以根据不同人的声纹不同来区分不同说话人。现有的声纹识别通常的方法是在语音信号中提取MFCC特征，再训练GMM-UBM模型来识别语音信号中的声纹信息，需要为每一个注册用户生成一个GMM-UBM模型。在面对多个语音信号的声纹识别时，需要每个语音信号都需要建立一个模型，计算量也非常的大，对于服务器集群来说，占用的资源也较多；并且数量较多的模型的维护成本也很高。此外MFCC特征提取过程中还筛掉很多有效信息，使其对语音信...

【技术保护点】
1.一种声音源的识别方法，其特征在于，包括：/n获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；/n将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；/n根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。/n

【技术特征摘要】
1.一种声音源的识别方法，其特征在于，包括：
获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；
将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；
根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。

2.根据权利要求1所述的声音源的识别方法，其特征在于，所述获取用户的语音信号的谱图包括：
根据所述语音信号获取所述语音信号的谐波信号和冲击波信号；
分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图；
将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。

3.根据权利要求1所述的声音源的识别方法，其特征在于，所述能量图谱为梅尔能量图谱，所述获取用户的语音信号的谱图包括：
根据所述语音信号获取所述语音信号的谐波信号和冲击波信号；
分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图；
将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为所述谱图。

4.根据权利要求1所述的声音源的识别方法，其特征在于，所述获取用户的语音信号的谱图之前，还包括：
根据采集到的录音获取声音信号，所述录音的声音源包括至少两个；
滤除所述声音信号中的静音片段，并将所述声音信号分割为至少两个所述语音信号。

5.根据权利要求4所述的声音源的识别方法，其特征在于，所述根据所述身份编码向量汇总至...

【专利技术属性】
技术研发人员：杨楠，
申请(专利权)人：随手北京信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人