一种语音主体识别方法及装置制造方法及图纸

技术编号：37104511 阅读：30 留言：0更新日期：2023-04-01 05:03

本发明专利技术提供一种语音主体识别方法及装置。该方法包括：确定待处理的音频文件；将所述待处理的音频文件输入到音频嵌入模型，得到所述音频嵌入模型输出的所述待处理的音频文件对应的音频嵌入向量；确定所述音频嵌入向量中第一音频嵌入向量与第二音频嵌入向量之间的点积相似度矩阵，获得相应的相似度队列；并基于所述相似度队列，确定语音主体对应的音频数据；其中，所述音频嵌入模型以位于所述点积相似度矩阵对角线上的元素数值最大为训练目标进行训练得到的。采用本发明专利技术提供的语音主体识别方法，能够通过分析音频嵌入向量之间的点积相似度矩阵有效提高语音主体识别的精度，提升了语音环境较为复杂的特定场景下的语音主体识别效率和鲁棒性。识别效率和鲁棒性。识别效率和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音主体识别方法及装置

[0001]本专利技术涉及人工智能应用
，具体涉及一种语音主体识别方法及装置。另外，还涉及一种电子设备及处理器可读存储介质。

技术介绍

[0002]随着人工智能技术的快速发展，各种语音识别应用越来越广泛，而其中语音主体识别技术尤为重要。语音主体识别是指从一段音频文件中分离出各个语音主体的音频。通常情况下，语音主体识别是基于时频分析后的语音谱完成的，要想提高语音主体识别准确率，就需要克服音频信号所面临各种各样的多样场景，包括语音主体的多样性，环境的多样性等。
[0003]然而，现有技术方案所得到的语音主体准确率不高，识别语音主体的效率和鲁棒性较差。因此，如何设计一种精准、高效的语音主体识别方案成为亟待解决的难题。

技术实现思路

[0004]为此，本专利技术提供一种语音主体识别方法及装置，以解决现有技术存在的语音主体识别方案局限性较高，导致识别语音主体的效率和鲁棒性较差的问题。
[0005]第一方面，本专利技术提供一种语音主体识别方法，包括：
[0006]...

【技术保护点】

【技术特征摘要】
1.一种语音主体识别方法，其特征在于，包括：确定待处理的音频文件；将所述待处理的音频文件输入到音频嵌入模型，得到所述音频嵌入模型输出的所述待处理的音频文件对应的音频嵌入向量；确定所述音频嵌入向量中第一音频嵌入向量与第二音频嵌入向量之间的点积相似度矩阵，获得相应的相似度队列；并基于所述相似度队列，确定语音主体对应的音频数据；其中，所述音频嵌入模型以位于所述点积相似度矩阵对角线上的元素数值最大为训练目标进行训练得到的。2.根据权利要求1所述的语音主体识别方法，其特征在于，所述确定待处理的音频文件，具体包括：获取待识别的原始音频文件；其中，所述原始音频文件包含至少两个语音主体的音频数据；将所述原始音频文件分割为至少一个音频片段，并对所述音频片段进行快速傅里叶变换处理，得到所述待处理的音频文件。3.根据权利要求1所述的语音主体识别方法，其特征在于，基于所述相似度队列，确定语音主体对应的音频数据，具体包括：确定所述相似度队列中元素数值的突变信息；基于所述突变信息对所述音频嵌入向量进行初步分组，得到初步分组结果；对所述初步分组结果取均值后，输入到预设的聚类模型中进行聚类，得到目标聚类结果；基于所述目标聚类结果，从原始音频文件中分割出每个语音主体分别对应的音频数据。4.根据权利要求3所述的语音主体识别方法，其特征在于，确定所述相似度队列中元素数值的突变信息，具体包括：获得所述相似度队列中元素数值按照预设顺序形成的图示信息；基于所述图示信息，利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息；其中，所述突变信息为按照预设顺序排列的所述元素数值之间突变的时间点。5.根据权利要求4所述的语音主体识别方法，其特征在于，基于所述图示信息，利用双滑动平均窗口检测突变模型检测...

【专利技术属性】
技术研发人员：黄伟文，邹伟政，黄华新，陈晓鸿，罗毅豪，陈舒贤，
申请(专利权)人：中国移动通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人