一种语音主体识别方法及装置制造方法及图纸

技术编号:37104511 阅读:18 留言:0更新日期:2023-04-01 05:03
本发明专利技术提供一种语音主体识别方法及装置。该方法包括:确定待处理的音频文件;将所述待处理的音频文件输入到音频嵌入模型,得到所述音频嵌入模型输出的所述待处理的音频文件对应的音频嵌入向量;确定所述音频嵌入向量中第一音频嵌入向量与第二音频嵌入向量之间的点积相似度矩阵,获得相应的相似度队列;并基于所述相似度队列,确定语音主体对应的音频数据;其中,所述音频嵌入模型以位于所述点积相似度矩阵对角线上的元素数值最大为训练目标进行训练得到的。采用本发明专利技术提供的语音主体识别方法,能够通过分析音频嵌入向量之间的点积相似度矩阵有效提高语音主体识别的精度,提升了语音环境较为复杂的特定场景下的语音主体识别效率和鲁棒性。识别效率和鲁棒性。识别效率和鲁棒性。

【技术实现步骤摘要】
一种语音主体识别方法及装置


[0001]本专利技术涉及人工智能应用
,具体涉及一种语音主体识别方法及装置。另外,还涉及一种电子设备及处理器可读存储介质。

技术介绍

[0002]随着人工智能技术的快速发展,各种语音识别应用越来越广泛,而其中语音主体识别技术尤为重要。语音主体识别是指从一段音频文件中分离出各个语音主体的音频。通常情况下,语音主体识别是基于时频分析后的语音谱完成的,要想提高语音主体识别准确率,就需要克服音频信号所面临各种各样的多样场景,包括语音主体的多样性,环境的多样性等。
[0003]然而,现有技术方案所得到的语音主体准确率不高,识别语音主体的效率和鲁棒性较差。因此,如何设计一种精准、高效的语音主体识别方案成为亟待解决的难题。

技术实现思路

[0004]为此,本专利技术提供一种语音主体识别方法及装置,以解决现有技术存在的语音主体识别方案局限性较高,导致识别语音主体的效率和鲁棒性较差的问题。
[0005]第一方面,本专利技术提供一种语音主体识别方法,包括:
[0006]确定待处理的音频文件;
[0007]将所述待处理的音频文件输入到音频嵌入模型,得到所述音频嵌入模型输出的所述待处理的音频文件对应的音频嵌入向量;
[0008]确定所述音频嵌入向量中第一音频嵌入向量与第二音频嵌入向量之间的点积相似度矩阵,获得相应的相似度队列;并基于所述相似度队列,确定语音主体对应的音频数据;
[0009]其中,所述音频嵌入模型以位于所述点积相似度矩阵对角线上的元素数值最大为训练目标进行训练得到的。
[0010]在一个实施例中,所述确定待处理的音频文件,具体包括:
[0011]获取待识别的原始音频文件;其中,所述原始音频文件包含至少两个语音主体的音频数据;
[0012]将所述原始音频文件分割为至少一个音频片段,并对所述音频片段进行快速傅里叶变换处理,得到所述待处理的音频文件。
[0013]在一个实施例中,基于所述相似度队列,确定语音主体对应的音频数据,具体包括:
[0014]确定所述相似度队列中元素数值的突变信息;
[0015]基于所述突变信息对所述音频嵌入向量进行初步分组,得到初步分组结果;
[0016]对所述初步分组结果取均值后,输入到预设的聚类模型中进行聚类,得到目标聚类结果;
[0017]基于所述目标聚类结果,从原始音频文件中分割出每个语音主体分别对应的音频数据。
[0018]在一个实施例中,确定所述相似度队列中元素数值的突变信息,具体包括:
[0019]获得所述相似度队列中元素数值按照预设顺序形成的图示信息;
[0020]基于所述图示信息,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息;
[0021]其中,所述突变信息为按照预设顺序排列的所述元素数值之间突变的时间点。
[0022]在一个实施例中,基于所述图示信息,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息,具体包括:
[0023]根据所述图示信息确定所述双滑动平均窗口检测突变模型的窗口大小参数;
[0024]基于所述窗口大小参数,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息。
[0025]在一个实施例中,所述聚类模型为K均值聚类模型。
[0026]第二方面,本专利技术还提供一种语音主体识别装置,包括:
[0027]音频文件确定单元,用于确定待处理的音频文件;
[0028]音频文件向量化单元,用于将所述待处理的音频文件输入到音频嵌入模型,得到所述音频嵌入模型输出的所述待处理的音频文件对应的音频嵌入向量;
[0029]语音主体识别单元,用于确定所述音频嵌入向量中第一音频嵌入向量与第二音频嵌入向量之间的点积相似度矩阵,获得相应的相似度队列;并基于所述相似度队列,确定语音主体对应的音频数据;
[0030]其中,所述音频嵌入模型以位于所述点积相似度矩阵对角线上的元素数值最大为训练目标进行训练得到的。
[0031]在一个实施例中,所述语音主体识别单元,具体用于:
[0032]确定所述相似度队列中元素数值的突变信息;
[0033]基于所述突变信息对所述音频嵌入向量进行初步分组,得到初步分组结果;
[0034]对所述初步分组结果取均值后,输入到预设的聚类模型中进行聚类,得到目标聚类结果;
[0035]基于所述目标聚类结果,从原始音频文件中分割出每个语音主体分别对应的音频数据。
[0036]在一个实施例中,所述音频文件确定单元,具体用于:
[0037]获取待识别的原始音频文件;其中,所述原始音频文件包含至少两个语音主体的音频数据;
[0038]将所述原始音频文件分割为至少一个音频片段,并对所述音频片段进行快速傅里叶变换处理,得到所述待处理的音频文件。
[0039]在一个实施例中,确定所述相似度队列中元素数值的突变信息,具体包括:
[0040]获得所述相似度队列中元素数值按照预设顺序形成的图示信息;
[0041]基于所述图示信息,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息;
[0042]其中,所述突变信息为按照预设顺序排列的所述元素数值之间突变的时间点。
[0043]在一个实施例中,基于所述图示信息,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息,具体包括:
[0044]根据所述图示信息确定所述双滑动平均窗口检测突变模型的窗口大小参数;
[0045]基于所述窗口大小参数,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息。
[0046]在一个实施例中,所述聚类模型为K均值聚类模型。
[0047]第三方面,本专利技术还提供一种电子设备,包括:存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的语音主体识别方法的步骤。
[0048]第四方面,本专利技术还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的语音主体识别方法的步骤。
[0049]本专利技术实施例提供的所述语音主体识别方法,通过分析待处理的音频文件对应音频嵌入向量之间的点积相似度矩阵,得到相应的相似度队列,并基于相似度队列识别语音主体的音频数据,能够有效提高语音主体识别的精度,提高了语音环境较为复杂的特定场景下的语音主体识别效率和鲁棒性。
附图说明
[0050]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
[0051]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音主体识别方法,其特征在于,包括:确定待处理的音频文件;将所述待处理的音频文件输入到音频嵌入模型,得到所述音频嵌入模型输出的所述待处理的音频文件对应的音频嵌入向量;确定所述音频嵌入向量中第一音频嵌入向量与第二音频嵌入向量之间的点积相似度矩阵,获得相应的相似度队列;并基于所述相似度队列,确定语音主体对应的音频数据;其中,所述音频嵌入模型以位于所述点积相似度矩阵对角线上的元素数值最大为训练目标进行训练得到的。2.根据权利要求1所述的语音主体识别方法,其特征在于,所述确定待处理的音频文件,具体包括:获取待识别的原始音频文件;其中,所述原始音频文件包含至少两个语音主体的音频数据;将所述原始音频文件分割为至少一个音频片段,并对所述音频片段进行快速傅里叶变换处理,得到所述待处理的音频文件。3.根据权利要求1所述的语音主体识别方法,其特征在于,基于所述相似度队列,确定语音主体对应的音频数据,具体包括:确定所述相似度队列中元素数值的突变信息;基于所述突变信息对所述音频嵌入向量进行初步分组,得到初步分组结果;对所述初步分组结果取均值后,输入到预设的聚类模型中进行聚类,得到目标聚类结果;基于所述目标聚类结果,从原始音频文件中分割出每个语音主体分别对应的音频数据。4.根据权利要求3所述的语音主体识别方法,其特征在于,确定所述相似度队列中元素数值的突变信息,具体包括:获得所述相似度队列中元素数值按照预设顺序形成的图示信息;基于所述图示信息,利用双滑动平均窗口检测突变模型检测所述相似度队列中元素数值的突变信息;其中,所述突变信息为按照预设顺序排列的所述元素数值之间突变的时间点。5.根据权利要求4所述的语音主体识别方法,其特征在于,基于所述图示信息,利用双滑动平均窗口检测突变模型检测...

【专利技术属性】
技术研发人员:黄伟文邹伟政黄华新陈晓鸿罗毅豪陈舒贤
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1