语音音频分割方法、装置、计算机设备、存储介质制造方法及图纸

技术编号:39409438 阅读:12 留言:0更新日期:2023-11-19 16:01
本申请涉及一种语音音频分割方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:对语音音频进行特征提取处理,得到矩阵特征数据;将矩阵特征数据输入到语音分割点概率确定模型中;从拟定语音分割点中筛选得到目标分割点,根据目标分割点对语音音频进行分割,得到分段音频数据;对各分段音频数据进行聚类分析,得到各分段音频数据所属的各说话对象的对象标识;将具有相同对象标识的说话对象的分段音频数据进行拼接,得到各说话对象的音频。采用本方法能够提升针对多说话对象的语音分割准确性。音分割准确性。音分割准确性。

【技术实现步骤摘要】
语音音频分割方法、装置、计算机设备、存储介质


[0001]本申请涉及人工智能
,特别是涉及一种语音音频分割方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]语音处理领域中通常存在“需要对多个说话人进行语音识别”的应用场景,若直接对多说话人语音进行语音识别会影响语音识别的准确率,因此往往采用语音分割技术分离得到多个说话人的语音,进而完成对语音的处理。
[0003]然而,当前的语音分割技术的转换点预测结果的准确度较低,容易出现分割点错位,通过设置重叠移窗进行分割的方式使声纹计算次数大量增加。因此,当前针对多说话人的语音分割技术的语音分割效果较差,进而导致语音识别准确率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提升针对多说话对象的语音分割准确性的语音音频分割方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种语音音频分割方法。所述方法包括:
[0006]对语音音频进行特征提取处理,得到矩阵特征数据;
[0007]将所述矩阵特征数据输入到语音分割点概率确定模型中;所述语音分割点概率确定模型用于输出所述语音音频中各拟定语音分割点的概率信息;所述概率信息包括各所述拟定语音分割点与所述语音音频中各说话对象的停顿间隙点间匹配的概率;
[0008]从所述拟定语音分割点中筛选得到目标分割点,根据所述目标分割点对所述语音音频进行分割,得到分段音频数据;所述目标分割点的概率信息中的概率值处于概率函数的峰值位置,且所述概率值大于预设的概率阈值;
[0009]对各所述分段音频数据进行聚类分析,得到各所述分段音频数据所属的各所述说话对象的对象标识;
[0010]将具有相同所述对象标识的所述说话对象的分段音频数据进行拼接,得到各所述说话对象的音频。
[0011]在其中一个实施例中,在所述对语音音频进行特征提取处理,得到矩阵特征数据的步骤之前,所述方法还包括:
[0012]将初始音频输入到人工智能降噪模型中;所述人工智能降噪模型用于输出降噪音频;所述降噪音频包括对所述初始音频降噪后的音频;
[0013]对所述降噪音频进行语音激活检测,得到所述语音音频;所述语音音频包括去除所述降噪音频中的非语音片段后得到的音频;所述非语音片段包括语音中没有所述说话对象语音的片段。
[0014]在其中一个实施例中,所述方法还包括对初始模型进行训练,得到所述语音分割
点概率确定模型,具体包括:
[0015]对开源的声纹识别数据集中各所述说话对象的初始音频进行分段,得到音频分段;相同的所述说话对象的音频片段具有相同的所述对象标识;
[0016]从各所述对象标识中抽取第一预设数值个所述对象标识;所述第一预设数值表征拟选取的说话对象的个数;
[0017]从属于各所述拟选取的说话对象的音频片段中,抽取第二预设数值个具有相同所述对象标识的所述音频片段;所述第二预设数值表征各所述说话对象对应的拟选取的音频片段的个数;
[0018]将各拟选取的说话对象的所述拟选取的音频片段,按照预设顺序依次拼接,得到拼接音频和时间标签;所述时间标签表征所述拼接音频中各拟定说话对象转折点的时间;
[0019]根据所述拼接音频和所述时间标签,对所述初始模型进行训练。
[0020]在其中一个实施例中,所述根据所述拼接音频和所述时间标签,对所述初始模型进行训练,包括:
[0021]将对所述拼接音频的分帧数据进行fbank特征提取处理后得到的特征输入到所述初始模型中;
[0022]将所述时间标签按照所述分帧数据的帧移进行独热编码,得到编码标签;
[0023]将所述编码标签作为模型训练的标注,对所述初始模型进行训练。
[0024]在其中一个实施例中,所述对各所述分段音频数据进行聚类分析,得到各所述分段音频数据所属的各所述说话对象的对象标识,包括:
[0025]通过声纹识别模型提取出各所述分段音频数据的分段声纹特征;
[0026]将各所述分段声纹特征作为样本点输入到训练好的目标聚类模型;所述目标聚类模型用于输出各所述分段音频数据所属的各所述说话对象的对象标识。
[0027]在其中一个实施例中,所述对语音音频进行特征提取处理,得到矩阵特征数据,包括:
[0028]对所述语音音频进行汉宁窗处理,得到所述语音音频的分帧数据;
[0029]对所述分帧数据进行预设特征维度的fbank特征提取,得到具有目标矩阵维度的矩阵特征数据;所述目标矩阵维度由所述预设特征维度确定。
[0030]第二方面,本申请还提供了一种语音音频分割装置。所述装置包括:
[0031]特征提取模块,用于对语音音频进行特征提取处理,得到矩阵特征数据;
[0032]模型输出模块,用于将所述矩阵特征数据输入到语音分割点概率确定模型中;所述语音分割点概率确定模型用于输出所述语音音频中各拟定语音分割点的概率信息;所述概率信息包括各所述拟定语音分割点与所述语音音频中各说话对象的停顿间隙点间匹配的概率;
[0033]音频分割模块,用于从所述拟定语音分割点中筛选得到目标分割点,根据所述目标分割点对所述语音音频进行分割,得到分段音频数据;所述目标分割点的概率信息中的概率值处于概率函数的峰值位置,且所述概率值大于预设的概率阈值;
[0034]聚类模块,用于对各所述分段音频数据进行聚类分析,得到各所述分段音频数据所属的各所述说话对象的对象标识;
[0035]音频拼接模块,用于将具有相同所述对象标识的所述说话对象的分段音频数据进
行拼接,得到各所述说话对象的音频。
[0036]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0037]对语音音频进行特征提取处理,得到矩阵特征数据;
[0038]将所述矩阵特征数据输入到语音分割点概率确定模型中;所述语音分割点概率确定模型用于输出所述语音音频中各拟定语音分割点的概率信息;所述概率信息包括各所述拟定语音分割点与所述语音音频中各说话对象的停顿间隙点间匹配的概率;
[0039]从所述拟定语音分割点中筛选得到目标分割点,根据所述目标分割点对所述语音音频进行分割,得到分段音频数据;所述目标分割点的概率信息中的概率值处于概率函数的峰值位置,且所述概率值大于预设的概率阈值;
[0040]对各所述分段音频数据进行聚类分析,得到各所述分段音频数据所属的各所述说话对象的对象标识;
[0041]将具有相同所述对象标识的所述说话对象的分段音频数据进行拼接,得到各所述说话对象的音频。
[0042]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音音频分割方法,其特征在于,所述方法包括:对语音音频进行特征提取处理,得到矩阵特征数据;将所述矩阵特征数据输入到语音分割点概率确定模型中;所述语音分割点概率确定模型用于输出所述语音音频中各拟定语音分割点的概率信息;所述概率信息包括各所述拟定语音分割点与所述语音音频中各说话对象的停顿间隙点间匹配的概率;从所述拟定语音分割点中筛选得到目标分割点,根据所述目标分割点对所述语音音频进行分割,得到分段音频数据;所述目标分割点的概率信息中的概率值处于概率函数的峰值位置,且所述概率值大于预设的概率阈值;对各所述分段音频数据进行聚类分析,得到各所述分段音频数据所属的各所述说话对象的对象标识;将具有相同所述对象标识的所述说话对象的分段音频数据进行拼接,得到各所述说话对象的音频。2.根据权利要求1所述的方法,其特征在于,在所述对语音音频进行特征提取处理,得到矩阵特征数据的步骤之前,所述方法还包括:将初始音频输入到人工智能降噪模型中;所述人工智能降噪模型用于输出降噪音频;所述降噪音频包括对所述初始音频降噪后的音频;对所述降噪音频进行语音激活检测,得到所述语音音频;所述语音音频包括去除所述降噪音频中的非语音片段后得到的音频;所述非语音片段包括语音中没有所述说话对象语音的片段。3.根据权利要求2所述的方法,其特征在于,所述方法还包括对初始模型进行训练,得到所述语音分割点概率确定模型,具体包括:对开源的声纹识别数据集中各所述说话对象的初始音频进行分段,得到音频分段;相同的所述说话对象的音频片段具有相同的所述对象标识;从各所述对象标识中抽取第一预设数值个所述对象标识;所述第一预设数值表征拟选取的说话对象的个数;从属于各所述拟选取的说话对象的音频片段中,抽取第二预设数值个具有相同所述对象标识的所述音频片段;所述第二预设数值表征各所述说话对象对应的拟选取的音频片段的个数;将各拟选取的说话对象的所述拟选取的音频片段,按照预设顺序依次拼接,得到拼接音频和时间标签;所述时间标签表征所述拼接音频中各拟定说话对象转折点的时间;根据所述拼接音频和所述时间标签,对所述初始模型进行训练。4.根据权利要求3所述的方法,其特征在于,所述根据所述拼接音频和所述时间标签,对所述初始模型进行训练,包括:将对所述拼接音频的分帧数据进行fbank特征提取处理后得到的特征输入到所述初...

【专利技术属性】
技术研发人员:盘子圣黄祥康张政统邓其春廖艳冰马金龙马飞黎子骏兰翔曾锐鸿王伟喆熊佳吴文亮
申请(专利权)人:广州趣研网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1