说话人转换点的检测方法、训练检测模型的方法及装置制造方法及图纸

技术编号:38381977 阅读:12 留言:0更新日期:2023-08-05 17:39
本申请实施例公开了一种说话人转换点的检测方法、训练检测模型的方法及装置,涉及人工智能和语音处理技术。其中方法包括:将待检测音频切分成两个以上的预设时长的音频段;依据从各音频段中提取的声纹特征对两个以上的音频段进行聚类处理,得到两个以上的类簇;从两个以上的音频段中确定一个以上的候选段对,各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇;将候选段对对应的帧序列输入转换点检测模型,获取转换点检测模型预测的帧序列中各帧对应的说话人标签,转换点检测模型基于深度学习模型预先训练得到;利用帧序列中各帧对应的说话人标签,确定说话人转换点信息。本申请能够提高说话人转换点检测的准确性。的准确性。的准确性。

【技术实现步骤摘要】
说话人转换点的检测方法、训练检测模型的方法及装置


[0001]本申请涉及人工智能和语音处理
,特别是涉及一种说话人转换点的检测方法、训练检测模型的方法及装置。

技术介绍

[0002]多人对话场景下对于说话人转换点的检测是语音识别技术中的一个热门问题,目标是确定一段多人对话音频中的说话人信息以及各时间段对应的说话人。目前在多人会议场景、客服电话场景、销售场景中被广泛应用。以多人会议场景为例,智能语音识别系统更能够快速识别出会议音频对应的文字信息并依据不同说话人进行分段,确定出说话人转换点的位置,这将极大地提高使用者的工作效率。
[0003]目前如何准确地进行说话人转换点的检测是目前各大智能语音识别服务商均致力解决的问题。

技术实现思路

[0004]有鉴于此,本申请提供了一种说话人转换点的检测方法、训练检测模型的方法及装置,以便于提高说话人转换点检测的准确性。
[0005]本申请提供了如下方案:
[0006]第一方面,提供了一种说话人转换点的检测方法,所述方法:
[0007]将待检测音频切分成两个以上的音频段,各音频段分别为预设时长,相邻两个音频段之间交叠的时长大于等于0且小于所述预设时长;
[0008]依据从各音频段中提取的声纹特征对所述两个以上的音频段进行聚类处理,得到两个以上的类簇;
[0009]从所述两个以上的音频段中确定一个以上的候选段对,各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇;
[0010]将候选段对对应的帧序列输入转换点检测模型,获取所述转换点检测模型预测的帧序列中各帧对应的说话人标签,所述转换点检测模型基于深度学习模型预先训练得到;
[0011]利用所述帧序列中各帧对应的说话人标签,确定说话人转换点信息。
[0012]根据本申请实施例中一可实现的方式,所述转换点检测模型包括编码网络和预测网络;
[0013]所述编码网络对输入的候选段对对应的帧序列进行特征编码,得到帧序列中各帧的特征表示;
[0014]所述预测网络利用所述帧序列中各帧的特征表示以及所述输入的候选段对中两个音频段的声纹特征,预测所述帧序列中各帧对应的说话人标签。
[0015]根据本申请实施例中一可实现的方式,所述方法还包括:确定所述输入的候选段对中两个音频段所属的类簇,分别利用确定出的各类簇中音频段的声纹特征,确定各类簇分别对应的全局特征表示;
[0016]所述转换点检测模型包括编码网络和预测网络;
[0017]所述编码网络对输入的候选段对对应的帧序列进行特征编码,得到帧序列中各帧的特征表示;
[0018]所述预测网络利用所述帧序列中各帧的特征表示以及所述输入的候选段对中两个音频段所属的类簇对应的全局特征表示,预测所述帧序列中各帧对应的说话人标签。
[0019]根据本申请实施例中一可实现的方式,所述编码网络采用时延神经网络TDNN,所述预测网络采用转换Transformer网络。
[0020]根据本申请实施例中一可实现的方式,利用所述帧序列中各帧对应的说话人标签,确定说话人转换点信息包括:
[0021]将所述帧序列中对应不同说话人标签的相邻两个帧之间的时间点,确定为说话人转换点信息。
[0022]根据本申请实施例中一可实现的方式,所述方法还包括:
[0023]将所述说话人转换点信息提供给语音识别系统,以便于所述语音识别系统依据所述说话人转换点信息对所述待检测音频对应的识别结果进行分段或标注说话人信息。
[0024]第二方面,提供了一种训练转换点检测模型的方法,所述方法包括:
[0025]获取包括多个训练样本的训练数据,所述训练样本包括两个说话人的音频段构成的音频帧序列以及所述音频帧序列中各帧被标注的说话人标签;
[0026]利用所述训练数据训练基于深度学习模型的转换点检测模型,其中,将音频帧序列作为所述转换点检测模型的输入,由所述转换点检测模型预测所述音频帧序列中各帧对应的说话人标签,所述训练的目标包括:最小化所述转换点检测模型预测的结果与对应音频序列中各帧被标注的说话人标签之间的差异。
[0027]根据本申请实施例中一可实现的方式,所述获取包括多个训练样本的训练数据包括:
[0028]获取第一音频段和第二音频段,所述第一音频段和第二音频段对应不同说话人;
[0029]将所述第一音频段和第二音频段进行拼接得到音频帧序列,依据音频帧序列中各帧所属的音频段对各帧标注说话人标签。
[0030]根据本申请实施例中一可实现的方式,所述方法还包括:获取所述两个说话人的音频段分别对应的声纹特征;
[0031]所述转换点检测模型包括编码网络和预测网络;
[0032]所述编码网络对输入的音频帧序列进行特征编码,得到音频帧序列中各帧的特征表示;
[0033]所述预测网络利用所述音频帧序列中各帧的特征表示以及该音频帧序列所来源的音频段对应的声纹特征,预测所述音频帧序列中各帧对应的说话人标签。
[0034]第三方面,提供了一种说话人转换点的检测装置,所述装置包括:
[0035]段切分单元,被配置为将待检测音频切分成两个以上的音频段,各音频段分别为预设时长,相邻两个音频段之间交叠的时长大于等于0且小于所述预设时长;
[0036]音频聚类单元,被配置为依据从各音频段中提取的声纹特征对所述两个以上的音频段进行聚类处理,得到两个以上的类簇;
[0037]段对确定单元,被配置为从所述两个以上的音频段中确定一个以上的候选段对,
各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇;
[0038]模型检测单元,被配置为将候选段对对应的帧序列输入转换点检测模型,获取所述转换点检测模型预测的帧序列中各帧对应的说话人标签,所述转换点检测模型基于深度学习模型预先训练得到;
[0039]转换点确定单元,被配置为利用所述帧序列中各帧对应的说话人标签,确定说话人转换点信息。
[0040]第四方面,提供了一种训练转换点检测模型的装置,所述装置包括:
[0041]样本获取单元,被配置为获取包括多个训练样本的训练数据,所述训练样本包括两个说话人的音频段构成的音频帧序列以及所述音频帧序列中各帧被标注的说话人标签;
[0042]模型训练单元,被配置为利用所述训练数据训练基于深度学习模型的转换点检测模型,其中,将音频帧序列作为所述转换点检测模型的输入,由所述转换点检测模型预测所述音频帧序列中各帧对应的说话人标签,所述训练的目标包括:最小化所述转换点检测模型预测的结果与对应音频序列中各帧被标注的说话人标签之间的差异。
[0043]第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面和第二方面中任一项所述的方法的步骤。
[0044]第六方面,提供了一种电子设备,包括:
[0045]一个或多个处理器;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种说话人转换点的检测方法,其特征在于,所述方法:将待检测音频切分成两个以上的音频段,各音频段分别为预设时长,相邻两个音频段之间交叠的时长大于等于0且小于所述预设时长;依据从各音频段中提取的声纹特征对所述两个以上的音频段进行聚类处理,得到两个以上的类簇;从所述两个以上的音频段中确定一个以上的候选段对,各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇;将候选段对对应的帧序列输入转换点检测模型,获取所述转换点检测模型预测的帧序列中各帧对应的说话人标签,所述转换点检测模型基于深度学习模型预先训练得到;利用所述帧序列中各帧对应的说话人标签,确定说话人转换点信息。2.根据权利要求1所述的方法,其特征在于,所述转换点检测模型包括编码网络和预测网络;所述编码网络对输入的候选段对对应的帧序列进行特征编码,得到帧序列中各帧的特征表示;所述预测网络利用所述帧序列中各帧的特征表示以及所述输入的候选段对中两个音频段的声纹特征,预测所述帧序列中各帧对应的说话人标签。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述输入的候选段对中两个音频段所属的类簇,分别利用确定出的各类簇中音频段的声纹特征,确定各类簇分别对应的全局特征表示;所述转换点检测模型包括编码网络和预测网络;所述编码网络对输入的候选段对对应的帧序列进行特征编码,得到帧序列中各帧的特征表示;所述预测网络利用所述帧序列中各帧的特征表示以及所述输入的候选段对中两个音频段所属的类簇对应的全局特征表示,预测所述帧序列中各帧对应的说话人标签。4.根据权利要求2或3所述的方法,其特征在于,所述编码网络采用时延神经网络TDNN,所述预测网络采用转换Transformer网络。5.根据权利要求1所述的方法,其特征在于,利用所述帧序列中各帧对应的说话人标签,确定说话人转换点信息包括:将所述帧序列中对应不同说话人标签的相邻两个帧之间的时间点,确定为说话人转换点信息。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:将所述说话人转换点信息提供给语音识别系统,以便于所述语音识别系统依据所述说话人转换点信息对所述待检测音频对应的识别结果进行分段或标注说话人信息。7.一种训练转换点检测模型的方法,其特征在于,所述方法包括:获取包括多个训练样本的训练数据,所述训练样本包括两个说话人的音频段构成的音频帧序列以及所述音频帧序列中各帧被标注的说话人标签;利用所述训练数据训练基于深度学习模型的转换点检测模型,其中,将音频帧序列作为所述转换点检测模型的输入,由所述转换点检测模型预测所述音频帧序列中各帧对应的说话人标签,所述训练的目标包括:最小化所述转换点检测...

【专利技术属性】
技术研发人员:王绘郑斯奇陈亚峰程路遥
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1