说话人转换点的检测方法、训练检测模型的方法及装置制造方法及图纸

技术编号：38381977 阅读：12 留言：0更新日期：2023-08-05 17:39

本申请实施例公开了一种说话人转换点的检测方法、训练检测模型的方法及装置，涉及人工智能和语音处理技术。其中方法包括：将待检测音频切分成两个以上的预设时长的音频段；依据从各音频段中提取的声纹特征对两个以上的音频段进行聚类处理，得到两个以上的类簇；从两个以上的音频段中确定一个以上的候选段对，各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇；将候选段对对应的帧序列输入转换点检测模型，获取转换点检测模型预测的帧序列中各帧对应的说话人标签，转换点检测模型基于深度学习模型预先训练得到；利用帧序列中各帧对应的说话人标签，确定说话人转换点信息。本申请能够提高说话人转换点检测的准确性。的准确性。的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
说话人转换点的检测方法、训练检测模型的方法及装置

[0001]本申请涉及人工智能和语音处理
，特别是涉及一种说话人转换点的检测方法、训练检测模型的方法及装置。

技术介绍

[0002]多人对话场景下对于说话人转换点的检测是语音识别技术中的一个热门问题，目标是确定一段多人对话音频中的说话人信息以及各时间段对应的说话人。目前在多人会议场景、客服电话场景、销售场景中被广泛应用。以多人会议场景为例，智能语音识别系统更能够快速识别出会议音频对应的文字信息并依据不同说话人进行分段，确定出说话人转换点的位置，这将极大地提高使用者的工作效率。
[0003]目前如何准确地进行说话人转换点的检测是目前各大智能语音识别服务商均致力解决的问题。

技术实现思路

[0004]有鉴于此，本申请提供了一种说话人转换点的检测方法、训练检测模型的方法及装置，以便于提高说话人转换点检测的准确性。
[0005]本申请提供了如下方案：
[0006]第一方面，提供了一种说话人转换点的检测方法，所述方法：
[0007]将待检测音频切分成两个以上的音频段，各音频段分别为预设时长，相邻两个音频段之间交叠的时长大于等于0且小于所述预设时长；
[0008]依据从各音频段中提取的声纹特征对所述两个以上的音频段进行聚类处理，得到两个以上的类簇；
[0009]从所述两个以上的音频段中确定一个以上的候选段对，各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇；
[0010]将候选段对对应的...

【技术保护点】

【技术特征摘要】
1.一种说话人转换点的检测方法，其特征在于，所述方法：将待检测音频切分成两个以上的音频段，各音频段分别为预设时长，相邻两个音频段之间交叠的时长大于等于0且小于所述预设时长；依据从各音频段中提取的声纹特征对所述两个以上的音频段进行聚类处理，得到两个以上的类簇；从所述两个以上的音频段中确定一个以上的候选段对，各候选段对包括相邻的两个音频段且该相邻的两个音频段属于不同的类簇；将候选段对对应的帧序列输入转换点检测模型，获取所述转换点检测模型预测的帧序列中各帧对应的说话人标签，所述转换点检测模型基于深度学习模型预先训练得到；利用所述帧序列中各帧对应的说话人标签，确定说话人转换点信息。2.根据权利要求1所述的方法，其特征在于，所述转换点检测模型包括编码网络和预测网络；所述编码网络对输入的候选段对对应的帧序列进行特征编码，得到帧序列中各帧的特征表示；所述预测网络利用所述帧序列中各帧的特征表示以及所述输入的候选段对中两个音频段的声纹特征，预测所述帧序列中各帧对应的说话人标签。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定所述输入的候选段对中两个音频段所属的类簇，分别利用确定出的各类簇中音频段的声纹特征，确定各类簇分别对应的全局特征表示；所述转换点检测模型包括编码网络和预测网络；所述编码网络对输入的候选段对对应的帧序列进行特征编码，得到帧序列中各帧的特征表示；所述预测网络利用所述帧序列中各帧的特征表示以及所述输入的候选段对中两个音频段所属的类簇对应的全局特征表示，预测所述帧序列中各帧对应的说话人标签。4.根据权利要求2或3所述的方法，其特征在于，所述编码网络采用时延神经网络TDNN，所述预测网络采用转换Transformer网络。5.根据权利要求1所述的方法，其特征在于，利用所述帧序列中各帧对应的说话人标签，确定说话人转换点信息包括：将所述帧序列中对应不同说话人标签的相邻两个帧之间的时间点，确定为说话人转换点信息。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：将所述说话人转换点信息提供给语音识别系统，以便于所述语音识别系统依据所述说话人转换点信息对所述待检测音频对应的识别结果进行分段或标注说话人信息。7.一种训练转换点检测模型的方法，其特征在于，所述方法包括：获取包括多个训练样本的训练数据，所述训练样本包括两个说话人的音频段构成的音频帧序列以及所述音频帧序列中各帧被标注的说话人标签；利用所述训练数据训练基于深度学习模型的转换点检测模型，其中，将音频帧序列作为所述转换点检测模型的输入，由所述转换点检测模型预测所述音频帧序列中各帧对应的说话人标签，所述训练的目标包括：最小化所述转换点检测...

【专利技术属性】
技术研发人员：王绘，郑斯奇，陈亚峰，程路遥，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人