一种说话人语音分割方法、装置、电子设备和存储介质制造方法及图纸

技术编号：33402712 阅读：27 留言：0更新日期：2022-05-11 23:24

本申请涉及一种说话人语音分割方法、装置、电子设备和存储介质，该方法包括：获取说话人语音；识别说话人语音得到说话人语音对应的文本；根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段；提取多个语音片段对应的说话人声纹信息；根据说话人声纹信息对所述多个语音片段进行聚类得到每个说话人的语音。本申请通过语音识别引擎识别说话人语音得到说话人语音对应的文本，标点预测模型根据说话人语音对应的文本对说话人语音进行断句得到多个语音片段，提取多个语音片段中不同说话人的声纹信息，凝聚层次聚类算法将相同声纹信息的语音片段进行聚类得到每个说话人的语音，改善了使用语音段端点检测对语音进行分割错误率高的问题。错误率高的问题。错误率高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种说话人语音分割方法、装置、电子设备和存储介质

[0001]本申请涉及说话人语音分割
，特别是涉及一种说话人语音分割方法、装置、电子设备和存储介质。

技术介绍

[0002]目前主流的说话人分割流程是：输入语音
‑
>前端处理
‑
>语音端点检测得到语音段
‑
>对检测到的语音段提取说话人声纹信息
‑
>对声纹做聚类得到最终的聚类结果
‑
>后处理，由于语音段端点检测错误率高，导致最终聚类错误率高，错误包括语音漏检，语音误纳，混淆错误等。
[0003]假如对话过程中，不同的话说人中间没有停顿，也就是一个片段内会至少出现两个以上的说话人，那么该片段的聚类结果肯定是错误的。对有强噪音的情况，语音端点检测很容易将噪音检测成语音，这样就造成错误。假如语音的能量很低，语音端点检测可能就检测不出语音，这样就会造成错误。

技术实现思路

[0004]基于上述语音段...

【技术保护点】

【技术特征摘要】
1.一种说话人语音分割方法，其特征在于，包括：获取说话人语音；识别所述说话人语音得到说话人语音对应的文本；根据所述说话人语音对应的文本对所述说话人语音进行断句得到多个语音片段；提取所述多个语音片段对应的说话人声纹信息；根据所述说话人声纹信息对所述多个语音片段进行聚类得到每个说话人的语音。2.根据权利要求1的一种说话人语音分割方法，其特征在于，所述说话人语音包括：至少两人的对话语音。3.根据权利要求1的一种说话人语音分割方法，其特征在于，根据所述说话人语音对应的文本对所述说话人语音进行断句得到多个语音片段是通过标点预测模型进行断句得到多个语音片段。4.根据权利要求3的一种说话人语音分割方法，其特征在于，所述标点预测模型的训练步骤如下：获取多个带有标点符号的文本；训练所述多个带有标点符号的文本得到标点预测模型。5.根据权利要求1的一种说话人语音分割方法，其特征在于，所述识别说话人语音得到说话人语音对应的文本是通过语音识别引擎进行识别的。6.根据权利要求1的一种说话人语音分割方法，其特征在于，所述根据所述说话人声纹信息对所述多个...

【专利技术属性】
技术研发人员：王明明，梁家恩，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人