一种单声道说话人分离模型、训练方法和分离方法技术

技术编号：23788358 阅读：19 留言：0更新日期：2020-04-15 01:13

本发明专利技术公开了一种单声道说话人分离模型、训练方法和分离方法，单声道说话人分离方法包括：获取包含第一说话人和第二说话人的音频；分割音频获得至少一份分割音频；输入至少一份分割音频至单声道说话人分离模型，获得至少一份分割音频对应的至少一份第一embedding；输入预先录制的仅包括第二说话人的音频至单声道说话人分离模型，获得仅包括第二说话人的音频对应的第二embedding；判断至少一份第一embedding和第二embedding的余弦相似度是否小于预设阈值，如果是，至少一份分割音频为第一说话人音频，如果否，至少一份分割音频为第二说话人音频。

A model, training method and separation method of mono speaker separation

全部详细技术资料下载

【技术实现步骤摘要】
一种单声道说话人分离模型、训练方法和分离方法
本专利技术涉及深度学习领域，尤其涉及一种单声道说话人分离模型、训练方法和分离方法。
技术介绍
目前，在销售、回访、催款等场景中，大部分公司仍旧采用单声道的方式采集录音，由于客户和客服的声音都在同一声道上，再经过asr（AutomaticSpeechRecognition，语音识别）转化成文字，无法知道文字段对应的是客户还是客服，导致在语音质检中，需要人工听取一个个录音。而且有的录音长达数分钟，而有效的信息只有几秒钟的时间，这将大大的造成企业的资源浪费，不仅使得人力成本大大升高、效率底下，而且不能保证质检的质量，可能因为人的疏忽导致一通有问题的录音成为漏网之鱼，造成企业无法挽回的损失。目前大部分的说话人分离技术方案采用无监督学习的模式，将录音分割成一段段的小音频，然后在提取每段音频的特征，进行聚类。但是在催收等场景中，存在着大量的场景音，而且聚类算法极易受异常点干扰（噪音、汽车喇叭等），同时客服、客户的情绪在催收过程中经常波动，导致无法做到精确的说话人分离。
技术实现思路
本专利技术要解决的技术问题，在于提供一种单声道说话人分离模型、训练方法和分离方法，在对话语音中能不受干扰的分离出说话人语音。为实现上述目的，本专利技术采用下述技术方案：第一方面，本专利技术提供一种单声道说话人分离模型，包括ResCNN（深度残差网络），所述ResCNN包括8个ResBlock（残差块），每个ResBlock（残差块）包含四个卷积核为3×3、步长为...

【技术保护点】
1.一种单声道说话人分离模型，包括ResCNN，其特征是，所述ResCNN包括8/n个ResBlock，每个ResBlock包含四个卷积核为3×3、步长为2的卷积层，每个ResBlock之前包括一个卷积核为5×5、步长为4的卷积层。/n

【技术特征摘要】
1.一种单声道说话人分离模型，包括ResCNN，其特征是，所述ResCNN包括8
个ResBlock，每个ResBlock包含四个卷积核为3×3、步长为2的卷积层，每个ResBlock之前包括一个卷积核为5×5、步长为4的卷积层。

2.一种单声道说话人分离模型的训练方法，其特征是，所述方法包括：
获取说话人的至少一句话作为锚样本，获取同一说话人的至少另一句话作为正样本，获取不同说话人与锚样本相同的至少一句话作为负样本；
单声道说话人分离模型的每个卷积层之间在序列维度上使用BatchNormalization，并对每个卷积层使用裁剪修正线性函数作为非线性映射；
利用所述锚样本、正样本和负样本训练单声道说话人分离模型，输出所述锚样本、正样本和负样本对应的embedding；
所述正样本、锚样本对应的embedding之间的余弦相似度作为第一距离，所述负样本、锚样本对应的embedding之间的余弦相似度作为第二距离；
利用所述第一距离和第二距离优化模型参数。

3.根据权利要求2所述的一种单声道说话人分离模型的训练方法，其特征是，
所述优化模型参数目标为减小第一距离和/或增加第二距离。

4.一种基于单声道说话人分离模型的单声道说话...

【专利技术属性】
技术研发人员：王磊，
申请(专利权)人：浙江百应科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人