基于音频流的对话角色分离方法、系统、设备及存储介质技术方案

技术编号：32968844 阅读：40 留言：0更新日期：2022-04-09 11:30

本发明专利技术提供了基于音频流的对话角色分离方法、系统、设备及存储介质，该方法包括：将音频流按时序依次分割为音频片段，并将每个音频片段以预设窗长A和预设窗移B依次提取特征帧；以每个特征帧为中心，整合时序向前以及时序向后的各C个连续相邻特征帧，进行拼合获得声纹检测子片段；基于声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得声纹检测子片段的说话人的身份识别信息；将音频流根据身份识别信息进行对话角色分离。本发明专利技术能够基于深度学习模型对音频片段进行多说话人识别检测，准确地剔除多说话人片段，提升声纹质量，从而提升声纹识别效果。而提升声纹识别效果。而提升声纹识别效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于音频流的对话角色分离方法、系统、设备及存储介质

[0001]本专利技术涉及AI语音领域，具体地说，涉及基于音频流的对话角色分离方法、系统、设备及存储介质。

技术介绍

[0002]目前，声纹识别效果依赖于声纹库质量。目前声纹库内存在多说话人片段，声纹质量较差，影响声纹识别的判定效果。说话人改变检测目前的方法主要有基于距离度量及基于模型搜索，两类方法都是基于声学特征衡量两段音频间的差异，基于差异度与系统设置的阈值进行比较，判断两段音频是否只有一个说话人，若差异度大于阈值，则认为当前片段内存在转换点，反之则无。基于距离度量的方法无需训练模型，计算过程简单，速度较快，但设置的阈值难以确定。而模型搜索多适用于集内说话人的情况，不适用于携程每日大量新进用户的场景。
[0003]通过说话人改变检测，一方面可以定位说话人转变的时间，一方面可以确定该音频是否存在多说话人情况，但不适用于快速变换的场景。在携程通话场景下，需要针对快速变换导致的多说话人片段进行识别。因此本专利技术搭建适用于较短片段且说话人快速变换场景的多说话人识别系统，基于深度学习模型对音频片段进行多说话人识别检测。
[0004]因此，本专利技术提供了一种基于音频流的对话角色分离方法、系统、设备及存储介质。

技术实现思路

[0005]针对现有技术中的问题，本专利技术的目的在于提供基于音频流的对话角色分离方法、系统、设备及存储介质，克服了现有技术的困难，能够基于深度学习模型对音频片段进行多说话人识别检测，准确地剔除多说话人片段，提升声纹质...

【技术保护点】

【技术特征摘要】
1.一种基于音频流的对话角色分离方法，其特征在于，包括以下步骤：S120、将音频流按时序依次分割为音频片段，并将每个所述音频片段以预设窗长A和预设窗移B依次提取特征帧；S130、以每个所述特征帧为中心，整合时序向前以及时序向后的各C个连续相邻特征帧，进行拼合获得声纹检测子片段；S140、基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息；S160、将所述音频流根据所述身份识别信息进行对话角色分离。2.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S120之前，还包括以下步骤：S110、接收基于时序顺序的音频流进行预处理，通过语音活动检测剔除静音及部分噪音。3.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S120中，所述预设窗长A的取值范围是10ms至40ms；所述预设窗移B的取值范围是5ms至20ms。4.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S130中还包括，建立所述音频片段、特征帧以及所述声纹检测子片段的映射关系。5.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140中，基于所述声纹检测子片段逐个通过与预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息。6.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140中，将每间隔预设数量D个声纹检测子片段抽取一所述声纹检测子片段，输入预先训练的帧级别声纹模型进行识别，获得所述声纹检测子片段的说话人的身份识别信息，预设数量D的取值范围是3至10。7.根据权利要求1所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140中，包括以下步骤：S141、基于每个所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别，获得所述音频流的至少一说话人的身份识别信息；S142、判断每个所述音频片段对应的声纹检测子片段中的身份识别信息是否大于等于两个，若是，则执行步骤S143，若否，则执行步骤S145；S143、判断每个所述音频片段对应的所述声纹检测子片段中出现次数最大的身份识别信息所占所述声纹检测子片段总量的百分比是否超过预设阈值E，若是，则执行步骤S144；若否，则执行步骤S145；S144、将出现次数最大的身份识别信息作为所述音频片的身份识别信息；S145、保留所述音频片段的所有身份识别信息。8.根据权利要求7所述的基于音频流的对话角色分离方法，其特征在于，所述步骤S140之后、步骤S160之前，...

【专利技术属性】
技术研发人员：李亚枫，任君，罗超，邹宇，李巍，严丽，
申请(专利权)人：携程旅游信息技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人