基于音频流的对话角色分离方法、系统、设备及存储介质技术方案

技术编号:32968844 阅读:40 留言:0更新日期:2022-04-09 11:30
本发明专利技术提供了基于音频流的对话角色分离方法、系统、设备及存储介质,该方法包括:将音频流按时序依次分割为音频片段,并将每个音频片段以预设窗长A和预设窗移B依次提取特征帧;以每个特征帧为中心,整合时序向前以及时序向后的各C个连续相邻特征帧,进行拼合获得声纹检测子片段;基于声纹检测子片段通过与预先训练的帧级别声纹模型进行识别,获得声纹检测子片段的说话人的身份识别信息;将音频流根据身份识别信息进行对话角色分离。本发明专利技术能够基于深度学习模型对音频片段进行多说话人识别检测,准确地剔除多说话人片段,提升声纹质量,从而提升声纹识别效果。而提升声纹识别效果。而提升声纹识别效果。

【技术实现步骤摘要】
基于音频流的对话角色分离方法、系统、设备及存储介质


[0001]本专利技术涉及AI语音领域,具体地说,涉及基于音频流的对话角色分离方法、系统、设备及存储介质。

技术介绍

[0002]目前,声纹识别效果依赖于声纹库质量。目前声纹库内存在多说话人片段,声纹质量较差,影响声纹识别的判定效果。说话人改变检测目前的方法主要有基于距离度量及基于模型搜索,两类方法都是基于声学特征衡量两段音频间的差异,基于差异度与系统设置的阈值进行比较,判断两段音频是否只有一个说话人,若差异度大于阈值,则认为当前片段内存在转换点,反之则无。基于距离度量的方法无需训练模型,计算过程简单,速度较快,但设置的阈值难以确定。而模型搜索多适用于集内说话人的情况,不适用于携程每日大量新进用户的场景。
[0003]通过说话人改变检测,一方面可以定位说话人转变的时间,一方面可以确定该音频是否存在多说话人情况,但不适用于快速变换的场景。在携程通话场景下,需要针对快速变换导致的多说话人片段进行识别。因此本专利技术搭建适用于较短片段且说话人快速变换场景的多说话人识别系统,基于深度学习模型对音频片段进行多说话人识别检测。
[0004]因此,本专利技术提供了一种基于音频流的对话角色分离方法、系统、设备及存储介质。

技术实现思路

[0005]针对现有技术中的问题,本专利技术的目的在于提供基于音频流的对话角色分离方法、系统、设备及存储介质,克服了现有技术的困难,能够基于深度学习模型对音频片段进行多说话人识别检测,准确地剔除多说话人片段,提升声纹质量,从而提升声纹识别效果。
[0006]本专利技术的实施例提供一种基于音频流的对话角色分离方法,包括以下步骤:
[0007]S120、将音频流按时序依次分割为音频片段,并将每个所述音频片段以预设窗长A和预设窗移B依次提取特征帧;
[0008]S130、以每个所述特征帧为中心,整合时序向前以及时序向后的各C个连续相邻特征帧,进行拼合获得声纹检测子片段;
[0009]S140、基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息;
[0010]S160、将所述音频流根据所述身份识别信息进行对话角色分离。
[0011]优选地,所述步骤S120之前,还包括以下步骤:
[0012]S110、接收基于时序顺序的音频流进行预处理,通过语音活动检测剔除静音及部分噪音。
[0013]优选地,所述步骤S120中,所述预设窗长A的取值范围是10ms至40ms;所述预设窗移B的取值范围是5ms至20ms。
[0014]优选地,所述步骤S130中还包括,建立所述音频片段、特征帧以及所述声纹检测子片段的映射关系。
[0015]优选地,所述步骤S140中,基于所述声纹检测子片段逐个通过与预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息。
[0016]优选地,所述步骤S140中,将每间隔预设数量D个声纹检测子片段抽取一所述声纹检测子片段,输入预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息,预设数量D的取值范围是3至10。
[0017]优选地,所述步骤S140中,包括以下步骤:
[0018]S141、基于每个所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别,获得所述音频流的至少一说话人的身份识别信息;
[0019]S142、判断每个所述音频片段对应的声纹检测子片段中的身份识别信息是否大于等于两个,若是,则执行步骤S143,若否,则执行步骤S145;
[0020]S143、判断每个所述音频片段对应的所述声纹检测子片段中出现次数最大的身份识别信息所占所述声纹检测子片段总量的百分比是否超过预设阈值E,若是,则执行步骤S144;若否,则执行步骤S145;
[0021]S144、将出现次数最大的身份识别信息作为所述音频片的身份识别信息;
[0022]S145、保留所述音频片段的所有身份识别信息。
[0023]优选地,所述步骤S140之后、步骤S160之前,还包括以下步骤:
[0024]S150、基于每个所述音频片段与附近的音频片段的身份识别信息基于连续性进行平滑处理。
[0025]优选地,所述步骤S150中,包括以下步骤:
[0026]S151、依时序前后判断当前音频片段与前、后相邻的F个连续的音频片段组成的音频片段集合的身份识别信息不同的比例是否大于预设阈值G,若是,则执行步骤S160;若否,则执行步骤S152;
[0027]S152、将所述音频片段集合中出现次数最多的身份识别信息作为所述当前音频片段的身份识别信息,执行步骤S160。
[0028]优选地,所述步骤S160中,包括以下步骤:
[0029]分别根据每个所述身份识别信息按时序抽取仅具有唯一所述身份识别信息的音频片段形成所述身份识别信息对应的对话角色的子音频流。
[0030]优选地,所述步骤S160中,还包括:
[0031]当具有两个身份识别信息的身份识别信息组合的所述音频片段满足其前后相邻的两个音频片段分别具有所述身份识别信息组合中的不同身份识别信息时,则将所述具有所述身份识别信息组合的所述音频片段对应的时序点作为不同对话角色之间切换的转换点。
[0032]优选地,所述步骤S160中,包括以下步骤:
[0033]将所述转换点分别加入与所述转换点的两个身份识别信息分别对应的子音频流中。
[0034]本专利技术的实施例还提供一种基于音频流的对话角色分离系统,用于实现上述的基于音频流的对话角色分离方法,所述基于音频流的对话角色分离系统包括:
[0035]提取特征帧模块,将音频流按时序依次分割为音频片段,并将每个所述音频片段以预设窗长A和预设窗移B依次提取特征帧;
[0036]声纹子片段模块,以每个所述特征帧为中心,整合时序向前以及时序向后的各C个连续相邻特征帧,进行拼合获得声纹检测子片段;
[0037]身份识别信息模块,基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息;
[0038]对话角色分离模块,将所述音频流根据所述身份识别信息进行对话角色分离。
[0039]本专利技术的实施例还提供一种基于音频流的对话角色分离设备,包括:
[0040]处理器;
[0041]存储器,其中存储有所述处理器的可执行指令;
[0042]其中,所述处理器配置为经由执行所述可执行指令来执行上述基于音频流的对话角色分离方法的步骤。
[0043]本专利技术的实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述基于音频流的对话角色分离方法的步骤。
[0044]本专利技术的目的在于提供基于音频流的对话角色分离方法、系统、设备及存储介质,能够基于深度学习模型对音频片段进行多说话人识别检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频流的对话角色分离方法,其特征在于,包括以下步骤:S120、将音频流按时序依次分割为音频片段,并将每个所述音频片段以预设窗长A和预设窗移B依次提取特征帧;S130、以每个所述特征帧为中心,整合时序向前以及时序向后的各C个连续相邻特征帧,进行拼合获得声纹检测子片段;S140、基于所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息;S160、将所述音频流根据所述身份识别信息进行对话角色分离。2.根据权利要求1所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S120之前,还包括以下步骤:S110、接收基于时序顺序的音频流进行预处理,通过语音活动检测剔除静音及部分噪音。3.根据权利要求1所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S120中,所述预设窗长A的取值范围是10ms至40ms;所述预设窗移B的取值范围是5ms至20ms。4.根据权利要求1所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S130中还包括,建立所述音频片段、特征帧以及所述声纹检测子片段的映射关系。5.根据权利要求1所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S140中,基于所述声纹检测子片段逐个通过与预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息。6.根据权利要求1所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S140中,将每间隔预设数量D个声纹检测子片段抽取一所述声纹检测子片段,输入预先训练的帧级别声纹模型进行识别,获得所述声纹检测子片段的说话人的身份识别信息,预设数量D的取值范围是3至10。7.根据权利要求1所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S140中,包括以下步骤:S141、基于每个所述声纹检测子片段通过与预先训练的帧级别声纹模型进行识别,获得所述音频流的至少一说话人的身份识别信息;S142、判断每个所述音频片段对应的声纹检测子片段中的身份识别信息是否大于等于两个,若是,则执行步骤S143,若否,则执行步骤S145;S143、判断每个所述音频片段对应的所述声纹检测子片段中出现次数最大的身份识别信息所占所述声纹检测子片段总量的百分比是否超过预设阈值E,若是,则执行步骤S144;若否,则执行步骤S145;S144、将出现次数最大的身份识别信息作为所述音频片的身份识别信息;S145、保留所述音频片段的所有身份识别信息。8.根据权利要求7所述的基于音频流的对话角色分离方法,其特征在于,所述步骤S140之后、步骤S160之前,...

【专利技术属性】
技术研发人员:李亚枫任君罗超邹宇李巍严丽
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1