基于多人通话的身份识别方法、系统、设备及存储介质技术方案

技术编号:27835591 阅读:20 留言:0更新日期:2021-03-30 11:59
本发明专利技术提供了基于多人通话的身份识别方法、系统、设备及存储介质,该方法包括:将原始对话语音就转换获得第一文本;将具有多位用户参与的对话语音分割为多个对话语句音频;将每个对话语句音频切割为多段子音频和对应每个对话语句音频的第二文本;自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;基于每段子音频的声纹特征信息,获得用户的子音频集合;根据每个子音频集合中子音频所对应的第二文本进行汇总得到第三文本,将第三文本输入身份识别神经网络获得子音频集合对应的预设身份,本发明专利技术能够辅助客服整理多人通话材料,减少工作人员在每通音频上花费的时间,大大减少人力,提高工作效率;提升授权等场景的安全性能。景的安全性能。景的安全性能。

【技术实现步骤摘要】
基于多人通话的身份识别方法、系统、设备及存储介质


[0001]本专利技术涉及语音识别领域,具体地说,涉及基于多人通话的身份识别方法、系统、设备及存储介质。

技术介绍

[0002]多人通话情况复杂,存在各种转接情况,导致一通电话的左声道中出现多个说话人,直接使用该批数据进行模型训练严重影响模型效果,若人工标注,则工作量太大,费时费力,使用本专利技术可以大量减少人力。其次,看音频文本花费的时间远小于听完一通音频,并且在某些情况下倍速听取不可行。
[0003]因此,本专利技术提供了一种基于多人通话的身份识别方法、系统、设备及存储介质。

技术实现思路

[0004]针对现有技术中的问题,本专利技术的目的在于提供基于多人通话的身份识别方法、系统、设备及存储介质,克服了现有技术的困难,能够辅助客服整理多人通话材料,减少工作人员在每通音频上花费的时间,大大减少人力,提高工作效率。
[0005]本专利技术的实施例提供一种基于多人通话的身份识别方法,包括以下步骤:
[0006]S110、将具有多位用户参与的原始对话语音就进行自语音到文字的转换获得第一文本;
[0007]S120、将具有多位用户参与的对话语音进行基于静音抑制检测的分割,获得多个对话语句音频;
[0008]S130、将每个所述对话语句音频根据预设时长为单位切割为多段子音频,基于所述对话语句音频的时序,切割所述第一文本,获得对应每个所述子音频的第二文本;
[0009]S140、自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;
[0010]S150、基于将每段子音频的声纹特征信息进行聚类,获得属于不同用户的所述子音频集合;
[0011]S160、根据每个所述子音频集合中所述子音频所对应的第二文本进行汇总得到第三文本,将所述第三文本输入身份识别神经网络获得所述子音频集合对应的预设身份。
[0012]优选地,所述步骤S130中,将时长不满足预设时长的子音频进行局部复制以使所有所述子音频满足预设时长。
[0013]优选地,所述步骤S150中,通过uisrnn网络获得属于不同用户的所述子音频集合
[0014]优选地,所述步骤S160之后还包括以下步骤:
[0015]S170、获得每个所述预设身份对应的对话语音和对应的第三文本。
[0016]优选地,所述步骤S170之后还包括以下步骤:
[0017]S180、当所述预设身份包括客户和供应商,自所述客户的对话语音对应的第三文本中提取出现次数最多的至少一个关键词,在所述供应商预设的产品库中搜索包含所述关键词的产品。
[0018]优选地,所述原始对话语音具有至少一位用户和多位供应商,所述供应商具有各自的产品库,则自所述客户的对话语音对应的第三文本中提取出现次数最多的至少一个关键词。
[0019]本专利技术的实施例还提供一种基于多人通话的身份识别系统,用于实现上述的基于多人通话的身份识别方法,所述基于多人通话的身份识别系统包括:
[0020]转写模块,将具有多位用户参与的原始对话语音就进行自语音到文字的转换获得第一文本;
[0021]分割模块,将具有多位用户参与的对话语音进行基于静音抑制检测的分割,获得多个对话语句音频;
[0022]切割模块,将每个所述对话语句音频根据预设时长为单位切割为多段子音频,基于所述对话语句音频的时序,切割所述第一文本,获得对应每个所述子音频的第二文本;
[0023]特征模块,自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;
[0024]聚类模块,基于将每段子音频的声纹特征信息进行聚类,获得属于不同用户的所述子音频集合;身份模块,根据每个所述子音频集合中所述子音频所对应的第二文本进行汇总得到第三文本,将所述第三文本输入身份识别神经网络获得所述子音频集合对应的预设身份。
[0025]本专利技术的实施例还提供一种基于多人通话的身份识别设备,包括:
[0026]处理器;
[0027]存储器,其中存储有所述处理器的可执行指令;
[0028]其中,所述处理器配置为经由执行所述可执行指令来执行上述基于多人通话的身份识别方法的步骤。
[0029]本专利技术的实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述基于多人通话的身份识别方法的步骤。
[0030]本专利技术的目的在于提供基于多人通话的身份识别方法、系统、设备及存储介质,能够辅助客服整理多人通话材料,减少工作人员在每通音频上花费的时间,能够自动对多人通话的原始对话语音进行对话的分类和准确的标签标注,便于进行模型训练,避免了人工标注,大大减少人力,提高工作效率。
附图说明
[0031]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显。
[0032]图1是本专利技术的基于多人通话的身份识别方法的流程图。
[0033]图2至4是实施本专利技术的基于多人通话的身份识别方法的过程示意图。
[0034]图5是本专利技术的基于多人通话的身份识别系统的模块示意图。
[0035]图6是本专利技术的基于多人通话的身份识别设备的结构示意图。
[0036]图7是本专利技术一实施例的计算机可读存储介质的结构示意图。
具体实施方式
[0037]现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本专利技术将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
[0038]图1是本专利技术的基于多人通话的身份识别方法的流程图。如图1所示,本专利技术的实施例提供一种基于多人通话的身份识别方法,包括以下步骤:
[0039]S110、将具有多位用户参与的原始对话语音就进行自语音到文字的转换获得第一文本;
[0040]S120、将具有多位用户参与的对话语音进行基于静音抑制检测的分割,获得多个对话语句音频;
[0041]S130、将每个所述对话语句音频根据预设时长为单位切割为多段子音频,基于所述对话语句音频的时序,切割所述第一文本,获得对应每个所述子音频的第二文本;
[0042]S140、自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;
[0043]S150、基于将每段子音频的声纹特征信息进行聚类,获得属于不同用户的所述子音频集合;
[0044]S160、根据每个所述子音频集合中所述子音频所对应的第二文本进行汇总得到第三文本,将所述第三文本输入身份识别神经网络获得所述子音频集合对应的预设身份。
[0045]S170、获得每个所述预设身份对应的对话语音和对应的第三文本。
[0046]S180、当所述预设身份包括客户和供应商,自所述客户的对话语音对应的第三文本中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多人通话的身份识别方法,其特征在于,包括以下步骤:S110、将具有多位用户参与的原始对话语音就进行自语音到文字的转换获得第一文本;S120、将具有多位用户参与的对话语音进行基于静音抑制检测的分割,获得多个对话语句音频;S130、将每个所述对话语句音频根据预设时长为单位切割为多段子音频,基于所述对话语句音频的时序,切割所述第一文本,获得对应每个所述子音频的第二文本;S140、自子音频提取音频特征,输入深度学习网络,获得子音频的声纹特征信息;S150、基于将每段子音频的声纹特征信息进行聚类,获得属于不同用户的所述子音频集合;S160、根据每个所述子音频集合中所述子音频所对应的第二文本进行汇总得到第三文本,将所述第三文本输入身份识别神经网络获得所述子音频集合对应的预设身份。2.根据权利要求1所述的基于多人通话的身份识别方法,其特征在于,所述步骤S130中,将时长不满足预设时长的子音频进行局部复制以使所有所述子音频满足预设时长。3.根据权利要求1所述的基于多人通话的身份识别方法,其特征在于,所述步骤S150中,通过uisrnn网络获得属于不同用户的所述子音频集合。4.根据权利要求1至3中任意一项所述的基于多人通话的身份识别方法,其特征在于,所述步骤S160之后还包括以下步骤:S170、获得每个所述预设身份对应的对话语音和对应的第三文本。5.根据权利要求5所述的基于多人通话的身份识别方法,其特征在于,所述步骤S170之后还包括以下步骤:S180、当所述预设身份包括客户和供应商,自所述客户的对话语音对应的第三文本中提取出现次数最多的至少一个关键词,...

【专利技术属性】
技术研发人员:李亚枫任君罗超胡泓李巍
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1