基于多人通话的身份识别方法、系统、设备及存储介质技术方案

技术编号：27835591 阅读：20 留言：0更新日期：2021-03-30 11:59

本发明专利技术提供了基于多人通话的身份识别方法、系统、设备及存储介质，该方法包括：将原始对话语音就转换获得第一文本；将具有多位用户参与的对话语音分割为多个对话语句音频；将每个对话语句音频切割为多段子音频和对应每个对话语句音频的第二文本；自子音频提取音频特征，输入深度学习网络，获得子音频的声纹特征信息；基于每段子音频的声纹特征信息，获得用户的子音频集合；根据每个子音频集合中子音频所对应的第二文本进行汇总得到第三文本，将第三文本输入身份识别神经网络获得子音频集合对应的预设身份，本发明专利技术能够辅助客服整理多人通话材料，减少工作人员在每通音频上花费的时间，大大减少人力，提高工作效率；提升授权等场景的安全性能。景的安全性能。景的安全性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于多人通话的身份识别方法、系统、设备及存储介质

[0001]本专利技术涉及语音识别领域，具体地说，涉及基于多人通话的身份识别方法、系统、设备及存储介质。

技术介绍

[0002]多人通话情况复杂，存在各种转接情况，导致一通电话的左声道中出现多个说话人，直接使用该批数据进行模型训练严重影响模型效果，若人工标注，则工作量太大，费时费力，使用本专利技术可以大量减少人力。其次，看音频文本花费的时间远小于听完一通音频，并且在某些情况下倍速听取不可行。
[0003]因此，本专利技术提供了一种基于多人通话的身份识别方法、系统、设备及存储介质。

技术实现思路

[0004]针对现有技术中的问题，本专利技术的目的在于提供基于多人通话的身份识别方法、系统、设备及存储介质，克服了现有技术的困难，能够辅助客服整理多人通话材料，减少工作人员在每通音频上花费的时间，大大减少人力，提高工作效率。
[0005]本专利技术的实施例提供一种基于多人通话的身份识别方法，包括以下步骤：
[0006]S110、将具有多位用户参与的原始对话语音就进行自语音到文字的转换获得第一文本；
[0007]S120、将具有多位用户参与的对话语音进行基于静音抑制检测的分割，获得多个对话语句音频；
[0008]S130、将每个所述对话语句音频根据预设时长为单位切割为多段子音频，基于所述对话语句音频的时序，切割所述第一文本，获得对应每个所述子音频的第二文本；
[0009]S140、自子音频提取音频特征，输入深度学习网...

【技术保护点】

【技术特征摘要】
1.一种基于多人通话的身份识别方法，其特征在于，包括以下步骤：S110、将具有多位用户参与的原始对话语音就进行自语音到文字的转换获得第一文本；S120、将具有多位用户参与的对话语音进行基于静音抑制检测的分割，获得多个对话语句音频；S130、将每个所述对话语句音频根据预设时长为单位切割为多段子音频，基于所述对话语句音频的时序，切割所述第一文本，获得对应每个所述子音频的第二文本；S140、自子音频提取音频特征，输入深度学习网络，获得子音频的声纹特征信息；S150、基于将每段子音频的声纹特征信息进行聚类，获得属于不同用户的所述子音频集合；S160、根据每个所述子音频集合中所述子音频所对应的第二文本进行汇总得到第三文本，将所述第三文本输入身份识别神经网络获得所述子音频集合对应的预设身份。2.根据权利要求1所述的基于多人通话的身份识别方法，其特征在于，所述步骤S130中，将时长不满足预设时长的子音频进行局部复制以使所有所述子音频满足预设时长。3.根据权利要求1所述的基于多人通话的身份识别方法，其特征在于，所述步骤S150中，通过uisrnn网络获得属于不同用户的所述子音频集合。4.根据权利要求1至3中任意一项所述的基于多人通话的身份识别方法，其特征在于，所述步骤S160之后还包括以下步骤：S170、获得每个所述预设身份对应的对话语音和对应的第三文本。5.根据权利要求5所述的基于多人通话的身份识别方法，其特征在于，所述步骤S170之后还包括以下步骤：S180、当所述预设身份包括客户和供应商，自所述客户的对话语音对应的第三文本中提取出现次数最多的至少一个关键词，...

【专利技术属性】
技术研发人员：李亚枫，任君，罗超，胡泓，李巍，
申请(专利权)人：携程计算机技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人