一种电话声纹识别音频采集和有效音频筛选的方法技术

技术编号:32271438 阅读:15 留言:0更新日期:2022-02-12 19:35
本发明专利技术公开了一种电话声纹识别音频采集和有效音频筛选的方法,首先需要获取大量的处理后的通话录音,进行声纹算法模型训练;其次需要在鉴权过程中提供实时录音音频,从而对通话中的用户身份进行确认;具体步骤主要包括实时录音获取保存和训练识别数据预处理两个过程;其中,实时录音获取保存过程是对实时通话数据包进行转发、解析和存储,训练数据预处理过程包含源数据获取、有效录音获取、数据扩充和提取特征的过程。本发明专利技术解决了声纹识别鉴别在实际的电话场景应用中实时录音数据获取困难以及角色分离的问题,以及解决了声纹模型训练识别数据预处理过程中,导致原始数据处理过后仍然质量较差的情况,显著的提升了通话数据的质量。的质量。的质量。

【技术实现步骤摘要】
一种电话声纹识别音频采集和有效音频筛选的方法


[0001]本专利技术涉及声纹处理
,具体涉及电话信道的实时录音获取和用于声纹模型训练识别的录音数据预筛选处理方法。

技术介绍

[0002]随着信息技术和人工智能的不断发展,商家提供的服务更加智能化、便捷化,电话端通话对话的交互不拘泥于人和人之前对话,智能语音机器人悄悄兴起。智能语音机器人可以根据服务内容设计既定流程与用户进行交互,为用户带来简单、便捷的深入服务。随着服务内容向个性化、私人定制化发展,无论是人工客服还是智能客服,都不可避免地会触及到用户隐私,为了防止不法分子冒名顶替用户进行操作,需要对用户进行身份确认,也就是鉴权,只有确认了用户身份,才能进一步提供服务。众所周知,一个人的生物特征,比如声纹、指纹、掌纹、人脸、虹膜、手写签名等,可以唯一地确认身份。在应用驱动和通话场景的限制下,利用用户的声纹特征进行用户识别鉴权相较于其他生物识别方式有更大的优势。
[0003]声纹训练识别需要相应的算法和数据支撑,通话场景的鉴权服务需要系统具有高响应性,相较于小度、小爱等智能助手的面对面的声音采集方式,电话信道更加复杂多变,声音信息实时的采集也较为困难,通话双方的角色分离也是一个必须考虑的问题,因此那就带来了单角色通话录音数据实时获取的问题;此外,电话场景下的用户对话存在语速过快、声音过小、通话对话偏简短句等情况,用现有的VAD(语音端点检测)技术直接预处理数据,将会带来数据清洗不干净,或者清洗后的数据时长不够,进而导致声音特征不足问题;同时,现实场景下的通话环境并非安静的录音棚环境,常常伴有大量噪音,简单的VAD常常不能很好地对通话录音进行静音切割,会保留大量杂音,这些都是影响声纹模型训练识别结果的重要因素,因此需要对这部分数据进行预筛选。同时,如何获取实时通话录音,接着采取一些筛选预处理策略以提高声纹模型训练识别的通话录音数据质量成了一个亟待解决的问题。

技术实现思路

[0004]本专利技术的目的是提供一种电话声纹识别音频采集和有效音频筛选的方法,具体是设计一个电话场景下,单角色通话录音数据实时获取并进行预处理筛取以用作声纹模型的训练和识别鉴别的等任务方法;本方法一是通过部署一个镜像服务器实时获取通话过程中发送的SIP、RTP数据包,从中解析并根据主被叫通话方向生成实时录音文件,解决声纹识别鉴别在实际的电话场景应用中实时录音数据获取困难以及角色分离的问题;二是利用ASR辅助筛选与减加噪相结合的方法解决了声纹模型训练识别数据预处理过程中,因为存在环境噪音、音频频率不匹配、用户说话习惯等情况,导致原始数据处理过后仍然质量较差的情况,显著提升通话数据的质量。
[0005]本专利技术采取的技术方案是:一种电话声纹识别音频采集和有效音频筛选的方法,首先需要获取大量的处理后的通话录音,进行声纹算法模型训练;其次需要在鉴权过程中
提供实时录音音频,从而对通话中的用户身份进行确认;具体步骤主要包括实时录音获取保存和训练识别数据预处理两个过程;其中,实时录音获取保存过程是对实时通话数据包进行转发、解析和存储,训练数据预处理过程包含源数据获取、有效录音获取、数据扩充和提取特征的过程。
[0006]进一步的,所述实时录音获取保存过程包括:步骤一、数据流获取;步骤二、数据解析;步骤三、数据转发;具体步骤如下:
[0007]步骤一:数据流获取,当用户在进行通话,实时通话的数据信息通过一个中心网络交换机进行转发连接,此时一个镜像服务实时从交换机中抓取转发连接的每一通通话的数据包,发往语音服务器;
[0008]步骤二:数据解析,语音服务器成功接收到抓取转发来的数据包后,对其进行数据解析,解析数据包中的SIP和RTP数据,获得主被叫以及通话流的IP等信息,根据这些信息确定保存的实时语音流文件名称和声道信息,从RTP中获取媒体信息,根据名称并进行保存;
[0009]步骤三:数据转发,当从其他服务器发来通话录音获取请求以用来模型训练或者实时声纹识别时,则根据主被叫和日期时间信息获取实时录音文件,进行数据转发。
[0010]更进一步的,所述步骤二中,先根据SIP协议确认通话状态,确认会话建立之后,开始实时语音流获取保存;根据SIP协议中的主被叫IP信息,结合RTP中的数据源IP信息和数据目的IP信息判断通话音轨,获取媒体信息,将声音流生成实时的单通道录音。
[0011]进一步的,所述训练识别数据预处理过程包括:步骤一、源数据准备;步骤二、静音和底噪切除;步骤三、时长检测;步骤四、ASR辅助筛选;步骤五、数据扩充;步骤六、训练识别数据准备;步骤七、声纹特征提取;步骤八、模型训练;步骤九、模型识别;具体步骤如下:
[0012]步骤一:源数据准备,在用户被告知的情况下对用户的电话通话录音进行获取并处理,每位用户留存一条以用户的号码命名的通话录音,并且本条通话录音是只包含用户对话声音的单通道文件,对录音进行检查,将通话录音格式转为wav文件,进入步骤二;
[0013]步骤二:静音和底噪切除,对录音进行静音检测操作,去除每段通话录音中大段的静音;检测录音中小于阈值且持续超过时长的底噪录音,将该部分切除,接着将去除静音和底噪的录音进行合并,进入步骤三;
[0014]步骤三:时长检测,检测去静音去噪音后的录音时长t
wav
,检测通话录音时长是否超过阈值τ,保证样本的长度,时长不满足需求的直接筛除,时常满足阈值要求则进入步骤四;
[0015]步骤四:对上一步筛选的通话录音进行ASR辅助检测,主要对录音的语速和内容进行检测;检测筛选出的录音文件,如果是训练声纹模型,则进入步骤五进行数据扩充,如果是声纹识别鉴权,则进入步骤六继续进行预处理;
[0016]步骤五:数据扩充,将步骤四中获得的由若干说话人录音组成的训练语料进行加噪处理,按照比例在训练语料中加入混响或者一定信噪比的自然噪音,得到混合训练语料,进入步骤六;
[0017]步骤六:训练识别数据准备,将每条录音进行数据频率转换并进行等份额切割,取固定个数的切割后的通话录音片段,获得准备好的样本,进入步骤七;
[0018]步骤七:对每个通话录音片段进行分帧,并提取其MFCC特征,模型训练进入步骤八,模型识别进入步骤九;
[0019]步骤八:模型训练,将准备好的通话录音特征输入模型,进行迭代训练,直至算法收敛;
[0020]步骤九:模型识别,将通话人注册通话录音的特征和实时通话特征输入模型,识别是否为同一个人,并将结果返回。
[0021]更进一步的,所述步骤四中,翻译录音,得到翻译的字数w
trans
,根据w
trans
和通话录音时间t
wav
来筛选掉通话录音中语速过快/慢的录音,以及非正常对话的通话录音;
[0022]首先计算语音速率s
wav

[0023][0024]挑选出语速s
wav
∈[3,5)的通话录音;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电话声纹识别音频采集和有效音频筛选的方法,其特征在于,首先需要获取大量的处理后的通话录音,进行声纹算法模型训练;其次需要在鉴权过程中提供实时录音音频,从而对通话中的用户身份进行确认;具体步骤主要包括实时录音获取保存和训练识别数据预处理两个过程;其中,实时录音获取保存过程是对实时通话数据包进行转发、解析和存储,训练数据预处理过程包含源数据获取、有效录音获取、数据扩充和提取特征的过程。2.根据权利要求1所述的一种电话声纹识别音频采集和有效音频筛选的方法,其特征在于,所述实时录音获取保存过程包括:步骤一、数据流获取;步骤二、数据解析;步骤三、数据转发。3.根据权利要求1或2所述的一种电话声纹识别音频采集和有效音频筛选的方法,其特征在于,所述实时录音获取保存过程具体步骤如下:步骤一:数据流获取,当用户在进行通话,实时通话的数据信息通过一个中心网络交换机进行转发连接,此时一个镜像服务实时从交换机中抓取转发连接的每一通通话的数据包,发往语音服务器;步骤二:数据解析,语音服务器成功接收到抓取转发来的数据包后,对其进行数据解析,解析数据包中的SIP和RTP数据,获得主被叫以及通话流的IP等信息,根据这些信息确定保存的实时语音流文件名称和声道信息,从RTP中获取媒体信息,根据名称并进行保存;步骤三:数据转发,当从其他服务器发来通话录音获取请求以用来模型训练或者实时声纹识别时,则根据主被叫和日期时间信息获取实时录音文件,进行数据转发。4.根据权利要求3所述的一种电话声纹识别音频采集和有效音频筛选的方法,其特征在于,所述步骤二中,先根据SIP协议确认通话状态,确认会话建立之后,开始实时语音流获取保存;根据SIP协议中的主被叫IP信息,结合RTP中的数据源IP信息和数据目的IP信息判断通话音轨,获取媒体信息,将声音流生成实时的单通道录音。5.根据权利要求1所述的一种电话声纹识别音频采集和有效音频筛选的方法,其特征在于,所述训练识别数据预处理过程包括:步骤一、源数据准备;步骤二、静音和底噪切除;步骤三、时长检测;步骤四、ASR辅助筛选;步骤五、数据扩充;步骤六、训练识别数据准备;步骤七、声纹特征提取;步骤八、模型训练;步骤九、模型识别。6.根据权利要求1或5所述的一种电话声纹识别音频采集和有效音频筛选的方法,其特征在于,所述训练数据预处理过程具体步骤如下:步骤一:源数据准备,在用户被告知的情况下对用户的电话通话录音进行获取并处理,每位用户留存一条以用户的号码命名的通话录音,并且本条通话录音是只包含用...

【专利技术属性】
技术研发人员:陈萍施道平袁哲陈辉
申请(专利权)人:江苏号百信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1