一种电话声纹识别音频采集和有效音频筛选的方法技术

技术编号：32271438 阅读：15 留言：0更新日期：2022-02-12 19:35

本发明专利技术公开了一种电话声纹识别音频采集和有效音频筛选的方法，首先需要获取大量的处理后的通话录音，进行声纹算法模型训练；其次需要在鉴权过程中提供实时录音音频，从而对通话中的用户身份进行确认；具体步骤主要包括实时录音获取保存和训练识别数据预处理两个过程；其中，实时录音获取保存过程是对实时通话数据包进行转发、解析和存储，训练数据预处理过程包含源数据获取、有效录音获取、数据扩充和提取特征的过程。本发明专利技术解决了声纹识别鉴别在实际的电话场景应用中实时录音数据获取困难以及角色分离的问题，以及解决了声纹模型训练识别数据预处理过程中，导致原始数据处理过后仍然质量较差的情况，显著的提升了通话数据的质量。的质量。的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种电话声纹识别音频采集和有效音频筛选的方法

[0001]本专利技术涉及声纹处理
，具体涉及电话信道的实时录音获取和用于声纹模型训练识别的录音数据预筛选处理方法。

技术介绍

[0002]随着信息技术和人工智能的不断发展，商家提供的服务更加智能化、便捷化，电话端通话对话的交互不拘泥于人和人之前对话，智能语音机器人悄悄兴起。智能语音机器人可以根据服务内容设计既定流程与用户进行交互，为用户带来简单、便捷的深入服务。随着服务内容向个性化、私人定制化发展，无论是人工客服还是智能客服，都不可避免地会触及到用户隐私，为了防止不法分子冒名顶替用户进行操作，需要对用户进行身份确认，也就是鉴权，只有确认了用户身份，才能进一步提供服务。众所周知，一个人的生物特征，比如声纹、指纹、掌纹、人脸、虹膜、手写签名等，可以唯一地确认身份。在应用驱动和通话场景的限制下，利用用户的声纹特征进行用户识别鉴权相较于其他生物识别方式有更大的优势。
[0003]声纹训练识别需要相应的算法和数据支撑，通话场景的鉴权服务需要系统具有高响应性，相较于小度、小爱等智能助手的面对面的声音采集方式，电话信道更加复杂多变，声音信息实时的采集也较为困难，通话双方的角色分离也是一个必须考虑的问题，因此那就带来了单角色通话录音数据实时获取的问题；此外，电话场景下的用户对话存在语速过快、声音过小、通话对话偏简短句等情况，用现有的VAD(语音端点检测)技术直接预处理数据，将会带来数据清洗不干净，或者清洗后的数据时长不够，进而导致声音特征不足问题；同时，现实场景下的通话环...

【技术保护点】

【技术特征摘要】
1.一种电话声纹识别音频采集和有效音频筛选的方法，其特征在于，首先需要获取大量的处理后的通话录音，进行声纹算法模型训练；其次需要在鉴权过程中提供实时录音音频，从而对通话中的用户身份进行确认；具体步骤主要包括实时录音获取保存和训练识别数据预处理两个过程；其中，实时录音获取保存过程是对实时通话数据包进行转发、解析和存储，训练数据预处理过程包含源数据获取、有效录音获取、数据扩充和提取特征的过程。2.根据权利要求1所述的一种电话声纹识别音频采集和有效音频筛选的方法，其特征在于，所述实时录音获取保存过程包括：步骤一、数据流获取；步骤二、数据解析；步骤三、数据转发。3.根据权利要求1或2所述的一种电话声纹识别音频采集和有效音频筛选的方法，其特征在于，所述实时录音获取保存过程具体步骤如下：步骤一：数据流获取，当用户在进行通话，实时通话的数据信息通过一个中心网络交换机进行转发连接，此时一个镜像服务实时从交换机中抓取转发连接的每一通通话的数据包，发往语音服务器；步骤二：数据解析，语音服务器成功接收到抓取转发来的数据包后，对其进行数据解析，解析数据包中的SIP和RTP数据，获得主被叫以及通话流的IP等信息，根据这些信息确定保存的实时语音流文件名称和声道信息，从RTP中获取媒体信息，根据名称并进行保存；步骤三：数据转发，当从其他服务器发来通话录音获取请求以用来模型训练或者实时声纹识别时，则根据主被叫和日期时间信息获取实时录音文件，进行数据转发。4.根据权利要求3所述的一种电话声纹识别音频采集和有效音频筛选的方法，其特征在于，所述步骤二中，先根据SIP协议确认通话状态，确认会话建立之后，开始实时语音流获取保存；根据SIP协议中的主被叫IP信息，结合RTP中的数据源IP信息和数据目的IP信息判断通话音轨，获取媒体信息，将声音流生成实时的单通道录音。5.根据权利要求1所述的一种电话声纹识别音频采集和有效音频筛选的方法，其特征在于，所述训练识别数据预处理过程包括：步骤一、源数据准备；步骤二、静音和底噪切除；步骤三、时长检测；步骤四、ASR辅助筛选；步骤五、数据扩充；步骤六、训练识别数据准备；步骤七、声纹特征提取；步骤八、模型训练；步骤九、模型识别。6.根据权利要求1或5所述的一种电话声纹识别音频采集和有效音频筛选的方法，其特征在于，所述训练数据预处理过程具体步骤如下：步骤一：源数据准备，在用户被告知的情况下对用户的电话通话录音进行获取并处理，每位用户留存一条以用户的号码命名的通话录音，并且本条通话录音是只包含用...

【专利技术属性】
技术研发人员：陈萍，施道平，袁哲，陈辉，
申请(专利权)人：江苏号百信息服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人