用于处理语音数据的方法和装置制造方法及图纸

技术编号:15507935 阅读:148 留言:0更新日期:2017-06-04 02:25
本申请公开了用于处理语音数据的方法和装置。该方法的一具体实施方式包括:接收用户终端发送的语音数据;提取语音数据中的声纹特征向量;将声纹特征向量与预先存储的用户的注册声纹向量进行匹配,并生成声纹特征向量与注册声纹向量之间的匹配度;确定匹配度是否大于等于预设的更新阈值;响应于确定出匹配度大于等于预设的更新阈值,则利用声纹特征向量和语音数据更新注册声纹向量。该实施方式提高了用户的注册声纹向量的准确度。

Method and apparatus for processing voice data

Methods and apparatus for processing voice data are disclosed herein. One embodiment of the method includes: receiving the voice data transmitted by the user terminal; voiceprint extraction vector voice data; matching voice voiceprint feature vector and the vector register pre stored user, and generates a voiceprint feature vector and registered to the matching degree between the amount of voiceprint; determine the matching degree is greater than the threshold update is equal to the preset; in response to determining the matching degree is greater than or equal to the preset threshold update, using voiceprint feature vector and voice data update registration voiceprint vector. The implementation of ways to improve the registration accuracy of the user's voiceprint vector.

【技术实现步骤摘要】
用于处理语音数据的方法和装置
本申请涉及计算机
,具体涉及数据处理
,尤其涉及用于处理语音数据的方法和装置。
技术介绍
近年来,声纹识别这种新兴的生物识别手段因其安全便利性受到了很大关注。声纹识别是基于不同人的发声器官例如肺、气管、声带、口腔、鼻腔、咽腔等在尺寸和形态方面存在的生理差异,利用每个人语音中包含的独特信息,进行个人身份的识别和验证。但是现实中,每个人的语音声学特征并非绝对的、一成不变的,而是受到所处环境、使用设备等外界因素和个人身体状况、情绪波动、言语风格变化等内在因素等共同影响变化的。另外研究表明,人的语音声学特征还会随着年龄增长而出现变化。因此,对用户声纹特征的动态变化进行追踪,使得用户的声纹模型能根据新增声音样本进行自适应更新,这对于提升声纹识别系统的性能具有至关重要的意义。目前,对用户进行身份验证时通常使用的是根据用户在注册时输入的语音数据所生成声纹模型,但是这种模型不能进行自适应更新,随着时间的推移,这种验证用户身份的方法会导致验证结果不准确。
技术实现思路
本申请的目的在于提出一种改进的用于处理语音数据的方法和装置,来解决以上背景技术部分提到的技术问题本文档来自技高网...
用于处理语音数据的方法和装置

【技术保护点】
一种用于处理语音数据的方法,其特征在于,所述方法包括:接收用户终端发送的语音数据;提取所述语音数据中的声纹特征向量;将所述声纹特征向量与预先存储的所述用户的注册声纹向量进行匹配,并生成所述声纹特征向量与所述注册声纹向量之间的匹配度;确定所述匹配度是否大于等于预设的更新阈值;响应于确定出所述匹配度大于等于预设的更新阈值,则利用所述声纹特征向量和所述语音数据更新所述注册声纹向量。

【技术特征摘要】
1.一种用于处理语音数据的方法,其特征在于,所述方法包括:接收用户终端发送的语音数据;提取所述语音数据中的声纹特征向量;将所述声纹特征向量与预先存储的所述用户的注册声纹向量进行匹配,并生成所述声纹特征向量与所述注册声纹向量之间的匹配度;确定所述匹配度是否大于等于预设的更新阈值;响应于确定出所述匹配度大于等于预设的更新阈值,则利用所述声纹特征向量和所述语音数据更新所述注册声纹向量。2.根据权利要求1所述的方法,其特征在于,所述提取所述语音数据中的声纹特征向量,包括:将所述语音数据导入预先训练的全局背景模型中进行映射得到中间向量;将所述中间向量进行特征变换得到声纹特征向量。3.根据权利要求1所述的方法,其特征在于,在所述将所述声纹特征向量与预先存储的所述用户的注册声纹向量进行匹配之前,所述方法还包括生成注册声纹向量的步骤,包括:获取所述用户输入的预设数目个注册语音数据;将所述预设数目个注册语音数据导入预先训练的全局背景模型中进行映射得到预设数目个等长的中间向量;对所述预设数目个等长的中间向量进行特征变换得到预设数目个注册声纹特征向量;对所述预设数目个注册声纹特征向量进行融合,生成所述用户的注册声纹向量。4.根据权利要求1所述的方法,其特征在于,所述利用所述声纹特征向量和所述语音数据更新所述注册声纹向量包括:获取用户输入的注册语音数据的数量和所述用户已存储的各个声纹特征向量;根据所述用户已存储的各个声纹特征向量、所述用户已存储的语音数据的数量、所述注册语音数据的数量和所述注册声纹向量,更新注册声纹向量。5.根据权利要求4所述的方法,其特征在于,所述根据所述用户已存储的各个声纹特征向量、所述用户已存储的语音数据的数量、所述注册语音数据的数量和所述注册声纹向量,更新注册声纹向量,包括:对所述用户已存储的各个声纹特征向量进行数据标准化运算,并对数据标准化运算后的向量进行求和运算,得到所述用户已存储的声纹特征向量之和;利用所述注册语音数据的数量乘以所述注册声纹向量,得到注册声纹向量之积;计算所述声纹特征向量之和与所述注册声纹向量之积的向量和,并计算所述用户已存储的语音数据的数量与所述注册语音数据的数量的数量和,利用所述向量和除以所述数量和得到更新的注册声纹向量。6.根据权利要求4所述的方法,其特征在于,在所述更新注册声纹向量之后,所述方法包括:删除所述用户已存储的语音数据。7.根据权利要求3所述的方法,其特征在于,所述获取所述用户输入的预设数目个注册语音数据,包括:获取所述用户已存储的语音数据以及所述语音数据的相关信息,其中,所述相关信息包括语音数据的输入时间点;删除所述输入时间点早于预设的时间分割点的语音数据,并将删除后的语音数据作为注册语音数据。8.根据权利要求3所述的方法,其特征在于,所述获取所述用户输入的预设数目个注册语音数据,还包括:利用聚类算法对所述用户已存储的语音数据进行聚类,生成至少一个已存储的语音数据的簇;获取各个簇的中心点;利用距离算法计算每个已存储的语音数据与每个已存储的语音数据所在簇的中心点的距离;删除所述距离大于预设的距离阈值的语音数据,并将删除后的语音数据作为注册语音数据。9.根据权利要求8所述的方法,其特征在于,所述相关信息还包括以下至少一项:语音数据的采集设备类型、语音数据的输入地点;以及在所述生成至少一个已存储的语音数据的簇之后,所述方法还包括:获取各个簇中的语音数据以及所述各个簇中的语音数据的相关信息;利用各个簇的语音数据重新生成所述用户的各个注册声纹向量,并根据所述各个簇的语音数据的相关信息生成各个注册声纹向量的相关信息。10.根据权利要求9所述的方法,其特征在于,在所述接收用户终端发送的语音数据之后,所述方法还包括:获取所述语音数据的相关信息;以及所述将所述声纹特征向量与预先生成的所述用户的注册声纹向量进行匹配,包括:根据所述语音数据的相关信息与各个注册声纹向量的相关信息的匹配度,选择注册声纹向量;将所述声纹特征向量与选择的注册声纹向量进行匹配。11.根据权利要求1所述的方法,其特征在于,在所述生成所述声纹特征向量与所述注册声纹向量之间的匹配度之后,所述方法还包括:确定所述匹配度是否大于等于预设的通过阈值;响应于确定出所述匹配度大于等于预设的通过阈值,则确定用户身份验证通过并执行与验证通过相对应的操作。12.一种用于处理语音数据的装...

【专利技术属性】
技术研发人员:叶璨彭艺宇
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1