一种声纹特征模型更新方法及终端技术

技术编号:7935742 阅读:218 留言:0更新日期:2012-11-01 05:44
本发明专利技术适用于语音识别技术领域,提供了一种声纹特征模型更新方法及终端,所述方法包括:获取包含至少一个说话者的原始音频流;根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流;将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流;将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。本发明专利技术通过自适应提取通话过程中的有效音频流作为追加的音频流训练样本,用以动态修正原有的声纹特征模型,达到了在保证较高的实用性的前提下,提高声纹特征模型精确度及识别准确率的目的。

【技术实现步骤摘要】

本专利技术属于语音识别
,尤其涉及ー种声纹特征模型更新方法及終端。
技术介绍
声纹识别是ー种利用人的声音实现的识别技术,由于人在讲话时使用的发声器官存在一定的差异性,任何两个人声音的声纹图谱都有差异,所以声纹可以作为表征个体差异的生物特征,也即可以通过建立声纹特征模型来表征不同的个体,进而利用该声纹特征模型进行识别不同的个体等。目前声纹特征模型的应用存在一个两难的选择,主要体现在训练语料的长度选取上,一般而言,声纹训练语料越长,建立的特征模型越精确,识别准确率越高,但是实用性不强;声纹训练语料较短,能保证较好的实用性,但识别准确率不高。而在实际应用中,比如手机屏幕声纹解锁的应用等,既要求有较高的识别准确率,以满足安全性,又要求训练语料不能太长,以保证较好的实用性。现有的声纹特征模型建立方法是通过在声纹注册阶段,由用户手动多次训练,每次训练均为短语料,最终将他们组合成较长的训练语料来生成特征模型。然而,由用户手动多次录入一定时长的训练语料,会给用户较差的体验,不具备较高的实用性;组合起来的训练语料长度仍然有限,不能生成较精确的特征模型,识别准确率无法进ー步提升;语速语调的变化、情绪波动等也都会影响模型建立的精确度。所以,如何在保证较高的实用性前提下,提高声纹特征模型精确度,进而提高识别准确率是急需解决的问题。
技术实现思路
本专利技术实施例的目的在于提供ー种声纹特征模型更新方法及終端,g在解决利用现有方法获取声纹特征模型时,无法保证在较高的实用性前提下,提高声纹特征模型精确度,导致利用该声纹特征模型无法提高识别准确率的问题。第一方面,所述声纹特征模型更新方法包括获取包含至少ー个说话者的原始音频流;根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每ー个说话者的分别的音频流;将所述至少ー个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流;将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。在第一方面的第一种可能的实现方式中,在所述获取包含至少ー个说话者的原始音频流之前还包括根据预设的音频流训练样本建立原始声纹特征模型。结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每ー个说话者的分别的音频流具体包括根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息;根据预设的说话人聚类算法,将所述仅包含所述至少ー个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个、说话者音频信息的音频流。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述将所述至少一个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流具体包括根据所述至少一个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取所述至少ー个说话者中每ー个说话者的音频流与所述原始声纹特征模型的匹配度;选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式或第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声 纹特征模型进行更新具体包括根据所述匹配成功的音频流以及预设的音频流训练样本,生成修正声纹特征模型;其中,所述预设的音频流训练样本为生成所述原始声纹特征模型的音频流;更新所述原始声纹特征模型为所述修正声纹特征模型。第二方面,所述终端包括原始音频流获取単元、分割与聚类单元、匹配単元以及模型更新単元,其中所述原始音频流获取単元,用于获取包含至少ー个说话者的原始音频流并发送给所述分割与聚类单元;所述分割与聚类单元,用于接收所述原始音频流获取単元发送的原始音频流并根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每ー个说话者的分别的音频流,并将所述至少一个说话者中每ー个说话者的分别的音频流发送给所述匹配単元;所述匹配単元,用于接收所述分割与聚类单元发送的所述至少一个说话者中每ー个说话者的分别的音频流,且将所述至少一个说话者中每ー个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流,并将所述匹配成功的音频流发送给所述模型更新単元;以及所述模型更新単元,用于接收所述匹配单元发送的所述匹配成功的音频流,并将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。在第二方面的第一种可能的实现方式中,所述终端还包括样本获取单元以及原始模型建立単元所述样本获取单元,用于获取预设的音频流训练样本并发送给所述原始模型建立単元;以及所述原始模型建立単元,用于接收所述样本获取单元发送的所述预设的音频流训练样本并根据所述预设的音频流训练样本建立原始声纹特征模型。结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述分割与聚类单元具体包括分割单元以及聚类单元所述分割単元,用于根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息,并将所述仅包含所述至少一个说话者中同一个说话者的音频片段发送给所述聚类単元;以及所述聚类単元,用于接收所述分割单元发送的所述仅包含所述至少一个说话者中同一个说话者的音频片段,井根据预设的说话人聚类算法,将所述仅包含所述至少一个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个说话者音频信息的音频流。结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述匹配単元具体包括匹配度获取单元以及匹配音频流获取単元所述匹配度获取单元,用于根据所述至少一个说话者中每ー个说话者的音频流以及原始声纹特征模型,获取所述至少一个说话者中每ー个说话者的音频流与所述原始声纹特征模型的匹配度并将所述匹配度发送至所述匹配音频流获取単元;以及所述匹配音频流获取単元,用于接收所述匹配度获取单元发送的所述至少一个说话者中每ー个说话者的音频流与所述原始声纹特征模型的匹配度,选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式或第二方面的第三种可能的实现方式,在第四种可能的实现方式中,所述模型更新単元具体包括修正模型获取单元以及模型更新子単元所述修正模型获取单元,用于根据所述匹配成功的音频流以及所述预设的音频流训练样本,生成并发送修正声纹特征模型至所述模型更新子単元;以及所述模型更新子単元,用于接收所述修正模型获取单元发送的所述修正声纹特征模型,更新所述原始声纹特征模型为所述修正声纹特征模型。 本专利技术实施例通过本文档来自技高网...

【技术保护点】
一种声纹特征模型更新方法,其特征在于,所述方法包括:获取包含至少一个说话者的原始音频流;根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流;将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流;将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。

【技术特征摘要】
1.一种声纹特征模型更新方法,其特征在于,所述方法包括 获取包含至少一个说话者的原始音频流; 根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流; 将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流; 将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新。2.如权利要求I所述的方法,其特征在于,所述方法在获取包含至少一个说话者的原始音频流之前还包括 根据预设的音频流训练样本建立原始声纹特征模型。3.如权利要求I或2所述的方法,其特征在于,所述根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流具体包括 根据预设的说话人分割算法,将所述原始音频流分割成多个音频片段,所述多个音频片段中的每一音频片段仅包含所述至少一个说话者中同一个说话者的音频信息; 根据预设的说话人聚类算法,将所述仅包含所述至少一个说话者中同一个说话者的音频片段进行聚类,生成所述仅包含所述至少一个说话者中同一个说话者音频信息的音频流。4.如权利要求1-3中任意一项所述的方法,其特征在于,所述将所述至少一个说话者中每一个说话者的分别的音频流分别与原始声纹特征模型进行匹配,获取匹配成功的音频流具体包括 根据所述至少一个说话者中每一个说话者的音频流以及原始声纹特征模型,获取所述至少一个说话者中每一个说话者的音频流与所述原始声纹特征模型的匹配度; 选取所述匹配度最高且大于预设匹配阈值的匹配度所对应的音频流来作为匹配成功的音频流。5.如权利要求1-4中任意一项所述的方法,其特征在于,所述将所述匹配成功的音频流作为生成所述原始声纹特征模型的追加音频流训练样本,对所述原始声纹特征模型进行更新具体包括 根据所述匹配成功的音频流以及预设的音频流训练样本,生成修正声纹特征模型;其中,所述预设的音频流训练样本为生成所述原始声纹特征模型的音频流; 更新所述原始声纹特征模型为所述修正声纹特征模型。6.一种终端,其特征在于,所述终端包括原始音频流获取单元、分割与聚类单元、匹配单元以及模型更新单元,其中 所述原始音频流获取单元,用于获取包含至少一个说话者的原始音频流并发送给所述分割与聚类单元; 所述分割与聚类单元,用于接收所述原始音频流获取单元发送的原始音频流并根据预设的说话人分割与聚类算法,获取所述原始音频流中所述至少一个说话者中每一个说话者的分别的音频流,并将所述至少一个说话者中每一个说话者的分别的音频流发送给所述匹配单元; 所述匹配...

【专利技术属性】
技术研发人员:卢霆
申请(专利权)人:华为终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1