声音信号处理的方法技术

技术编号:39770618 阅读:8 留言:0更新日期:2023-12-22 02:21
根据本公开的实施例,提供了声音信号处理的方法

【技术实现步骤摘要】
声音信号处理的方法、装置、设备、介质和程序产品


[0001]本公开的实施例主要涉及信息处理领域,并且更具体地,涉及声音信号处理的方法

装置

设备

计算机可读存储介质和程序产品


技术介绍

[0002]随着人工智能技术的普及,尤其是语音交互的发展,各种搭载语音技术的设备走进人们的生活

其中,能够自动识别说话人身份的声纹识别技术成为智能设备的标配之一

声纹识别技术即说话人语音的识别技术,该技术通过声音信号提取代表说话人身份的相关特征,例如反映声门开合频率的基频特征

反映口腔大小形状及声道长度的频谱特征等,进而通过语音识别用户的身份

[0003]声纹识别包括两个阶段,注册阶段和验证阶段

在注册阶段,生成与用户的身份相对应的声纹特征

在验证阶段,通过用户语音与声纹特征的匹配,识别出当前用户的身份

然而,现有声纹识别方法的识别准确率还不够理想,从而导致不佳的用户体验


技术实现思路

[0004]根据本公开的示例实施例,提供了一种声音信号处理的方案

[0005]在本公开的第一方面中,提供了一种声音信号处理的方法

该方法包括基于至少一个用户的注册语音生成与至少一个用户身份相关联的声纹特征模板,并将声纹特征模板存储在声纹特征库中;将从所接收的用户验证语音中提取的声纹特征与声纹特征库中的声纹特征模板进行比较,以生成比较结果,并且响应于比较结果为提取的验证声纹特征与声纹特征库中的某个声纹特征模板相匹配,确定用户验证语音所对应的用户身份为某个声纹特征模板所关联的用户身份;响应于比较结果为提取的验证声纹特征与声纹特征库中的某个声纹特征模板相匹配,将与用户验证语音有关的语音数据与所确定的用户身份相关联地存储;以及基于所存储的语音数据更新声纹特征库中的声纹特征模板

[0006]在本公开的第二方面中,提供了一种声音信号处理的装置

该装置包括声纹注册模块,被配置为基于至少一个用户的注册语音生成与至少一个用户身份相关联的声纹特征模板,并将声纹特征模板存储在声纹特征库中;声纹验证模块,被配置为将从所接收的用户验证语音中提取的声纹特征与声纹特征库中的声纹特征模板进行比较,以生成比较结果,并且响应于比较结果为提取的验证声纹特征与声纹特征库中的某个声纹特征模板相匹配,确定用户验证语音所对应的用户身份为某个声纹特征模板所关联的用户身份;声纹存储模块,被配置为响应于比较结果为提取的验证声纹特征与声纹特征库中的某个声纹特征模板相匹配,将与用户验证语音有关的语音数据与所确定的用户身份相关联地存储;以及声纹更新模块,被配置为基于所存储的语音数据更新声纹特征库中的声纹特征模板

[0007]在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法

[0008]在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法

[0009]在本公开的第五方面中,提供了一种计算机程序产品,其包括计算机可执行指令,其中计算机可执行指令在被处理器执行时实现根据本公开的第一方面的方法

[0010]应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围

本公开的其它特征将通过以下的描述变得容易理解

附图说明
[0011]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征

优点及方面将变得更加明显

在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
[0012]图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
[0013]图2示出了根据本公开的实施例的声音信号处理的示例方法的流程图;
[0014]图3示出了根据本公开的一些实施例的生成声纹特征模板的示例方法的流程图;
[0015]图4示出了根据本公开的一些实施例的更新声纹特征模板的示例方法的流程图;
[0016]图5示出了根据本公开的一些实施例的声音信号处理的装置的示意性框图;以及
[0017]图6示出了能够实施本公开的多个实施例的计算设备的框图

具体实施方式
[0018]下面将参照附图更详细地描述本公开的实施例

虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开

应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围

[0019]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。
术语“基于”应当理解为“至少部分地基于”。
术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。
术语“第一”、“第二”等等可以指代不同的或相同的对象

下文还可能包括其他明确的和隐含的定义

[0020]如上文所简要提及的,现有声纹识别方法的识别准确率还不够理想

常规上,在声纹注册阶段直接将所获取的用户语音进行声纹提取和注册,在验证阶段对用户验证语音进行验证以识别用户

随着时间的变化,用户声纹特征也会随之变化,这将导致声纹识别的准确率下降

因此,期望能够改善声纹识别的准确率

[0021]根据本公开的实施例,提出了一种声音信号处理的方案

在该方案中,首先根据用户的注册语音生成声纹特征模板,并将声纹特征模板和该用户的身份关联地存储在声纹特征库

然后将用户验证语音与声纹特征模板进行比较来生成比较结果,根据比较的结果,确定用户验证语音所对应的用户身份

之后将与用户验证语音有关的语音数据与用户身份相关联地存储

并且接着根据所存储的语音数据更新声纹特征模板

[0022]根据在此提出的方案,将验证语音进行存储,并且根据该验证语音对声纹库中已注册的用户的声纹特征模板进行无感更新

由此,能够利用用户验证语音来更新声纹库,解决了声纹随时间不断变化的问题,提高声纹识别准确率

进一步地,该更新方式不被用户感
知,从而提高用户体验

[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种声音信号处理的方法,包括:基于至少一个用户的注册语音生成与所述至少一个用户身份相关联的声纹特征模板,并将所述声纹特征模板存储在声纹特征库中;将从所接收的用户验证语音中提取的声纹特征与所述声纹特征库中的声纹特征模板进行比较,以生成比较结果,并且响应于所述比较结果为所述提取的验证声纹特征与所述声纹特征库中的某个声纹特征模板相匹配,确定所述用户验证语音所对应的用户身份为所述某个声纹特征模板所关联的用户身份;响应于所述比较结果为所述提取的验证声纹特征与所述声纹特征库中的某个声纹特征模板相匹配,将与所述用户验证语音有关的语音数据与所确定的用户身份相关联地存储;以及基于所存储的所述语音数据更新所述声纹特征库中的声纹特征模板
。2.
根据权利要求1所述的方法,其中,将从所接收的用户验证语音中提取的验证声纹特征与所述声纹特征库中的声纹特征模板进行比较包括:响应于确定所述用户验证语音中包括预定唤醒词,提取所述用户验证语音中的与所述预定唤醒词相对应的验证语音帧;利用预先训练的声纹模型,从所提取的所述验证语音帧确定验证声纹特征;以及将所述验证声纹特征与所述声纹特征库中的声纹特征模板进行比较,以确定所述验证声纹特征与所述声纹特征库中的声纹特征模板之间的匹配度
。3.
根据权利要求1所述的方法,其中,所述语音数据包括所述用户验证语音的验证声纹特征,并且其中基于所存储的所述语音数据更新所述声纹特征库中的声纹特征模板包括:响应于确定与某个用户身份相关联地存储的验证声纹特征的数目大于第一数目,从所述与某个用户身份相关联地存储的验证声纹特征中确定第二数目的验证声纹特征作为目标验证声纹特征,其中所述目标验证声纹特征与所述声纹特征库中的关联于所述用户身份的声纹特征模板之间的匹配度大于第一预定阈值;以及基于所述目标验证声纹特征,更新所述声纹特征库中的关联于所述用户身份的所述声纹特征模板
。4.
根据权利要求3所述的方法,其中,所述语音数据还包括与所述验证声纹特征关联的所述用户验证语音,其中基于所存储的所述语音数据更新所述声纹特征库中的声纹特征模板还包括:从所述语音数据中获取与所述目标验证声纹特征相对应的用户验证语音作为目标验证语音;对所述目标验证语音进行噪声增强,以获得经增强的目标验证语音;以及基于所述经增强的目标验证语音,更新所述声纹特征库中的关联于所述用户身份的所述声纹特征模板
。5.
根据权利要求1所述的方法,其中,基于至少一个用户的注册语音生成与所述至少一个用户身份相关联的声纹特征模板包括:响应于确定所述注册语音中包括预定唤醒词,提取所述注册语音中的

与所述预定唤醒词相对应的注册语音帧;
利用预先训练的声纹模型,从所述注册语音帧确定所述至少一个用户的注册声纹特征;从所述注册声纹特征中确定目标注册声纹特征,所述目标注册声纹特征与所述注册声纹中的目标注册声纹特征之外的所有其他注册声纹之间的匹配度之和大于第二预定阈值;以及基于所述目标注册声纹特征生成所述声纹特征库中的声纹特征模板
。6.
根据权利要求5所述的方法,其中,基于至少一个用户的注册语音生成与所述至少一个用户身份相关联的声纹特征模板还包括:将与所述目标注册声纹特征相对应的注册语音作为目标注册语音;对所述目标注册语音进行噪声增强,以获取经增强的目标注册语音;利用预先训练的声纹模型,从所述经增强的目标注册语音确定所述至少一个用户的经增强的目标注册声纹特征;以及基于所述经增强的目标注册声纹特征,生成所述声纹特征库中的声纹特征模板
。7.
根据权利要求5所述的方法,还包括:响应于确定所述目标注册声纹特征的数目小于第三数目,向所述至少一个用户发出与输入用户验证语音相关的提示
。8.
根据权利要求4或6所述的方法,其中所述噪声增强包括利用如下噪声中的至少一项:风声噪声

雨声噪声

车辆噪声

机运转噪声和人声噪声
。9.
根据权利要求1所述的方法,其中所述注册语音和所述用户验证语音由车辆接收,并且所述方法还包括:响应于确定所述用户验证语音所对应的用户身份为所述某个声纹特征模板所关联的用户身份,启动所述车辆的语音交互功能
。10.
一种声音信号处理的装置,包括:声纹注册模块,被配置为基于至少一个用户的注册语音生成与所述至少一个用户身份相关联的声纹特征模板,并将所述声纹特征模板存储在声纹特征库中;声纹验证模块,被配置为将从所接收的用户验证语音中提取的声纹特征与所述声纹特征库中的声纹特征模板进行比较,以生成比较结果,并且响应于所述比较结果为所述提取的验证声纹特征与所述声纹特征库中的某个声纹特征模板相匹配,确定所述用户验证语音所对应的用户身份为所述某个声纹特征模板所关联的用户身份;声纹存储模块,被配置为响应于...

【专利技术属性】
技术研发人员:喻陈毅李通旭龚彩霞高永虎
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1