说话人识别制造技术

技术编号:20759651 阅读:17 留言:0更新日期:2019-04-03 13:11
本申请描述了用于说话人识别的方法和装置。根据一个实施方案的装置具有一个分析器(202),用于分析与用户发出的言语声音对应的音频数据(AIN)的帧的序列中的每个帧,以确定该帧的言语声音的至少一个特性。一个评估模块(203),用于基于该言语声音的确定的特性为音频数据的每个帧确定音频数据的帧应被用于说话人识别处理的程度的贡献指标。以此方式,可以强调与对说话人区分最有用的言语声音对应的帧和/或可以不再强调与对说话人区分最没有用的言语声音对应的帧。

【技术实现步骤摘要】
【国外来华专利技术】说话人识别
本公开内容的代表性实施方案的领域涉及与生物测定说话人识别相关或有关的方法、装置或实施方式。应用包括但不限于与说话人登记(enrolment)或验证相关的应用,尤其是在存在环境影响(诸如背景噪声)的情况下。
技术介绍
提供语音(voice)用户接口以允许用户使用他们的语音与系统交互。此接口的一个优点(例如在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备的至少一些方面。言语(speech)识别技术(即从语音音频信号提取说出的单词的技术)可以例如被用来检测已经说出了特定的触发短语以将设备设定为预期说出的命令并且在说出时识别命令并且作出响应执行操作。例如,如果该说出的命令要求公开可得的信息,则该接口可以导致向互联网搜索引擎提交查询,以能够将该信息供应给用户。然而,在其他情况下,例如如果说出的命令涉及个人信息或请求某种金融交易,则可能期望某种水平的认证以在按照任何命令行动之前验证用户的身份。为了维持大致免手持的用户交互模式,语音用户接口可以包括某种形式的说话人识别(即对语音音频输入信号进行某种分析),以提取与一个或多个用户中的一个不同的那个信号的特性。因此,可以以具有比口令(password)更高安全性的高置信水平(confidencelevel)并且比其他生物测定验证方法(诸如指纹或虹膜图案)更便利地验证用户的身份。可以根据错误接受率(FAR)和错误拒绝率(FRR)来表征此用户验证的准确性。FAR量化了不同用户被错误地认证为授权用户的概率,对于特定用户具有明显的金融安全性风险和隐私风险。FRR量化了有效用户可能被拒绝的概率,这给用户带来了不便,然后用户可能不得不重复他的尝试或使用某种其他形式的认证。说话人识别过程可以依赖于将当前的言语样本的频谱特性与先前登记的言语样本的频谱特性进行比较。然而,认证尝试期间的任何背景噪声可能被叠加在说话人的语音上并且可能隐藏或更改频谱特征并因此在比较中给出错误。登记期间的背景噪声可能相反地添加在安静环境中认证时不存在的特征。这些影响可能降低FAR或FRR,具有上文描述的不期望的安全性后果或用户不便后果。使用信号处理以试图去除添加到信号的噪声的来减轻该问题的尝试可能影响所得到的补偿言语的频谱特性并且因此再次降低准确性。根据一个实施方案,提供了一种用于在生物测定说话人识别中使用的装置,包括:一个分析器,用于分析与由用户发出的言语声音对应的音频数据的帧的序列中的每个帧,以确定该帧的言语声音的至少一个特性;以及一个评估模块,用于基于确定的该言语声音的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度(extent)的贡献指标(contributionindicator)。在一些实施方案中,该装置可以包括一个说话人识别模块,该说话人识别模块被配置成将说话人识别处理应用于音频数据的帧,其中该说话人识别模块被配置成根据每个帧的贡献指标来处理音频数据的帧。所述贡献指标可以包括在说话人识别处理中将被应用于每个帧的加权。在一些情况下,所述贡献指标可以包括对将不在说话人识别处理中使用的音频数据的帧的选择。该说话人识别处理可以包括处理音频数据的帧以进行说话人登记。该说话人识别处理可以包括处理音频数据的帧以进行说话人验证。该说话人识别处理可以包括处理音频数据的帧用于生成说话人群体的广义模型。言语声音的至少一个特性可以包括将该言语声音标识为多个预定义种类(class)的音素中的一个。言语声音的至少一个特性可以包括将该言语声音标识为特定音素。一个音素或一个种类的音素的贡献指标可以基于音频数据的先前帧中的相同的音素(phoneme)或相同种类的音素的先前实例(instance)的数目而变化。言语声音的至少一个特性可以包括言语声音中的一个或多个话音素(formant)的至少一个特性。该特性可以包括至少一个话音素峰值(peak)的指示和/或至少一个话音素空值(null)的指示。该评估模块可以被配置成接收该用户发出言语声音所在的声学环境的指示。该贡献指标还可以基于声学环境的指示。声学环境的指示可以包括该音频数据中的噪声的指示。噪声的指示可以包括以下中的至少一个的指示:噪声幅度水平;噪声频率和/或频谱;相对于由用户发声的声音的信号水平的噪声水平。在一些实施方案中,言语声音的至少一个特性包括将该言语声音标识为多个预定义类别(category)的音素中的一个,并且对于所述预定义类别的音素中的至少一个,该评估模块应用贡献指标的值和噪声水平之间的传递函数。该分析器可以被配置成分析该音频数据以确定噪声的所述指示。该分析器可以被配置成标识音频信号的不与由该用户发声的声音对应的帧,以从这样的帧确定噪声的指示。在一些实施方案中,该评估模块被配置成使得如果噪声的指示在第一阈值水平以上,则该评估模块指示音频数据的帧不应被用于说话人识别处理。在一些实施方案中,声学环境的指示包括该音频数据中的混响的指示。该分析器可以被配置成分析该音频数据以确认混响的指示。在一些实施方案中,该评估模块被配置成接收用于生成音频数据的声学信道的参数的指示,并且该贡献指标还基于该声学信道的参数的所述指示。该声学信道的参数的指示可以包括用来接收由该用户发出的言语声音的麦克风的参数的指示。麦克风的参数可以包括麦克风共振。该声学信道的参数的指示可以包括音频信道的带宽的指示。在一些实施方案中,该评估模块被配置成接收从先前由该用户发出的言语声音导出的言语特性的指示,并且其中该贡献指标还基于该言语特性的指示。该言语特性的指示可以包括该用户的音高的指示和/或该用户的鼻音的指示。在一些实施方案中,该评估模块被配置成接收至少一个登记用户简档的指示,并且其中该贡献指标还基于登记用户简档的所述指示。至少一个登记用户简档的指示可包括与该说话人识别处理最相关的用户简档的指示。与该说话人识别处理最相关的用户简档的指示可以是从说话人识别处理导出的。在一些实施方案中,该评估模块被配置成使得音频数据的帧的贡献指标基于该言语声音的确定的至少一个特性和音频数据的先前的帧的数目,其中确定的至少一个特性是类似的。该说话人识别模块可以操作在验证模式中以处理音频数据的所述帧,从而确定数据的所述帧的言语声音的一个或多个特征并且将所述一个或多个特征与登记用户的至少一个用户模型比较以确定指示当前说话人是否是该登记用户的置信水平。该说话人识别模块可以被配置成为该音频数据的多个帧确定指示音频数据的该帧与至少一个用户模型之间的匹配程度的帧置信得分,并且组合多个帧置信得分以确定置信水平,其中帧置信得分的组合基于相关帧的贡献指标。该说话人识别模块可以操作以不处理数据的一些帧来生成一个帧置信得分和/或从组合中省略音频数据的至少一些帧的帧置信得分以形成基于音频数据的所述帧的贡献指标的置信水平。附加地或替代地,该说话人识别模块可以可操作以基于音频数据的所述帧的贡献指标对帧置信得分中的至少一些应用加权。该所述说话人识别模块可以操作在登记模式中,以处理所述音频信号从而形成用于登记用户的用户模型。该说话人识别模块可以操作以基于音频数据的一些帧的贡献指标不处理处理音频数据的所述帧以形成所述用户模型。所述装置还可包括一个言语识别模块,该言语识别模块被配置成分析音本文档来自技高网...

【技术保护点】
1.一种用于在生物测定说话人识别中使用的装置,包括:一个分析器,用于分析与用户发出的言语声音对应的音频数据的帧的序列中的每个帧,以确定该帧的言语声音的至少一个特性;以及一个评估模块,用于基于该言语声音的确定的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标。

【技术特征摘要】
【国外来华专利技术】2016.12.23 GB 1622191.3;2016.08.03 US 62/370,4081.一种用于在生物测定说话人识别中使用的装置,包括:一个分析器,用于分析与用户发出的言语声音对应的音频数据的帧的序列中的每个帧,以确定该帧的言语声音的至少一个特性;以及一个评估模块,用于基于该言语声音的确定的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标。2.根据权利要求1所述的装置,包括一个说话人识别模块,该说话人识别模块被配置成将说话人识别处理应用于音频数据的所述帧,其中该说话人识别模块被配置成根据每个帧的贡献指标来处理音频数据的帧。3.根据权利要求1或2所述的装置,其中所述贡献指标包括在说话人识别处理中将被应用于每个帧的加权。4.根据任一项前述权利要求所述的装置,其中所述贡献指标包括将不在说话人识别处理中使用的音频数据的帧的选择。5.根据任一项前述权利要求所述的装置,其中该说话人识别处理包括处理音频数据的帧以进行说话人登记。6.根据权利要求1至4中任一项所述的装置,其中该说话人识别处理包括处理音频数据的帧以进行说话人验证。7.根据权利要求1至4中任一项所述的装置,其中该说话人识别处理包括处理音频数据的帧以生成说话人群体的广义模型。8.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为多个预定义种类的音素中的一个。9.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为浊音声音或清音声音。10.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为特定音素。11.根据权利要求8或10所述的装置,其中一个音素或一个种类的音素的贡献指标基于音频数据的先前帧中的相同音素或相同种类的音素的先前实例的数目而变化。12.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括该言语声音中的一个或多个话音素的至少一个特性。13.根据权利要求12所述的装置,其中所述至少一个特性包括至少一个话音素峰值的指示。14.根据权利要求12或13所述的装置,其中所述至少一个特性包括至少一个话音素空值的指示。15.根据任一项前述权利要求所述的装置,其中该评估模块被配置成接收用户发出言语声音的声学环境的指示,并且其中该贡献指标还基于声学环境的指示。16.根据权利要求15所述的装置,其中声学环境的指示包括该音频数据中的噪声的指示。17.根据权利要求16所述的装置,其中噪声的所述指示包括以下中的至少一个的指示:噪声幅度水平;噪声频率和/或频谱;相对于用户发声的声音的信号水平的噪声水平。18.根据权利要求16或17所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为多个预定义类别的音素中的一个,并且其中,对于所述预定义类别的音素中的至少一个,该评估模块应用贡献在指标的值和噪声水平之间的传递函数。19.根据权利要求15至18中任一项所述的装置,其中该分析器被配置成分析该音频数据以确定噪声的所述指示。20.根据权利要求19所述的装置,其中该分析器被配置成标识音频信号的与用户发声的声音不对应的帧,以从这样的帧确定噪声的所述指示。21.根据权利要求16至20中任一项所述的装置,其中该评估模块被配置成使得如果噪声的指示在第一阈值水平以上,则该评估模块指示音频数据的帧不应被用于说话人识别处理。22.根据权利要求15至21中任一项所述的装置,其中声学环境的指示包括该音频数据中的混响的指示。23.根据权利要求22所述的装置,其中该分析器被配置成分析该音频数据以确认混响的所述指示。24.根据任一项前述权利要求所述的装置,其中该评估模块被配置成接收用于生成音频数据的声学信道的参数的指示,并且其中该贡献指标还基于声学信道的参数的所述指示。25.根据权利要求24所述的装置,其中声学信道的参数的所述指示包括用来接收用户发出的言语声音的麦克风的参数的指示。26.根据权利要求25所述的装置,其中...

【专利技术属性】
技术研发人员:J·P·莱索J·梅兰森
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国,GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术