【技术实现步骤摘要】
【国外来华专利技术】说话人识别
本公开内容的代表性实施方案的领域涉及与生物测定说话人识别相关或有关的方法、装置或实施方式。应用包括但不限于与说话人登记(enrolment)或验证相关的应用,尤其是在存在环境影响(诸如背景噪声)的情况下。
技术介绍
提供语音(voice)用户接口以允许用户使用他们的语音与系统交互。此接口的一个优点(例如在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备的至少一些方面。言语(speech)识别技术(即从语音音频信号提取说出的单词的技术)可以例如被用来检测已经说出了特定的触发短语以将设备设定为预期说出的命令并且在说出时识别命令并且作出响应执行操作。例如,如果该说出的命令要求公开可得的信息,则该接口可以导致向互联网搜索引擎提交查询,以能够将该信息供应给用户。然而,在其他情况下,例如如果说出的命令涉及个人信息或请求某种金融交易,则可能期望某种水平的认证以在按照任何命令行动之前验证用户的身份。为了维持大致免手持的用户交互模式,语音用户接口可以包括某种形式的说话人识别(即对语音音频输入信号进行某种分析),以提取与一个或多个用户中的一个不同的那个信号的特性。因此,可以以具有比口令(password)更高安全性的高置信水平(confidencelevel)并且比其他生物测定验证方法(诸如指纹或虹膜图案)更便利地验证用户的身份。可以根据错误接受率(FAR)和错误拒绝率(FRR)来表征此用户验证的准确性。FAR量化了不同用户被错误地认证为授权用户的概率,对于特定用户具有明显的金融安全性风险和隐私风险。FRR量化了有效用户可能被拒绝的概率,这给用 ...
【技术保护点】
1.一种用于在生物测定说话人识别中使用的装置,包括:一个分析器,用于分析与用户发出的言语声音对应的音频数据的帧的序列中的每个帧,以确定该帧的言语声音的至少一个特性;以及一个评估模块,用于基于该言语声音的确定的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标。
【技术特征摘要】
【国外来华专利技术】2016.12.23 GB 1622191.3;2016.08.03 US 62/370,4081.一种用于在生物测定说话人识别中使用的装置,包括:一个分析器,用于分析与用户发出的言语声音对应的音频数据的帧的序列中的每个帧,以确定该帧的言语声音的至少一个特性;以及一个评估模块,用于基于该言语声音的确定的至少一个特性为音频数据的每个帧确定音频数据的每个帧应被用于说话人识别处理的程度的贡献指标。2.根据权利要求1所述的装置,包括一个说话人识别模块,该说话人识别模块被配置成将说话人识别处理应用于音频数据的所述帧,其中该说话人识别模块被配置成根据每个帧的贡献指标来处理音频数据的帧。3.根据权利要求1或2所述的装置,其中所述贡献指标包括在说话人识别处理中将被应用于每个帧的加权。4.根据任一项前述权利要求所述的装置,其中所述贡献指标包括将不在说话人识别处理中使用的音频数据的帧的选择。5.根据任一项前述权利要求所述的装置,其中该说话人识别处理包括处理音频数据的帧以进行说话人登记。6.根据权利要求1至4中任一项所述的装置,其中该说话人识别处理包括处理音频数据的帧以进行说话人验证。7.根据权利要求1至4中任一项所述的装置,其中该说话人识别处理包括处理音频数据的帧以生成说话人群体的广义模型。8.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为多个预定义种类的音素中的一个。9.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为浊音声音或清音声音。10.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为特定音素。11.根据权利要求8或10所述的装置,其中一个音素或一个种类的音素的贡献指标基于音频数据的先前帧中的相同音素或相同种类的音素的先前实例的数目而变化。12.根据任一项前述权利要求所述的装置,其中该言语声音的至少一个特性包括该言语声音中的一个或多个话音素的至少一个特性。13.根据权利要求12所述的装置,其中所述至少一个特性包括至少一个话音素峰值的指示。14.根据权利要求12或13所述的装置,其中所述至少一个特性包括至少一个话音素空值的指示。15.根据任一项前述权利要求所述的装置,其中该评估模块被配置成接收用户发出言语声音的声学环境的指示,并且其中该贡献指标还基于声学环境的指示。16.根据权利要求15所述的装置,其中声学环境的指示包括该音频数据中的噪声的指示。17.根据权利要求16所述的装置,其中噪声的所述指示包括以下中的至少一个的指示:噪声幅度水平;噪声频率和/或频谱;相对于用户发声的声音的信号水平的噪声水平。18.根据权利要求16或17所述的装置,其中该言语声音的至少一个特性包括将该言语声音标识为多个预定义类别的音素中的一个,并且其中,对于所述预定义类别的音素中的至少一个,该评估模块应用贡献在指标的值和噪声水平之间的传递函数。19.根据权利要求15至18中任一项所述的装置,其中该分析器被配置成分析该音频数据以确定噪声的所述指示。20.根据权利要求19所述的装置,其中该分析器被配置成标识音频信号的与用户发声的声音不对应的帧,以从这样的帧确定噪声的所述指示。21.根据权利要求16至20中任一项所述的装置,其中该评估模块被配置成使得如果噪声的指示在第一阈值水平以上,则该评估模块指示音频数据的帧不应被用于说话人识别处理。22.根据权利要求15至21中任一项所述的装置,其中声学环境的指示包括该音频数据中的混响的指示。23.根据权利要求22所述的装置,其中该分析器被配置成分析该音频数据以确认混响的所述指示。24.根据任一项前述权利要求所述的装置,其中该评估模块被配置成接收用于生成音频数据的声学信道的参数的指示,并且其中该贡献指标还基于声学信道的参数的所述指示。25.根据权利要求24所述的装置,其中声学信道的参数的所述指示包括用来接收用户发出的言语声音的麦克风的参数的指示。26.根据权利要求25所述的装置,其中...
【专利技术属性】
技术研发人员:J·P·莱索,J·梅兰森,
申请(专利权)人:思睿逻辑国际半导体有限公司,
类型:发明
国别省市:英国,GB
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。