说话人注册制造技术

技术编号：24694023 阅读：69 留言：0更新日期：2020-06-27 12:50

一种用于说话人识别系统的说话人建模方法，包括：接收包括说话人的话语的信号；以及，针对所述信号的多个帧：获得所述说话人的话语的频谱；通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；以及，从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征。该方法还包括基于所提取的特征来形成至少一个话语模型。

Speaker registration

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】说话人注册
本文所描述的实施方案涉及例如在说话人识别系统中用于说话人注册的方法和设备。
技术介绍
说话人识别系统是已知的，其中用户能够向系统提供口语输入，例如以控制系统的某一方面的操作。为了提供一定程度的安全性，系统尝试验证说话人是被授权向系统提供该输入的人。在本文中，这被称为说话人识别，所述说话人识别可以包括：说话人辨认，其中系统尝试确定若干已注册用户中的哪一个正在说话；以及，说话人验证，其中系统尝试确定说话人是否是他们声称的那个人。说话人识别的过程通常要求用户在首次使用系统之前应该在系统中注册。注册要求用户说一些单词或短语，然后系统获得用户的话语的模型。在系统的后续使用中，将任何口语输入与已注册用户的话语的模型比较，以验证说话人是否为已注册用户。此过程的一个问题是，说话人的语音的属性可能会变化。例如，用户通常将通过选择在条件看起来良好时(例如，存在相对低水平的背景噪声时)讲话来在系统中注册。但是，在使用中，条件可能不太好。例如，可能存在高水平的背景噪声，或者用户可能位于距包含说话人识别系统的设备某一距离的位置。这些因素通常将意味着，用户将在他们的语音产生中使用较高水平的发声力度(vocaleffort)，而此较高水平的发声力度往往会改变用户的话语的一些特性。除了附加噪声或混响的任何不利影响之外，发声力度的改变也是远场话语造成的。
技术实现思路
根据本专利技术的一方面，提供了一种用于说话人识别系统的说话人建模的方法。该方法包括接收包括说话人的话语的信号。针对该信号的多个帧，获得所述说话人...

【技术保护点】
1.一种用于说话人识别系统的说话人建模的方法，包括：/n接收包括说话人的话语的信号；以及/n对于该信号的多个帧：/n获得所述说话人的话语的频谱；/n通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；以及/n从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征；以及/n进一步包括：/n基于所提取的特征形成至少一个话语模型。/n

【技术特征摘要】
【国外来华专利技术】20180201 GB 1801657.6;20171121 US 62/589,0331.一种用于说话人识别系统的说话人建模的方法，包括：
接收包括说话人的话语的信号；以及
对于该信号的多个帧：
获得所述说话人的话语的频谱；
通过施加与相应的发声力度有关的影响来生成至少一个经修改的频谱；以及
从所述说话人的话语的频谱和所述至少一个经修改的频谱中提取特征；以及
进一步包括：
基于所提取的特征形成至少一个话语模型。

2.根据权利要求1所述的方法，包括：
对于包含浊音话语的信号的多个帧，获得所述说话人的话语的频谱。

3.根据权利要求1或2所述的方法，包括：
对于所述信号的多个重叠帧，获得所述说话人的话语的频谱。

4.根据权利要求1、2或3所述的方法，其中每一帧具有10ms和50ms之间的持续时间。

5.根据权利要求1至4中的一项所述的方法，包括：
通过施加与相应的发声力度有关的影响来生成多个经修改的频谱。

6.根据任一项前述权利要求所述的方法，其中生成至少一个经修改的频谱的步骤包括：
确定所述说话人的话语的至少一个共振峰分量的频率和带宽；
通过修改该共振峰分量或每一共振峰分量的频率和带宽中的至少一个来生成至少一个经修改的共振峰分量；以及
由该经修改的共振峰分量或每一经修改的共振峰分量生成经修改的频谱。

7.根据权利要求6所述的方法，包括确定所述说话人的话语中处于3-5个范围内的共振峰分量的频率和带宽。

8.根据权利要求6或7所述的方法，其中生成经修改的共振峰分量包括：
修改该共振峰分量或每一共振峰分量的频率和带宽。

9.根据任...

【专利技术属性】
技术研发人员：R·赛义迪，
申请(专利权)人：思睿逻辑国际半导体有限公司，
类型：发明
国别省市：英国;GB

全部详细技术资料下载我是这个专利的主人