用于产生声音检测模型的声音样本验证制造技术

技术编号:15530001 阅读:98 留言:0更新日期:2017-06-04 17:13
一种用于在电子装置中验证待用于产生声音检测模型的至少一个声音样本的方法包含:接收第一声音样本;从所述第一声音样本提取第一声学特征;接收第二声音样本;从所述第二声音样本提取第二声学特征;以及确定所述第二声学特征是否类似于所述第一声学特征。

Sound sample validation for generating a sound detection model

A method for verifying method to be used to contain at least one sound sample produce sound detection model in an electronic device receiving a first sound sample; the first extract acoustic features from the first sound sample; sample receiving second voice; extracting second acoustic features from the second sound samples; and determining the acoustic characteristics is second similar to the first acoustic features.

【技术实现步骤摘要】
【国外来华专利技术】用于产生声音检测模型的声音样本验证相关申请案的交叉引用本申请案主张2014年10月22日申请的名称为“用于产生声音检测模型的声音样本验证(SOUNDSAMPLEVERIFICATIONFORGENERATINGSOUNDDETECTIONMODEL)”的第62/067,322号美国临时专利申请案和2015年4月8日申请的名称为“用于产生声音检测模型的声音样本验证(SOUNDSAMPLEVERIFICATIONFORGENERATINGSOUNDDETECTIONMODEL)”的第14/682,009号美国专利申请案的优先权,所述申请案的完整内容以引用的方式并入本文中。
本专利技术大体上涉及在电子装置中验证声音样本,且更确切地说,涉及在电子装置中验证用于产生声音检测模型的声音样本。
技术介绍
近年来,例如智能电话、平板计算机、可穿戴式电子装置等电子装置正在消费者当中变得越来越流行。这些装置常常通过无线或有线网络提供话音和/或数据通信功能性。另外,这些电子装置常常包含用于从用户接收并识别话音命令的语音识别功能。此功能允许电子装置在从接收并识别来自用户的话音命令时执行与话音命令(例如,关键词)相关联的功能。举例来说,电子装置可响应于来自用户的话音命令而启动话音辅助应用、播放音频文件、或拍摄照片。在具有语音识别特征的电子装置中,制造商或运营商常常为装置配备有预定关键词和相关联声音模型,声音模型可用于检测输入声音中的关键词。常常基于来自各种声音环境中的不同说话者的关键词的大量声音记录(例如,数千个语音样本或更多个)而产生这些声音模型。制造商或运营商提供的这些声音模型可由电子装置的用户改进。举例来说,电子装置可从用户的预定关键词接收若干话语,且使用话语训练与预定关键词相关联的预存储声音模型。一些电子装置还可允许用户指定关键词作为话音命令。在此状况下,电子装置可从用户接收所指定关键词的若干话语,且从话语产生所指定关键词的声音模型。一般来说,声音模型的检测性能涉及从其产生或训练声音模型的话语的数目和质量。声音模型的检测性能可随着话语的数目增大而改善。然而,对于关键词的给定数目个话语,话语的质量可能在说话者之间或在话语之间变化。举例来说,如果从非预期用户接收话语,那么从话语产生的关键词模型的检测性能可能在从预期用户检测输入声音中的关键词的过程中降级。另一方面,如果用户在两个话语中以不同方式发音关键词,那么不可从从话语产生的声音模型正确地检测到关键词。此外,可能在吵杂声音环境中接收一些话语,且所述话语因此不可提供产生声音模型的足够质量。因此,从这些话语所产生或训练的声音模型不可产生充分的检测性能。
技术实现思路
本专利技术涉及在电子装置中验证用于产生声音检测模型的声音样本。根据本专利技术的一个方面,揭示一种用于验证待用于产生声音检测模型的至少一个声音样本的方法。可在电子装置中执行所述方法。在此方法中,可接收第一声音样本。可从所述第一声音样本提取第一声学特征。此外,可接收第二声音样本。可从所述第二声音样本提取第二声学特征。确定所述第二声学特征是否类似于所述第一声学特征。本专利技术还描述与此方法相关的设备、装置、系统、装置组合和计算机可读媒体。根据本专利技术的另一方面,揭示一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置。所述电子装置可包含声音传感器和声音样本验证单元。所述声音传感器可经配置以接收第一声音样本和第二声音样本。所述声音样本验证单元可经配置以:从所述第一声音样本提取第一声学特征;从所述第二声音样本提取第二声学特征;以及确定所述第二声学特征是否类似于所述第一声学特征。附图说明当结合附图理解时,将通过参考以下详细描述理解本专利技术的专利技术性方面的实施例。图1说明根据本专利技术的一个实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置。图2说明根据本专利技术的另一实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置。图3说明根据本专利技术的一个实施例的经配置以验证用于产生声音检测模型的一或多个声音样本的电子装置的框图。图4说明根据本专利技术的一个实施例的经配置以确定一或多个声音样本是否可用于产生声音检测模型的电子装置中的声音样本验证单元的框图。图5为根据本专利技术的一个实施例的在电子装置中执行的用于验证待用于产生声音检测模型的一或多个声音样本的示范性方法的流程图。图6为根据本专利技术的一个实施例的在电子装置中执行的用于确定组合式声学特征的示范性方法的流程图。图7为根据本专利技术的另一实施例的在电子装置中执行的用于验证待用于产生声音检测模型的一或多个声音样本的示范性方法的流程图。图8为根据本专利技术的另一实施例的在电子装置中执行的用于在批处理模式中验证待用于产生声音检测模型的一或多个声音样本的示范性方法的流程图。图9为根据本专利技术的另一实施例的在电子装置中执行的用于确定一或多个声音样本的声学特征是否类似的示范性方法的流程图。图10说明根据本专利技术的一些实施例的可实施用于验证待用于产生声音检测模型的一或多个声音样本的方法和设备的电子装置的框图。图11说明说明服务器系统的框图,服务器系统可以是先前描述为根据一些实施例所实施的服务器中的任一者。具体实施方式现在将详细参考各种实施例,在附图中说明所述实施例的实例。在以下详细描述中,陈述众多具体细节以便提供对本专利技术的透彻理解。然而,对于所属领域的一般技术人员将显而易见的是,可在没有这些具体细节的情况下实践本专利技术。在其它情况下,未详细描述众所周知的方法、过程、系统和组件,以便不会不必要地混淆各种实施例的方面。图1说明根据本专利技术的一个实施例的经配置以验证用于产生声音检测模型的多个声音样本S1、S2、S3、S4和S5的电子装置100。电子装置100可以是装备有声音俘获和处理能力的任何合适装置,例如智能电话、蜂窝电话、个人计算机、膝上型计算机、平板计算机、智能电视、游戏装置、多媒体播放器等。电子装置100可从用户120接收声音样本S1、S2、S3、S4和S5供用于产生声音检测模型。虽然电子装置100说明为接收五个声音样本S1、S2、S3、S4和S5,但是可接收且处理用于产生声音检测模型的任何合适数目个声音样本,且可基于数个因素(例如用户的方便、喜好、性能要求等)而预先确定声音样本的数目。在一个实施例中,可依次接收声音样本S1、S2、S3、S4和S5且接着在批处理模式中加以处理。在另一实施例中,可一次一个地接收并处理声音样本S1、S2、S3、S4和S5,如将在下文参考图2更详细地描述。如本文中所使用,术语“声音检测模型”可指用于检测由电子装置100接收的输入声音的声音信号或数据中的关键词及/或特定用户的模型或数据库,且可包含指示关键词及/或用户的一或多个声学特征或特性。举例来说,声音检测模型可以是与关键词相关联或指示关键词且经调适以检测从用户接收的输入语音中的关键词的关键词检测模型。术语“关键词”可指可用以在电子装置100中启动、操作或控制功能或应用的一或多个词的任何数字或类比声音表示。另外或替代地,声音检测模型可以是经调适以从输入声音识别用户的说话者验证模型。在一个实施例中,声学特征可包含可指示关键词或特定用户的频谱特征、时域特征等。频谱特征可包含梅尔频率倒谱系数(MFCC)、倒谱差异系数(差异本文档来自技高网
...
用于产生声音检测模型的声音样本验证

【技术保护点】
一种在电子装置中执行的用于验证待用于产生声音检测模型的至少一个声音样本的方法,所述方法包括:接收第一声音样本;从所述第一声音样本提取第一声学特征;接收第二声音样本;从所述第二声音样本提取第二声学特征;以及确定所述第二声学特征是否类似于所述第一声学特征。

【技术特征摘要】
【国外来华专利技术】2014.10.22 US 62/067,322;2015.04.08 US 14/682,0091.一种在电子装置中执行的用于验证待用于产生声音检测模型的至少一个声音样本的方法,所述方法包括:接收第一声音样本;从所述第一声音样本提取第一声学特征;接收第二声音样本;从所述第二声音样本提取第二声学特征;以及确定所述第二声学特征是否类似于所述第一声学特征。2.根据权利要求1所述的方法,其进一步包括响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。3.根据权利要求1所述的方法,其进一步包括:确定所述第一声音样本的信噪比SNR;确定所述第二声音样本的SNR;基于所述第一声音样本和所述第二声音样本的所述SNR而选择所述第一声音样本或所述第二声音样本中的至少一者;在确定所述第二声学特征类似于所述第一声学特征之后,即基于所述所选择的至少一个声音样本而产生所述声音检测模型;以及基于所述未选择的声音样本而调整所述所产生的声音检测模型。4.根据权利要求1所述的方法,其进一步包括响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声学特征和所述第二声学特征而确定组合式声学特征。5.根据权利要求4所述的方法,其进一步包括:接收第三声音样本;从所述第三声音样本提取第三声学特征;以及确定所述第三声学特征是否类似于所述组合式声学特征。6.根据权利要求1所述的方法,其中所述第一声学特征和所述第二声学特征中的每一者包含频谱特征或时域特征中的至少一者。7.根据权利要求1所述的方法,其中所述第一声学特征和所述第二声学特征中的每一者包含子字的序列。8.根据权利要求7所述的方法,其中所述子字包含音素、音位、三音素或音节中的至少一者。9.根据权利要求1所述的方法,其进一步包括:响应于确定所述第二声学特征不类似于所述第一声学特征而接收新声音样本;从所述新声音样本提取新声学特征;以及确定所述新声学特征是否类似于所述第一声学特征。10.根据权利要求9所述的方法,其进一步包括响应于确定所述新声学特征类似于所述第一声学特征而基于所述第一声音样本或所述新声音样本中的至少一者而产生所述声音检测模型。11.根据权利要求10所述的方法,其中产生所述声音检测模型包括:基于所述第一声音样本或所述新声音样本中的至少一者而确定所述声音检测模型的阈值;以及基于所述第二声音样本而调整所述阈值。12.根据权利要求1所述的方法,其进一步包括:基于确定所述第二声学特征是否类似于所述第一声学特征而输出关于所述第二声音样本是否类似于所述第一声音样本的指示;以及接收指示待用于产生所述声音检测模型的所述第一声音样本或所述第二声音样本中的至少一者的输入。13.根据权利要求1所述的方法,其中所述第一声音样本和所述第二声音样本中的每一者指示用以启动所述电子装置的命令或用以控制所述电子装置中的应用或功能的命令中的至少一者。14.根据权利要求2所述的方法,其进一步包括:接收语音输入;以及基于所述声音检测模型而从所述语音输入识别关键词或用户中的至少一者。15.一种用于验证待用于产生声音检测模型的至少一个声音样本的电子装置,所述电子装置包括:声音传感器,其经配置以接收第一声音样本和第二声音样本;以及声音样本验证单元,其经配置以从所述第一声音样本提取第一声学特征、从所述第二声音样本提取第二声学特征,且确定所述第二声学特征是否类似于所述第一声学特征。16.根据权利要求15所述的电子装置,其进一步包括声音检测模型产生单元,所述声音检测模型产生单元经配置以响应于确定所述第二声学特征类似于所述第一声学特征而基于所述第一声音样本或所述第二声音样本中的至少一者而产生所述声音检测模型。17.根据...

【专利技术属性】
技术研发人员:苏库克·穆恩真珉豪夏海英黄和苏沃伦·弗雷德里克·戴尔
申请(专利权)人:高通股份有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1