音频处理制造技术

技术编号:24694022 阅读:58 留言:0更新日期:2020-06-27 12:50
一种音频处理的方法,包括接收音频信号。形成所接收的音频信号的多个组帧型式,所述组帧型式中的每一组帧型式具有相应的帧起始位置。选择所接收的音频信号的多个组帧型式中的一个组帧型式。在后续的过程中,使用所接收的音频信号的多个组帧型式中的选定的一个组帧型式。

Audio processing

【技术实现步骤摘要】
【国外来华专利技术】音频处理
本文所描述的实施方案涉及用于音频处理的方法和设备。
技术介绍
许多设备都包含音频处理系统。大量音频处理系统特别关注于话语处理,例如出于说话人识别(以说话人标识的形式,或者以说话人验证的形式)或话语识别(即,确定话语的内容)的目的。
技术实现思路
典型地,话语处理系统将接收代表声音的信号,且将该信号划分成固定长度的帧。然后,分析这些帧的内容。话语活动检测器(VAD)通常被用于标识包含话语的帧,从而在话语处理系统中仅使用那些帧。然而,现在已经认识到,使用VAD可能意味着,出现话语的起点的帧可能不会被识别为包含话语。此外,现在已经认识到,当帧的长度接近说话人的话语的特性周期(例如,声门脉冲周期(GlottalPulsePeriod))时,对该说话人的话语执行话语处理的尝试趋向于出现高于正常的误差率。根据本专利技术的一个方面,提供了一种音频处理方法,包括:接收音频信号;形成所接收的音频信号的多个组帧型式,所述组帧型式中的每一组帧型式具有相应的帧起始位置;选择所接收的音频信号的多个组帧型式中的一个组帧型式;以及在后续的过程中,使用所接收的音频信号的多个组帧型式中的选定的一个组帧型式。根据本专利技术的另一方面,提供了一种用于音频处理的系统,该系统被配置成根据所述方法操作。根据本专利技术的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。根据本专利技术的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第一方面的方法的指令。根据本专利技术的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。附图说明为了更好地理解本专利技术,且为了示出如何实施本专利技术,现在将参考附图,在附图中:图1例示了智能电话;图2是例示智能电话的形式的示意图;图3例示了话语处理系统;图4例示了图3的话语处理系统的一部分;图5是例示处理音频信号的方法的流程图;以及图6例示了图5的方法的一部分;图7(a)例示了执行图5的方法的第一结果,且图7(b)例示了执行图5的方法的第二结果。具体实施方式下面的描述阐述了根据此公开内容的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实施方式将是显而易见的。此外,本领域普通技术人员将认识到,可以代替下面所讨论的实施方案或与下面所讨论的实施方案结合地应用多种等同技术,且所有这样的等同物应被认为是本公开内容所涵盖的。本文所描述的方法可以被实施在各种各样的设备和系统中,例如移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。然而,为了易于解释一个实施方案,将描述一个例示性实施例,其中实施方式发生在智能电话中。图1例示了一个智能电话10,该智能电话10具有用于检测周边声音的麦克风12。在正常使用中,麦克风当然用于检测靠近他们的脸部握持智能电话10的用户的话语。图2是例示智能电话10的形式的示意图。具体地,图2示出了智能电话10的多个互连部件。应理解,智能电话10实际上将包含许多其他部件,但是以下描述对于理解本专利技术是足够的。因此,图2示出了上面所提及的麦克风12。在某些实施方案中,智能电话10设置有多个麦克风12、12a、12b等。图2还示出了存储器14,该存储器14实际上可以被设置为单个部件或多个部件。存储器14被设置用于存储数据和程序指令。图2还示出了处理器16,该处理器16实际上再次可以被设置为单个部件或多个部件。例如,处理器16的一个部件可以是智能电话10的应用处理器。图2还示出了收发器18,该收发器18被设置用于允许智能电话10与外部网络通信。例如,收发器18可以包括用于经由WiFi局域网或经由蜂窝网络建立互联网连接的电路系统。图2还示出了音频处理电路系统20,用于根据需要对由麦克风12所检测到的音频信号执行操作。例如,音频处理电路系统20可以对音频信号进行滤波,或可执行其他信号处理操作。在此实施方案中,智能电话10设置有语音生物测定功能且设置有控制功能。因此,智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够在来自已注册用户的口语命令和由一个不同的人说出的相同命令之间进行区分。因此,本专利技术的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备随后将命令传输至一个分立的设备。在一些实施方案中,虽然在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能,但是使用收发器18将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。在其他实施方案中,还在智能电话10上执行话语识别。本专利技术的实施方案可以在包括话语处理系统的多种音频处理系统中使用。下面所描述的是在说话人识别系统中使用的实施方案。图3是例示说话人识别系统的基本形式的框图。典型的说话人识别系统30使用基于大量人的话语的背景模型,例如通用背景模型(UBM)。此话语(被称为开发话语(developmentspeech))被传送至参数化块32,在参数化块32中获得话语的特征。这些特征被传送至建模块34,该建模块34形成背景模型。当用户希望在说话人识别系统中注册时,他们向麦克风说话,且注册用户的话语被传送至第二参数化块36,在第二参数化块36中获得话语的特征。第二参数化块36可以获得与参数化块32相同的特征。由第二参数化块36所获得的特征被传送至第二建模块38,第二建模块38形成用户的话语的模型,也被称为声纹。此考虑了由建模块34所形成的背景模型,从而用户的话语的模型包含有助于将用户与其他说话人区分开的特征。由建模块38所形成的注册用户的话语的模型被存储在数据库40中。说话人识别系统30可以被用于说话人标识和/或说话人验证。在说话人验证的情况下,说话人明确地或隐含地提供对他们作为已注册用户的身份的指示。此被用于选择该已注册用户的话语的模型。来自该说话人的话语数据被传送至第三参数化块42,在第三参数化块42中获本文档来自技高网...

【技术保护点】
1.一种音频处理的方法,包括:/n接收音频信号;/n形成所接收的音频信号的多个组帧型式,所述组帧型式中的每一组帧型式具有相应的帧起始位置;/n选择所接收的音频信号的多个组帧型式中的一个组帧型式;以及/n在后续的过程中,使用所接收的音频信号的多个组帧型式中的选定的一个组帧型式。/n

【技术特征摘要】
【国外来华专利技术】20180206 GB 1801875.4;20171114 US 62/585,6461.一种音频处理的方法,包括:
接收音频信号;
形成所接收的音频信号的多个组帧型式,所述组帧型式中的每一组帧型式具有相应的帧起始位置;
选择所接收的音频信号的多个组帧型式中的一个组帧型式;以及
在后续的过程中,使用所接收的音频信号的多个组帧型式中的选定的一个组帧型式。


2.根据权利要求1所述的方法,包括:
将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最具有代表性的型式;以及
选择所标识的最具有代表性的型式作为所接收的音频信号的多个组帧型式中的所述选定的一个组帧型式。


3.根据权利要求2所述的方法,其中将所接收的音频信号的多个组帧型式中的一个组帧型式标识为最具有代表性的型式包括:
选择所接收的音频信号的多个组帧型式中的一个组帧型式作为参考型式;以及
将所接收的音频信号的另外的组帧型式与所述参考型式进行比较。


4.根据权利要求3所述的方法,还包括:
计算所接收的音频信号的所述另外的组帧型式中的每一组帧型式与所述参考型式之间的相应的误差值;以及
选择所述另外的组帧型式中具有误差平均值的一个组帧型式作为所标识的最具有代表性的型式。


5.根据权利要求4所述的方法,其中计算所接收的音频信号的所述另外的组帧型式中的每一组帧型式与所述参考型式之间的相应的误差值包括:
从所接收的音频信号的所述另外的组帧型式中的每一组帧型式中提取特征,且从所述参考型式中提取特征;以及
通过计算所接收的音频信号的相应的另外的组帧型式的特征与所述参考型式的特征之间的误差来计算相应的误差值。


6.根据权利要求4或5所述的方法,其中所述相应的误差值包括均方误差值。


7.根据权利要求4、5或6所述的方法,包括选择所述另外的组帧型式中具有误差中值的一个组帧型式作为所标识的最具有代表性的型式。


8.根据权利要求4、5或6所...

【专利技术属性】
技术研发人员:J·P·莱索G·R·麦克劳德
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1