利用周期指示的声音识别制造技术

技术编号:22083482 阅读:62 留言:0更新日期:2019-09-12 16:59
提供了一种计算机实现的方法和装置。该方法包括由处理器获得音频信号数据的频谱。该方法还包括由处理器从频谱中提取周期性指示。该方法还包括由处理器将周期性指示和频谱的分量输入神经网络。该方法还包括由处理器估计来自神经网络的声音识别信息。

Voice Recognition Using Periodic Indicators

【技术实现步骤摘要】
【国外来华专利技术】利用周期指示的声音识别
本专利技术涉及基于音频信号的频谱中的周期性指示来估计声音识别。
技术介绍
许多传统的语音识别系统使用由log-Mel或Mel-FrequencyCepstrumCoefficients(MFCC)处理的特征作为输入特征。Log-Mel和MFCC将Mel滤波器组应用于音频信号数据的频谱。然而,Mel滤波器组不保留音频信号数据中的更高分辨率信息。通常,人类语音中的谐波结构通过Mel滤波过程丢失。谐波结构提供可用于将元音与其他音素区分开的信息。同时,当前的语音识别系统在计算上是昂贵的,因此需要大量时间或许多计算资源。需要以可以改善系统性能的方式将谐波结构集成到语音识别系统中。
技术实现思路
根据本专利技术的一个方面,提供了一种计算机实现的方法,包括由处理器获得音频信号数据的频谱。该方法还包括由处理器从频谱中提取周期性指示。该方法还包括由处理器将周期性指示和频谱分量输入神经网络。该方法还包括由处理器估计来自神经网络的声音识别信息。根据本专利技术的另一方面,提供了一种计算机程序产品,其具有与其一起实现的指令。指令可由处理器或可编程电路执行,以使处理器或可编程电路执行方法。该本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:由处理器获取音频信号数据的频谱;由处理器从所述频谱中提取周期性指示;由处理器将所述周期性指示和所述频谱的分量输入神经网络;以及由处理器估计来自所述神经网络的声音识别信息。

【技术特征摘要】
【国外来华专利技术】2017.02.24 US 15/441,9731.一种计算机实现的方法,包括:由处理器获取音频信号数据的频谱;由处理器从所述频谱中提取周期性指示;由处理器将所述周期性指示和所述频谱的分量输入神经网络;以及由处理器估计来自所述神经网络的声音识别信息。2.如权利要求1所述的方法,其中所述估计声音识别包括识别音素信息。3.如权利要求1所述的方法,其中,所述周期性指示表示在频谱中周期性地出现的频谱的波动。4.如权利要求1所述的方法,其中,所述周期性指示表示所述音频信号数据的谐波结构。5.如权利要求1所述的方法,还包括在所述输入神经网络之前归一化所述周期性指示。6.如权利要求5所述的方法,其中,所述归一化周期性指示包括在所述周期性指示中维持多个频带中的度量标准。7.如权利要求6所述的方法,其中,所述归一化周期性指示是基于sigmoid标准化或最大方差标准化。8.如权利要求1所述的方法,其中,所述频谱的分量包括与所述频谱中的多个频带中的所述音频信号数据的功率有关的值。9.根据权利要求8所述的方法,其中,将所述将所述周期性指示和所述频谱的分量输入神经网络进一步包括:输入所述频谱中的多所述个频带中与所述音频信号数据的功率相关的所述值的关于时间的所述第一导数和所述第二导数。10.如权利要求1所述的方法,其中,所述神经网络是卷积神经网络或深度...

【专利技术属性】
技术研发人员:市川治福田隆B·拉马巴哈德兰
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1