语音分析方法、装置、电子设备以及计算机可读存储介质制造方法及图纸

技术编号:31226820 阅读:20 留言:0更新日期:2021-12-08 09:33
本公开涉及一种语音分析方法、装置、电子设备以及计算机可读存储介质。该方法包括:从音频信号中提取单位音段,其中单位音段包括一个或多个具有特定频率特征的发声片段的语音帧;计算单位音段中的全部或部分语音帧的基频以确定特定频率特征类型;以及计算音频信号中的所确定的特定频率特征类型中的每个特定频率特征类型的能量值,获得音频信号中特定频率类型的能量分布。根据本公开,提供了确定特定频率特征类型分布和计算特定频率特征类型的能量分布的创新性方案。能量分布的创新性方案。能量分布的创新性方案。

【技术实现步骤摘要】
语音分析方法、装置、电子设备以及计算机可读存储介质


[0001]本公开内容总体上涉及语音信号处理的
,具体而言,涉及一种语音分析方法、装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]中国古代认为,大自然中万物都是按五行进行分类的,宇宙万物都是由木火土金水五种基本物质的运行和变化所构成。中国古代在音乐上有五音(一般称为中国音阶):宫、商、角、徵、羽,在频率上标准对应的依次是西方7音音阶的1、2、3、5、6五个音阶,即5个全音。五音音阶再加上两个半音,4和7,构成7音音阶(也称为西方音阶或自然音阶)。
[0003]传统中医认为,五音和五行一一对应,和五脏也一一对应。具体是,宫、商、角、徵、羽依次对应五行的土、金、木、火、水,对应五脏顺序是脾、肺、肝、心、肾。因此,每个人的发音,有其各自的五音能量分布特性,则分别代表其五行、五脏的特性,比如五脏的强弱、平衡等。
[0004]若能分析出人声的五音能量分布特性,则有助于衡量人的五脏强弱、平衡等,后续可以给出一些饮食、锻炼、保健等方面的参考建议。
[0005]五音体现的是人类声音的特定频率特征。专利技术人在现有技术中并未发现计算人声的特定频率特征类型(如五音频率)的能量或者能量分布的方案。

技术实现思路

[0006]有鉴于此,本公开描述的技术方案的目的之一在于提供一种创新性的和简单有效的计算人声的特定频率特征类型的能量或者能量分布的语音分析方法,还在于提供对应的装置、电子设备以及计算机可读存储介质。
[0007]根据本公开的第一方面,提供一种语音分析方法。该方法包括:从音频信号中提取单位音段,其中单位音段包括一个或多个具有特定频率特征的发声片段的语音帧;计算单位音段中的全部或部分语音帧的基频以确定特定频率特征类型;以及计算音频信号中的所确定的特定频率特征类型中的每个特定频率特征类型的能量值,获得音频信号中特定频率特征类型的能量分布。
[0008]进一步地,在计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型的步骤之前,所述方法还包括:对所述单位音段进行帧间平滑处理,形成经平滑处理的信号,其中所述计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型是针对经平滑处理的信号进行的。
[0009]进一步地,在计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型的步骤之前,所述方法还可以包括:对所述单位音段进行帧间平滑处理,形成经平滑处理的信号;以及对经平滑处理的信号进行降采样处理。所述计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型是针对经降采样处理的信号进行的。
[0010]进一步地,对经平滑处理的信号进行降采样处理可以包括将语音帧中的前后多帧
信号组合在一起进行降采样处理。
[0011]进一步地,计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型可以包括如下各项之一:使用语音帧的相关性计算方法和平均幅度差计算方法来确定语音帧的第一候选基频,以确定特定频率特征类型,相关性计算方法包括使用自相关函数方法或互相关函数方法;利用计算主频的的方法来计算语音帧的第二候选基频,以确定特定频率特征类型;以及根据所述第一候选基频和所述第二候选基频进行综合判断来计算语音帧的第三候选基频,以确定特定频率特征类型。
[0012]进一步地,确定语音帧的第一候选基频的步骤可以具体包括:利用相关性计算方法对语音帧做相关性运算,并且对所得的语音帧,在局部范围找到预设个数的峰值;利用平均幅度差计算方法对语音帧做平均幅度差运算,并且对所得的语音帧,在局部范围找到预设个数的谷值;以及将所述预设个数的峰值对应的频率以及所述预设个数的谷值对应的频率与预先设置的基频范围进行比较来确定语音帧的第一候选基频。
[0013]进一步地,可以对相关性运算结果进行插值处理;和/或可以对平均幅度差运算结果进行插值处理。
[0014]进一步地,计算语音帧的第二候选基频的步骤可以具体包括:对语音帧进行快速傅里叶变换,并且对变换后的结果,在预设范围找到预设个数的峰值,得到所述峰值对应的频率,即主频;以及基于所得到的主频来确定语音帧的第二候选基频。
[0015]进一步地,特定频率特征类型可以是乐音音阶类型,例如包括中国五音音阶或者西方七音音阶。
[0016]根据本公开的第二方面,提供一种语音分析装置。该装置包括:提取模块,用于从音频信号中提取单位音段,其中单位音段包括一个或多个具有特定频率特征的发声片段的语音帧;确定模块,用于计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型;以及计算模块,用于计算所述音频信号中的所确定的特定频率特征类型中的每个特定频率特征类型的能量值,获得所述音频信号中特定频率特征类型的能量分布。
[0017]根据本公开的第三方面,提供一种电子设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现如前述第一方面所述的方法。
[0018]根据本公开的第四方面,提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面所述的方法。
[0019]根据本专利技术的实施方式,不仅有助于从包含发声片段的音频信号中判断出特定频率特征类型分布、例如五音类型分布,进而有助于进一步判断出特定频率特征类型的能量分布、例如五音能量分布。在此基础上,有助于后续开发各种可能的应用场景,丰富用户体验。
附图说明
[0020]构成本公开的一部分的附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1示意性示出了根据本专利技术一个实施方式的语音分析方法的流程图;
图2示意性示出了根据本专利技术一个实施方式的语音分析方法的流程图;图3示意性示出了根据本专利技术一个实施方式的计算语音帧的第一候选基频以确定特定频率特征类型的方法的流程图;图4示意性示出了根据本专利技术一个实施方式的计算语音帧的第二候选基频以确定特定频率特征类型的方法的流程图;图5示意性示出了根据本专利技术一个实施方式的计算特定频率特征类型的能量的示意图;图6示意性示出了根据本专利技术一个实施方式的语音分析装置的方框图;以及图7示意性示出了根据本专利技术一个实施方式的适合用来实现根据本专利技术实施方式的各种方法的电子设备的方框图。
具体实施方式
[0021]在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本公开的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和如下描述被认为本质上是示例性的而非限制性的。
[0022]附图中的流程图和框图,图示了按照本专利技术各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音分析方法,其特征在于,包括:从音频信号中提取单位音段,其中所述单位音段包括一个或多个具有特定频率特征的发声片段的语音帧;计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型;以及计算所述音频信号中的所确定的特定频率特征类型中的每个特定频率特征类型的能量值,获得所述音频信号中特定频率特征类型的能量分布。2.根据权利要求1所述的方法,其特征在于,在计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型之前,所述方法还包括:对所述单位音段进行帧间平滑处理,形成经平滑处理的信号,其中所述计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型是针对经平滑处理的信号进行的。3.根据权利要求1所述的方法,其特征在于,在计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型之前,所述方法还包括:对所述单位音段进行帧间平滑处理,形成经平滑处理的信号;以及对经平滑处理的信号进行降采样处理;其中所述计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型是针对经降采样处理的信号进行的。4.根据权利要求3所述的方法,其特征在于,所述对经平滑处理的信号进行降采样处理包括将语音帧中的前后多帧信号组合在一起进行降采样处理。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述计算所述单位音段中的全部或部分语音帧的基频以确定特定频率特征类型包括如下各项之一:使用相关性计算方法和平均幅度差计算方法来确定语音帧的第一候选基频,以确定特定频率特征类型,所述相关性计算方法包括使用自相关函数方法或互相关函数方法;利用计算主频的方法来计算语音帧的第二候选基频,以确定特定频率特征类型;以及根据所述第一候选基频和所述第二候选基频进行综合判断来计算语音帧的第三候选基频,以确定特定频率特征类型。6.根据权利要求5所述的方法,其特征在于,所述确定语音帧的第一候选基频具体包括:利用相关性计算方法对语音帧做相关性运算,并且对所得的语音帧,在局部范围找到预设个数的峰值;利用平均幅度差计算方法对语音帧做平均幅度差运算,并且对所得的语音帧,在局部范围找到预设个数的谷值;以及将所述预设个数的峰值对应的频率以及所述预设个数的谷值对应的频率与预先设置的基频范围进行比较来确定语音帧的第一候选基频。7.根据权利要求6所述的方法,其特征在于,进一步包括:对相关性运算结果进行插值处理;和/或对平均幅度差运算结果进行插值处理。8.根据权利要求5所述的方法,其特征在于,所述计算语音帧的第二候选基频具体包括:
对语音帧进行快速傅里叶变换,并且对变换后的结果,在预设范围找到预设个数的峰值,得到所述峰值对应的频率,即主频;以及基于所得到的主频来确定语音帧的第二候...

【专利技术属性】
技术研发人员:陈刚张虎
申请(专利权)人:深圳市倍轻松科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1