System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 人类发出的谐波声音的识别或合成制造技术_技高网

人类发出的谐波声音的识别或合成制造技术

技术编号:39952240 阅读:5 留言:0更新日期:2024-01-08 23:23
在从表示人类语音的波形的分析中导出的频谱序列的每个谐波频谱中,识别出两个或更多个基波或谐波分量,这些基波或谐波分量具有被基波声学频率的整数倍分开的频率。也大于410Hz的最高谐波频率是主上限频率,其用于选择对应于来自声学频谱可用的一组音标和弦的音标和弦子集的主音标音符。频谱数据还可以包括主频带声学分量、次频带(或次音符)声学分量、基频带声学分量或缩减的基频带声学分量的频率,这些分量可以用于从对应于所选择的主音符的音标和弦子集中选择音标和弦。

【技术实现步骤摘要】
【国外来华专利技术】

专利
本专利技术的领域涉及人类发出的语音的识别或合成。特别地,公开了用于识别或合成人类发出的谐波声音的计算机实现的方法。


技术介绍

0、背景

1、语音处理或合成装置或方法的一些示例公开于以下项中:

2、-1995年4月11日授予jarvinen的标题为“noise attenuation system”的美国专利5,406,635;

3、-2004年9月16日以gao的名义公布的标题为“voicing index controls for celpspeech encoding”的美国公开2004/0181411;

4、-2005年8月2日授予gao的标题为“method and apparatus for improved noisereduction in a speech encoder”的美国专利6,925,435;

5、-2009年4月7日授予seltzer等人的标题为“method and apparatus usingharmonic-model-based front end for robust speech recognition”的美国专利7,516,067;

6、-2009年12月15日授予fukuda的标题为“speech recognition method fordetermining missing speech”的美国专利7,634,401;

7、-2013年10月22日授予pinson等人的标题为“system and method for automaticspeech to text conversion”的美国专利8,566,088;

8、-2013年12月10日授予li等人的标题为“speech enhancement through partialspeech reconstruction”的美国专利8,606,566;

9、-2014年8月19日授予fukuda等人的标题为“system,method and program forspeech processing”的美国专利8,812,312;

10、-2015年7月21日授予ichikawa等人的标题为“noise reduction method,programproduct,and apparatus”的美国专利9,087,513;

11、-2015年11月17日授予ichikawa的标题为“local peak weighted-minimum meansquare error(lpw-mmse)estimation for robust speech”的美国专利9,190,072;

12、-2017年2月14日授予pinson的标题为“system and method for noisereduction in processing speech signals by targeting speech and disregardingnoise”的美国专利9,570,072;

13、-dieter maurer,acoustic of the vowel:preliminaries,peter lang ag,bern2016;

14、-bruno h.repp,“categorical perception:issues,methods,findings,”speechand language:advances in basic research and practice,第10卷第243页(学术出版社1984),https://doi.org/10.1016/b978-0-12-608610-2.50012-1;

15、-2015年9月29日授予fridman-mintz(此处为专利技术人)的标题为“syllable basedspeech processing method”的美国专利9,147,393;

16、-2016年10月4日授予fridman-mintz(此处为专利技术人)的标题为“method andapparatus for electronically recognizing a series of words based on syllable-defining beats”的美国专利9,460,707;和

17、-2017年8月29日授予fridman-mintz(此处为专利技术人)的标题为“method andapparatus for electronically synthesizing acoustic waveforms representing aseries of words based on syllable-defining beats”的美国专利9,747,892。

18、上面列出的最后三项专利中的每一项(每一项都授予fridman-mintz)通过引用如同在本文中以其整体阐述一样并入。


技术实现思路

0、概述

1、一种计算机实现的方法被采用来识别在从人类语音的话语中导出的电子时间波形内表示的一个或更多个音标和弦(例如,谐波音标)。在一些情况下,根据从波形导出的声学频谱的时间序列,分析该时间序列中的多个谐波声学频谱中的每一个,以在该谐波声学频谱内识别两个或更多个基波或谐波分量,该基波或谐波分量各自具有超过检测阈值的强度。所识别的分量具有被与该声学频谱相关联的基波声学频率的至少一个整数倍分开的频率。对于多个声学频谱中的至少一些,识别主上限频率(primary cap frequency),该主上限频率大于410hz,并且也是所识别的谐波分量中的最高谐波频率。对于识别了主上限频率的每个声学频谱,所识别的主上限频率被用于从一组音标音符中选择至少一个音标音符作为主音标音符。所选择的主音标音符对应于来自一组音标和弦的音标和弦子集。

2、在一些情况下,时间序列的声学频谱可以对应于波形的时间样本间隔序列中的一个时间样本间隔;在其他情况下,声学频谱对应于不同时间段序列中的一个时间段,在该时间段期间,波形的时间相关声学频谱保持与单个音标和弦一致。在一些情况下,可以基于谐波声学频谱中存在的谐波分量来选择音标和弦,所述谐波分量包括主频带、次频带、基频带或缩减的基频带中的一个或更多个(每个在下面讨论)。

3、一种计算机实现的方法被采用来分析人类发出的语音并生成频谱数据,该频谱数据可以用于在上述方法中识别谐波音标和弦。对于每个音标和弦,对从一个或更多个人类测试对象的具有该音标和弦的相应话语导出的波形进行频谱分析。对于每个电子波形,频谱分析包括基波声学频率的估计和两个或更多个基波或谐波分量的识别,该基波或谐波分量各自具有超过检测阈值的强度和作为基波声学频率或其谐波的声学频率。识别并存储每个音标和弦的主上限频率以及每个识别的基波或谐波分量的声学频率本文档来自技高网...

【技术保护点】

1.一种用于识别一个或更多个音标和弦的计算机实现的方法,所述一个或更多个音标和弦在从人类语音的话语中导出的电子时间波形中表示,所述方法包括:

2.根据权利要求1所述的方法,其中,所述声学频谱中的每一个对应于所述波形的时间样本间隔序列中的一个,所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器:

3.根据权利要求1所述的方法,其中,所述声学频谱中的每一个对应于不同时间段序列中的一个时间段,在该时间段期间,所述波形的时间相关声学频谱保持与单个音标和弦一致,所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器:

4.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,从所述电子时间波形中导出所述声学频谱的时间序列。

5.根据权利要求1所述的方法,其中,对于两个或更多个不同的基波分量或谐波分量,相应的检测阈值根据声学频率而彼此不同。

6.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,对于从所述波形中导出的声学频谱的时间序列中的所述谐波声学频谱中的至少一个,在所述谐波声学频谱中识别基波分量,所述基波分量具有所述基波声学频率和超过检测阈值的强度。

7.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,对于所述多个声学频谱中的特定谐波声学频谱,至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的主频带的谐波分量的谐波频率的比较,从部分(c)的音标和弦的所述子集中选择音标和弦,所述存储的数据指示所述子集中的音标和弦的预期的谐波频率,所述主频带包括所述主上限频率处的谐波分量和所述基波声学频率的一个、两个或三个最大连续倍数处的谐波分量,所述基波声学频率的所述一个、两个或三个最大连续倍数小于所述主上限频率,大于410Hz,并且大于高于410Hz且小于所述主上限频率的所述基波声学频率的最小整数倍。

8.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,对于所述多个声学频谱中的特定谐波声学频谱,至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的次频带的谐波分量的谐波频率的比较,从部分(c)的所述子集中选择音标和弦,所述存储的数据指示所述组中的音标和弦的预期的谐波频率,所述次频带包括一个或更多个谐波声学频率处的谐波分量,所述一个或更多个谐波声学频率大于高于410Hz的所述基波声学频率的最小整数倍,并且所述次频带通过所述基波声学频率的至少一个中间倍数与所述主上限频率分开,所述声学频谱在所述基波声学频率的所述至少一个中间倍数处缺少谐波分量。

9.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的基频带的谐波分量的谐波频率的比较来对所述多个声学频谱中的特定谐波声学频谱进行部分(c)的所述选择,所述存储的数据指示所述组中的音标和弦的预期的谐波频率,所述基频带包括一个或更多个基波声学频率或谐波声学频率处的谐波分量,所述一个或更多个基波声学频率或谐波声学频率小于410Hz或等于在410Hz和所述主上限频率之间的所述基波声学频率的最小整数倍。

10.根据权利要求1所述的方法,还包括,对于所识别的谐波分量的最高谐波声学频率小于410Hz的所选择的谐波声学频谱,使用所述被编程的计算机系统的一个或更多个所述电子处理器,至少部分地基于以下项从一组谐波或混合声学模式中选择这些模式中的一个:(i)(A)存储的数据与(B)每个识别的基波或谐波分量的谐波频率的比较,所述存储的数据指示所述组中的声学模式预期的谐波频率,以及(ii)更高频率的非谐波频率分量的存在或不存在。

11.一种用于生成存储的数据的计算机实现的方法,所述存储的数据指示一组音标和弦中的音标和弦的相应谐波声学频谱的预期的谐波频率,所述方法包括:

12.根据权利要求11所述的方法,还包括,对于具有公共主音标音符的音标和弦的子集,以及对于一个或更多个人类测试对象在多个不同基波频率处的多个话语,(i)从所述主上限频率估计对应于音标和弦的所述子集的所述公共主音标音符的焦点频率,以及(ii)在不是暂时性传播信号的有形的、非暂时性的计算机可读存储介质上存储所述主音标音符的所述焦点频率的电子标记。

13.根据权利要求11所述的方法,其中,所述检测阈值作为声学频率的函数而变化。

14.根据权利要求11所述的方法,其中,对于所述组中的音标和弦中的至少一些,所述存储的数据包括对应的谐波声学...

【技术特征摘要】
【国外来华专利技术】

1.一种用于识别一个或更多个音标和弦的计算机实现的方法,所述一个或更多个音标和弦在从人类语音的话语中导出的电子时间波形中表示,所述方法包括:

2.根据权利要求1所述的方法,其中,所述声学频谱中的每一个对应于所述波形的时间样本间隔序列中的一个,所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器:

3.根据权利要求1所述的方法,其中,所述声学频谱中的每一个对应于不同时间段序列中的一个时间段,在该时间段期间,所述波形的时间相关声学频谱保持与单个音标和弦一致,所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器:

4.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,从所述电子时间波形中导出所述声学频谱的时间序列。

5.根据权利要求1所述的方法,其中,对于两个或更多个不同的基波分量或谐波分量,相应的检测阈值根据声学频率而彼此不同。

6.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,对于从所述波形中导出的声学频谱的时间序列中的所述谐波声学频谱中的至少一个,在所述谐波声学频谱中识别基波分量,所述基波分量具有所述基波声学频率和超过检测阈值的强度。

7.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,对于所述多个声学频谱中的特定谐波声学频谱,至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的主频带的谐波分量的谐波频率的比较,从部分(c)的音标和弦的所述子集中选择音标和弦,所述存储的数据指示所述子集中的音标和弦的预期的谐波频率,所述主频带包括所述主上限频率处的谐波分量和所述基波声学频率的一个、两个或三个最大连续倍数处的谐波分量,所述基波声学频率的所述一个、两个或三个最大连续倍数小于所述主上限频率,大于410hz,并且大于高于410hz且小于所述主上限频率的所述基波声学频率的最小整数倍。

8.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,对于所述多个声学频谱中的特定谐波声学频谱,至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的次频带的谐波分量的谐波频率的比较,从部分(c)的所述子集中选择音标和弦,所述存储的数据指示所述组中的音标和弦的预期的谐波频率,所述次频带包括一个或更多个谐波声学频率处的谐波分量,所述一个或更多个谐波声学频率大于高于410hz的所述基波声学频率的最小整数倍,并且所述次频带通过所述基波声学频率的至少一个中间倍数与所述主上限频率分开,所述声学频谱在所述基波声学频率的所述至少一个中间倍数处缺少谐波分量。

9.根据权利要求1所述的方法,还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器,至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的基频带的谐波分量的谐波频率的比较来对所述多个声学频谱中的特定谐波声学频谱进行部分(c)的所述选择,所述存储的数据指示所述组中的音标和弦的预期的谐波频率,所述基频带包括一个或更多个基波声学频率或谐波声学频率处的谐波分量,所述一个或更多个基波声学频率或谐波声学频率小于410hz或等于在410hz和所述主上限频率之间的所述基波声学频率的最小整数倍。

10.根据权利要求1所述的方法,还包括,对于所识别的谐波分量的最高谐波声学频率小于410hz的所选择的谐波声学频谱,使用所述被编程的计算机系统的一个或更多个所述电子处理器,至少部分地基于以下项从一组谐波或混合声学模式中选择这些模式中的一个:(i)(a)存储的数据与(b)每个识别的基波或谐波分量的谐波频率的比较,所述存储的数据指示所述组中的声学模式预期的谐波频率,以及(ii)更高频率的非谐波频率分量的存在或不存在。

11.一种用于生成存储的数据的计算机实现的方法,所述存储的数据指示一组音标和弦中的音标和弦的相应谐波声学频谱的预期的谐波频率,所述方法包括:

12.根据权利要求11所述的方法,还包括,对于具有公共主音标音符的音标和弦的子集,以及对于一个或更多个人类测试对象在多个不同基波频率处的多个话语,(i)从所述主上限频率估计对应于音标和弦的所述子集的所述公共主音标音符的焦点频率,以及(ii)在不是暂时性传播信号的有形的、非暂时性的计算机可读存储介质上存储所述主音标音符的所述焦点频率...

【专利技术属性】
技术研发人员:鲍里斯·弗里特曼明茨
申请(专利权)人:鲍里斯·弗里特曼明茨
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1