人类发出的谐波声音的识别或合成制造技术

技术编号：39952240 阅读：17 留言：0更新日期：2024-01-08 23:23

在从表示人类语音的波形的分析中导出的频谱序列的每个谐波频谱中，识别出两个或更多个基波或谐波分量，这些基波或谐波分量具有被基波声学频率的整数倍分开的频率。也大于410Hz的最高谐波频率是主上限频率，其用于选择对应于来自声学频谱可用的一组音标和弦的音标和弦子集的主音标音符。频谱数据还可以包括主频带声学分量、次频带(或次音符)声学分量、基频带声学分量或缩减的基频带声学分量的频率，这些分量可以用于从对应于所选择的主音符的音标和弦子集中选择音标和弦。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

专利
本专利技术的领域涉及人类发出的语音的识别或合成。特别地，公开了用于识别或合成人类发出的谐波声音的计算机实现的方法。

技术介绍

0、背景

1、语音处理或合成装置或方法的一些示例公开于以下项中：

2、-1995年4月11日授予jarvinen的标题为“noise attenuation system”的美国专利5,406,635；

3、-2004年9月16日以gao的名义公布的标题为“voicing index controls for celpspeech encoding”的美国公开2004/0181411；

4、-2005年8月2日授予gao的标题为“method and apparatus for improved noisereduction in a speech encoder”的美国专利6,925,435；

5、-2009年4月7日授予seltzer等人的标题为“method and apparatus usingharmonic-model-based front end本文档来自技高网...

【技术保护点】

1.一种用于识别一个或更多个音标和弦的计算机实现的方法，所述一个或更多个音标和弦在从人类语音的话语中导出的电子时间波形中表示，所述方法包括：

2.根据权利要求1所述的方法，其中，所述声学频谱中的每一个对应于所述波形的时间样本间隔序列中的一个，所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器：

3.根据权利要求1所述的方法，其中，所述声学频谱中的每一个对应于不同时间段序列中的一个时间段，在该时间段期间，所述波形的时间相关声学频谱保持与单个音标和弦一致，所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器：>

4.根据权利...

【技术特征摘要】
【国外来华专利技术】

3.根据权利要求1所述的方法，其中，所述声学频谱中的每一个对应于不同时间段序列中的一个时间段，在该时间段期间，所述波形的时间相关声学频谱保持与单个音标和弦一致，所述方法还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器：

4.根据权利要求1所述的方法，还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器，从所述电子时间波形中导出所述声学频谱的时间序列。

5.根据权利要求1所述的方法，其中，对于两个或更多个不同的基波分量或谐波分量，相应的检测阈值根据声学频率而彼此不同。

6.根据权利要求1所述的方法，还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器，对于从所述波形中导出的声学频谱的时间序列中的所述谐波声学频谱中的至少一个，在所述谐波声学频谱中识别基波分量，所述基波分量具有所述基波声学频率和超过检测阈值的强度。

7.根据权利要求1所述的方法，还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器，对于所述多个声学频谱中的特定谐波声学频谱，至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的主频带的谐波分量的谐波频率的比较，从部分(c)的音标和弦的所述子集中选择音标和弦，所述存储的数据指示所述子集中的音标和弦的预期的谐波频率，所述主频带包括所述主上限频率处的谐波分量和所述基波声学频率的一个、两个或三个最大连续倍数处的谐波分量，所述基波声学频率的所述一个、两个或三个最大连续倍数小于所述主上限频率，大于410hz，并且大于高于410hz且小于所述主上限频率的所述基波声学频率的最小整数倍。

8.根据权利要求1所述的方法，还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器，对于所述多个声学频谱中的特定谐波声学频谱，至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的次频带的谐波分量的谐波频率的比较，从部分(c)的所述子集中选择音标和弦，所述存储的数据指示所述组中的音标和弦的预期的谐波频率，所述次频带包括一个或更多个谐波声学频率处的谐波分量，所述一个或更多个谐波声学频率大于高于410hz的所述基波声学频率的最小整数倍，并且所述次频带通过所述基波声学频率的至少一个中间倍数与所述主上限频率分开，所述声学频谱在所述基波声学频率的所述至少一个中间倍数处缺少谐波分量。

9.根据权利要求1所述的方法，还包括使用所述被编程的计算机系统的一个或更多个所述电子处理器，至少部分地基于(i)存储的数据与(ii)所述谐波声学频谱的基频带的谐波分量的谐波频率的比较来对所述多个声学频谱中的特定谐波声学频谱进行部分(c)的所述选择，所述存储的数据指示所述组中的音标和弦的预期的谐波频率，所述基频带包括一个或更多个基波声学频率或谐波声学频率处的谐波分量，所述一个或更多个基波声学频率或谐波声学频率小于410hz或等于在410hz和所述主上限频率之间的所述基波声学频率的最小整数倍。

10.根据权利要求1所述的方法，还包括，对于所识别的谐波分量的最高谐波声学频率小于410hz的所选择的谐波声学频谱，使用所述被编程的计算机系统的一个或更多个所述电子处理器，至少部分地基于以下项从一组谐波或混合声学模式中选择这些模式中的一个：(i)(a)存储的数据与(b)每个识别的基波或谐波分量的谐波频率的比较，所述存储的数据指示所述组中的声学模式预期的谐波频率，以及(ii)更高频率的非谐波频率分量的存在或不存在。

11.一种用于生成存储的数据的计算机实现的方法，所述存储的数据指示一组音标和弦中的音标和弦的相应谐波声学频谱的预期的谐波频率，所述方法包括：

12.根据权利要求11所述的方法，还包括，对于具有公共主音标音符的音标和弦的子集，以及对于一个或更多个人类测试对象在多个不同基波频率处的多个话语，(i)从所述主上限频率估计对应于音标和弦的所述子集的所述公共主音标音符的焦点频率，以及(ii)在不是暂时性传播信号的有形的、非暂时性的计算机可读存储介质上存储所述主音标音符的所述焦点频率...

【专利技术属性】
技术研发人员：鲍里斯·弗里特曼明茨，
申请(专利权)人：鲍里斯·弗里特曼明茨，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人