通过频谱包络共振峰的频移动态修改语音音色的方法和装置制造方法及图纸

技术编号:23057429 阅读:31 留言:0更新日期:2020-01-07 16:14
本发明专利技术描述了一种用于修改声音信号的方法,所述方法包括:在频域中获得声音信号的时间帧的步骤;针对至少一个时间帧,在频域中应用声音信号的第一变换,包括:针对所述至少一个时间帧提取声音信号的频谱包络的步骤;计算所述频谱包络的共振峰的频率的步骤;修改(350)声音信号的频谱包络的步骤,所述修改包括应用(351)频谱包络的频率的连续递增变换函数,该连续递增变换函数由频谱包络的至少两个共振峰频率参数化。

A method and device for dynamically modifying voice tone by frequency shift of spectrum envelope formant

【技术实现步骤摘要】
【国外来华专利技术】通过频谱包络共振峰的频移动态修改语音音色的方法和装置
本专利技术涉及声学处理领域。更具体地,本专利技术涉及修改包含语言的声学信号,以便为语音提供音色,例如微笑音色。
技术介绍
微笑可辨识地改变我们语音的声音,以至于到了客户服务部门建议他们的代表在电话上微笑的程度。即使客户看不到微笑,也会对客户满意度产生积极影响。研究与微笑语音相关的声音信号的特征是一个尚未被充分记录的新研究领域。使用颧肌微笑会改变口腔的形状,从而影响语音的频谱。已经特别证实,当说话者微笑时,语音的声谱指向较高的频率,而当语音悲伤时,语音的声谱指向较低的频率。文献QuenéH.,Semin,G.R.,&Foroni,F.(2012).Audiblesmilesandfrownsaffectspeechcomprehension.SpeechCommunication,54(7),917-922描述了一种微笑语音模拟测试。该实验包括记录一个由实验者中性发音的单词。该实验基于共振峰的频率与语音的音色之间的关系。语言声音的共振峰是语言的声谱的能量最大值。Quené实验包括:当它发出单词时,分析语音的共振峰,存储共振峰的频率,通过将初始共振峰的频率增加10%来产生修改后的共振峰,然后用修改后的共振峰重新合成单词。Quené实验使得可以获得被感知到是在微笑时发音的单词。然而,合成的单词具有将被用户感知为人造的音色。此外,Quené提出的两步架构要求在能够重新合成信号之前分析信号的一部分,从而导致在发出单词的时刻与可以广播其变换的时刻之间产生时移。因此,Quené的方法无法实时修改语音。实时修改语音有许多有趣的应用。例如,语音的实时修改可以应用于呼叫中心应用:话务员的语音可以在传输给客户之前实时修改,以便显得更加微笑。因此,顾客将感觉到他的代表在对他微笑,这可能会提高顾客满意度。另一应用是修改视频游戏中的非玩家角色的语音。非玩家角色是由计算机控制的所有角色,通常是次要角色。这些角色通常与要说出的不同回应相关联,这允许玩家在视频游戏的情节中前进。这些回应通常以音频文件的形式存储,并在玩家与非玩家角色交互时被读出。有趣的是,从单个中性音频文件中,将不同的滤波器应用于中性声音,以产生音色,例如微笑或紧张,以模拟非玩家角色的情绪,并增强游戏中的沉浸感。因此,需要一种修改语音的音色的方法,该方法足够简单以便利用当前计算能力实时执行,并且修改后的语音被感知为是自然语音。
技术实现思路
为此目的,本专利技术描述了一种用于修改声音信号的方法,所述方法包括:在频域中获得声音信号的时间帧的步骤;针对至少一个时间帧,在频域中应用声音信号的第一变换,包括:针对所述至少一个时间帧,提取声音信号的频谱包络的步骤;计算所述频谱包络的共振峰的频率的步骤;修改声音信号的频谱包络的步骤,所述修改包括应用频谱包络的频率的连续递增变换函数,该连续递增变换函数由频谱包络的至少两个共振峰频率参数化。有利地,修改所述声音信号的所述频谱包络的步骤还包括:对所述频谱包络应用滤波器,所述滤波器由所述声音信号的所述频谱包络的第三共振峰的频率参数化。有利地,所述方法包括:根据包括至少一种浊音帧类别和一种非浊音帧类别的一组时间帧类别对时间帧进行分类的步骤。有利地,该方法包括:针对每个浊音帧,在频域中应用所述声音信号的所述第一变换;针对每个非浊音帧,在频域中应用所述声音信号的第二变换,所述第二变换包括:应用滤波器以增加以预定频率为中心的声音信号的能量的步骤。有利地,所述声音信号的所述第二变换包括:针对所述至少一个时间帧,提取所述声音信号的频谱包络的步骤;应用所述频谱包络的频率的连续递增变换函数,该连续递增变换函数与紧接在前的时间帧的频谱包络的频率的连续递增变换函数相同地被参数化。有利地,应用所述频谱包络的频率的连续递增变换函数包括:为根据所述频谱包络的共振峰确定的一组初始频率,计算修改的频率;根据所述频谱包络的共振峰和所述修改的频率确定所述一组初始频率中的初始频率之间的线性插值。有利地,通过将来自所述一组初始频率中的初始频率乘以乘数系数(α)来获得至少一个修改的频率。有利地,根据所述频谱包络的共振峰确定的所述一组频率包括:根据所述声音信号的所述频谱包络的第一共振峰的频率的一半计算出的第一初始频率;根据所述声音信号的所述频谱包络的第二共振峰的频率计算出的第二初始频率;根据所述声音信号的所述频谱包络的第三共振峰的频率计算出的第三初始频率;根据所述声音信号的所述频谱包络的第四共振峰的频率计算出的第四初始频率;根据所述声音信号的所述频谱包络的第五共振峰的频率计算出的第五初始频率。有利地,将第一修改的频率计算为等于所述第一初始频率;通过将所述第二初始频率乘以所述乘数系数来计算第二修改的频率;通过将所述第三初始频率乘以所述乘数系数来计算第三修改的频率;通过将所述第四初始频率乘以所述乘数系数来计算第四修改的频率;将第五修改的频率计算为等于所述第五初始频率。有利地,根据当前时间帧的共振峰的频率计算每个初始频率。有利地,对于大于或等于两个连续时间帧的数目,根据相同等级的共振峰的频率的平均值计算每个初始频率。有利地,所述方法是用于实时修改包括语音的音频信号的方法,包括:接收音频样本;当有足够数量的样本可用于形成音频样本的时间帧时,创建所述帧;将频率变换应用于所述帧的音频样本;将声音信号的第一变换应用于频域中的至少一个时间帧。本专利技术还描述了一种将微笑音色应用于语音的方法,实施用于根据本专利技术修改声音信号的方法,所述至少两个共振峰频率是受语音的微笑音色影响的共振峰频率。有利地,在训练阶段期间,通过比较用户中性或微笑时所说出的音素的频谱包络,确定频谱包络的频率的所述连续递增变换函数。本专利技术还描述了一种计算机程序产品,包括记录在计算机可读介质上的程序代码指令,以便当所述程序在计算机上运行时,执行所述方法的步骤。本专利技术使得可以实时修改语音,以用例如微笑或紧张音色等音色来影响语音。本专利技术方法不是很复杂,并可由普通计算能力实时执行。本专利技术在初始语音与修改的语音之间引入了最小的延迟。本专利技术产生了感知为自然的语音。本专利技术可在使用不同编程语言的很多平台上实施。【附图说明】在根据附图阅读作为非限制性示例提供的以下详细描述时,将出现其它特征,附图示出:图1是由实验者在微笑和不微笑的情况下说出元音'a'的频谱包络的示例;图2是实现本专利技术的系统的示例;图3a和图3b是根据本专利技术的两种示例性方法;图4a和图4b是根据本专利技术的时间帧的频谱包络的频率的连续递增变换函数的两个示例;图5a、图5b和图5c是根据本专利技术修改的元音的频谱包络的三个示例;图6a、图6b和图6c是在微笑和不微笑发出的音素声谱图的三个示例;图7是根据本专利技术的元音声谱图变换的示例;图8示出了根据本专利技术的三个示例性实施例的元音本文档来自技高网
...

【技术保护点】
1.一种用于修改声音信号的方法,所述方法包括:/n在频域中获得(310)声音信号的时间帧的步骤;/n针对至少一个时间帧,在频域中应用所述声音信号的第一变换(320a),包括:/n针对所述至少一个时间帧,提取(330)所述声音信号的频谱包络的步骤;/n计算(340)所述频谱包络的共振峰的频率的步骤;/n修改(350)所述声音信号的所述频谱包络的步骤,所述修改包括应用(351)所述频谱包络的频率的连续递增变换函数,该连续递增变换函数由所述频谱包络的至少两个共振峰频率参数化。/n

【技术特征摘要】
【国外来华专利技术】20170213 FR 17511631.一种用于修改声音信号的方法,所述方法包括:
在频域中获得(310)声音信号的时间帧的步骤;
针对至少一个时间帧,在频域中应用所述声音信号的第一变换(320a),包括:
针对所述至少一个时间帧,提取(330)所述声音信号的频谱包络的步骤;
计算(340)所述频谱包络的共振峰的频率的步骤;
修改(350)所述声音信号的所述频谱包络的步骤,所述修改包括应用(351)所述频谱包络的频率的连续递增变换函数,该连续递增变换函数由所述频谱包络的至少两个共振峰频率参数化。


2.根据权利要求1所述的方法,其中修改(350)所述声音信号的所述频谱包络的步骤还包括:对所述频谱包络应用(352)滤波器,所述滤波器由所述声音信号的所述频谱包络的第三共振峰(F3)的频率参数化。


3.根据权利要求1或2所述的方法,包括:根据包括至少一种浊音帧类别和一种非浊音帧类别的一组时间帧类别对时间帧进行分类(360)的步骤。


4.根据权利要求3所述的方法,包括:
针对每个浊音帧,在频域中应用所述声音信号的所述第一变换(320a);
针对每个非浊音帧,在频域中应用所述声音信号的第二变换(320b),所述第二变换包括:应用滤波器以增加以预定频率为中心的声音信号(370)的能量的步骤。


5.根据权利要求4所述的方法,其中,所述声音信号的所述第二变换(320b)包括:
针对所述至少一个时间帧,提取(330)所述声音信号的频谱包络的步骤;
应用(351b)所述频谱包络的频率的连续递增变换函数,该连续递增变换函数与紧接在前的时间帧的频谱包络的频率的连续递增变换函数相同地被参数化。


6.根据权利要求1至5中任一项所述的方法,其中,应用(351)所述频谱包络的频率的连续递增变换函数包括:
为根据所述频谱包络的共振峰确定的一组初始频率(410、420、430、440、450),计算修改的频率(410a、420a、430a、440a、450a);
根据所述频谱包络的共振峰和所述修改的频率确定所述一组初始频率中的初始频率之间的线性插值(460、461、462、463)。


7.根据权利要求5所述的方法,其中通过将来自所述一组初始频率中的初始频率(420、430、440)乘以乘数系数(α)来获得至少一个修改的频率(420a、430a、440a)。
...

【专利技术属性】
技术研发人员:让朱立安·奥库蒂里耶帕布罗·阿里亚斯阿克塞尔·罗贝尔
申请(专利权)人:法国国家科研中心索邦大学声学音乐研究及调配研究院
类型:发明
国别省市:法国;FR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利