语音处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:31744668 阅读:10 留言:0更新日期:2022-01-05 16:23
本公开提供了一种语音处理方法、装置、电子设备和存储介质,涉及计算机技术领域,具体涉及语音技术和深度学习等人工智能技术领域。具体实现方案为:获取原始语音;从原始语音中提取频谱图;获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型;调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构;以及调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。由此,该方法具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。音稳定且计算量小等特点。音稳定且计算量小等特点。

【技术实现步骤摘要】
语音处理方法、装置、电子设备和存储介质


[0001]本公开涉及计算机
,具体涉及语音技术和深度学习等人工智能
,尤其涉及一种语音处理方法、装置、电子设备和存储介质。

技术介绍

[0002]声码器技术是指将声学特征转换为语音信号的一项技术。声码器是语音合成链路中的重要组成部分,直接决定了合成音频的稳定性、音质和表现力。
[0003]语音合成技术发展至今形成了多种多样的声码器技术,尤其是近年来随着深度学习技术的逐渐成熟,涌现出了很多合成质量较好的神经声码器。这些声码器按是否采用深度学习技术,可以将其分为传统声码器和神经网络声码器,其中,没有应用深度学习技术的声码器我们统称为传统声码器,另一类采用深度学习技术的声码器,我们称之为神经网络声码器。

技术实现思路

[0004]本公开提供了一种语音处理方法、装置、电子设备和存储介质。
[0005]根据本公开的一方面,提供了一种语音处理方法,包括:
[0006]获取原始语音;
[0007]从所述原始语音中提取频谱图;
[0008]获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;
[0009]调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及
[0010]调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。
[0011]根据本公开的另一方面,提供了一种语音处理装置,包括:
[0012]第一获取模块,用于获取原始语音;
[0013]提取模块,用于从所述原始语音中提取频谱图;
[0014]第二获取模块,用于获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;
[0015]第一生成模块,用于调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及
[0016]第二生成模块,用于调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。
[0017]根据本公开的另一方面,提供了一种电子设备,包括:
[0018]至少一个处理器;以及
[0019]与所述至少一个处理器通信连接的存储器;其中,
[0020]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的语音处理方法。
[0021]根据本公开另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音处理方法。
[0022]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述一方面实施例所述的语音处理方法的步骤。
[0023]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0024]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0025]图1为本公开实施例提供的一种语音处理方法的流程示意图;
[0026]图2为本公开实施例提供的另一种语音处理方法的流程示意图;
[0027]图3为本公开实施例提供的另一种语音处理方法的流程示意图;
[0028]图4为本公开实施例提供的另一种语音处理方法的流程示意图;
[0029]图5为本公开实施例提供的另一种语音处理方法的流程示意图;
[0030]图6为本公开实施例提供的一种语音处理装置的结构示意图;以及
[0031]图7为本公开实施例的语音处理方法的电子设备的框图。
具体实施方式
[0032]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0033]下面参考附图描述本公开实施例的语音处理方法、装置、电子设备和存储介质。
[0034]人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的
也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
[0035]语音技术是指在计算机领域中的关键技术有自动语音识别技术(Automatic Speech Recognition,简称“ASR”)和语音合成技术(Text toSpeech,简称“TTS”)。其中,让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势;最早的语音技术因“自动翻译电话”计划而起,包含了语音识别、自然语言理解和语音合成三项非常主要的技术。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,此后研究者们逐步突破了大词汇量、连续语音和非特定人这三大障碍;让计算机说话需要用到语音合成技术,其核心是文语转换技术(Text to Speech),语音合成甚至已经应用到汽车的信息系统上,车
主可以将下载到系统电脑中的文本文件、电子邮件、网络新闻或小说,转换成语音在车内收听。
[0036]深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
[0037]本公开实施例提供的语音处理方法,可以由电子设备来执行,该电子设备可为PC(Personal Computer,个人计算机)电脑、平板电脑、掌上电脑、手机或服务器等,此处不做任何限定。
[0038]在本公开实施例中,电子设备中可以设置有处理组件、存储组件和驱动组件。可选的,该驱动组件和处理组件可以集成设置,该存储组件可以存储操作系统、应用程序或其他程序模块,该处理组件通过执行存储组件中存储的应用程序来实现本公开实施例提供的语音处理方法。
[0039]图1为本公开实施例提供的一种语音处理方法的流程示意图。
[0040]本公开实施例的语音处理方法,还可由本公开实施例提供的语音处理装置执行,该装置可配置于电子设备中,以实现从获取到的原始语音中提取频谱图,并调用语音合成模型中的第一生成子模型对频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,包括:获取原始语音;从所述原始语音中提取频谱图;获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。2.根据权利要求1所述的方法,其中,所述调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构,包括:对所述频谱图进行处理,以生成多组正弦波参数,其中,每组所述正弦波参数包括振幅和频率;分别生成所述多组正弦波参数的正弦波;将所述多组正弦波参数的正弦波进行叠加,以生成所述谐波结构。3.根据权利要求1所述的方法,其中,所述调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音,包括:根据所述谐波结构和所述频谱图生成多个子带语音;将所述多个子带语音进行合成,以生成目标语音。4.根据权利要求1所述的方法,其中,所述第一生成子模型通过以下方式生成:获取样本语音,并从所述样本语音中提取样本频谱图;对所述样本频谱图进行处理,以生成滤波器组和多组样本正弦波参数;通过所述滤波器组对白噪声进行滤波,以生成所述样本频谱图的非周期信号;分别生成所述多组样本正弦波参数的正弦波;将所述多组样本正弦波参数的正弦波进行叠加,以生成所述样本频谱图的样本谐波结构;将所述样本谐波结构与所述非周期信号进行叠加,以得到预测的第一合成语音;根据所述第一合成语音和所述样本语音生成第一损失值,并根据所述第一损失值对所述第一生成子模型进行训练。5.根据权利要求4所述的方法,其中,所述第二生成子模型通过以下方式生成:将所述样本频谱图和所述样本谐波结构输入所述第二生成子模型,以生成预测的第二合成语音;根据判别器对所述样本语音和所述第二合成语音进行判别,以生成第二损失值;根据所述第二损失值对所述第二生成子模型进行训练。6.一种语音处理装置,包括:第一获取模块,用于获取原始语音;提取模块,用于从所述原始语音中提取频谱图;第二获取模块,用于获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;第一生成模块,用于调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及
第二生成模块,用于...

【专利技术属性】
技术研发人员:侯建康孙涛聂志朋张立强贾磊王海峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1