基于语音的图像生成方法技术

技术编号:39897733 阅读:4 留言:0更新日期:2023-12-30 13:11
本申请提供一种基于语音的图像生成方法

【技术实现步骤摘要】
基于语音的图像生成方法、装置、介质及电子设备


[0001]本申请属于语音处理领域,涉及一种基于语音的图像生成方法,特别是涉及一种基于语音的图像生成方法

装置

介质及电子设备


技术介绍

[0002]语音识别是近些年来发展很快的技术,如今语音识别已经被广泛运用到人们日常生活生产之中,通过语音完成文本生成记录

操作指令识别等等

[0003]目前基于语音的图像生成方法一般是通过任务的级联方法生成,例如用
ASR

Automatic Speech Recognition
,自动语音识别)
+Text2Image

Text

to

Image
,文本到图像)的级联方法生成,由于该方法至少需要多个模型,因此该方法存在整体图像生成过程复杂性较高

生成图像精度较低的问题


技术实现思路

[0004]本申请的目的在于提供一种基于语音的图像生成方法

装置

介质及电子设备,用于解决目前的图像生成方法存在的整体图像生成过程复杂性较高

生成图像精度较低的问题

[0005]第一方面,本申请提供一种基于语音的图像生成方法,所述图像生成方法包括:获取用于生成目标图像的语音;通过音频编码器对所述语音进行处理,以获取所述语音的嵌入向量;获取样本的嵌入向量,所述样本为从高斯分布中随机采样出的样本;对所述语音的嵌入向量和所述样本的嵌入向量进行连接处理,以获取连接向量;通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量,所述深度学习模型包括基于交叉注意力机制的编码器和第一解码器;通过第二解码器对所述连接向量的去噪声向量进行处理,以获取所述目标图像

[0006]在所述图像生成方法中,仅仅通过引入所述深度学习模型即可实现根据语音直接生成图像,并不涉及任务的级联,整体图像生成过程的复杂性较低,并且由于不涉及任务的级联,因此不存在不同任务之间容易存在的信息丢失和失真的问题,最终生成的目标图像的精度较高

[0007]于本申请的一实施例中,通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量的实现方法包括:
S1
:通过所述深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量;
S2
:若当前迭代次数小于预设迭代次数,则转至
S1
并且所述当前迭代次数的值加1,
S1
中的所述连接向量为更新的连接向量,所述更新的连接向量为所述连接向量的去噪声向量,否则获取所述连接向量的去噪声向量

[0008]于本申请的一实施例中,通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量的实现方法包括:通过堆叠的所述编码器对所述连接向量和所述语音的嵌入向量进行第一交叉融合处理,以获取融合向量;通过堆叠的所述第一解码器对所述融合向量和所述连接向量进行第二交叉融合处理,以获取所述噪声向量

[0009]于本申请的一实施例中,通过堆叠的所述编码器对所述连接向量和所述语音的嵌入向量进行第一交叉融合处理,以获取融合向量的实现方法包括:通过所述堆叠的所述编码器对第一查询向量

第一值向量和第一键向量进行第一交叉融合处理,以获取所述融合向量,所述第一查询向量和所述第一键向量均为所述连接向量,所述第一值向量为所述语音的嵌入向量

[0010]于本申请的一实施例中,通过堆叠的所述第一解码器对所述融合向量和所述连接向量进行第二交叉融合处理,以获取所述噪声向量的实现方法包括:通过所述堆叠的所述第一解码器对第二查询向量

第二值向量和第二键向量进行第二交叉融合处理,以获取所述噪声向量,所述第二查询向量和所述第二键向量均为所述连接向量,所述第二值向量为所述融合向量

[0011]于本申请的一实施例中,所述连接向量的去噪声向量为所述连接向量与所述噪声向量相减后的向量

[0012]于本申请的一实施例中,所述第二解码器为变分自动编码器中的解码器

[0013]第二方面,本申请提供一种基于语音的图像生成装置,所述图像生成装置包括:语音获取模块,用于获取用于生成目标图像的语音;语音处理模块,用于通过音频编码器对所述语音进行处理,以获取所述语音的嵌入向量;样本获取模块,用于获取样本的嵌入向量,所述样本为从高斯分布中随机采样出的样本;连接处理模块,用于对所述语音的嵌入向量和所述样本的嵌入向量进行连接处理,以获取连接向量;噪声获取模块,用于通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量,所述深度学习模型由基于交叉注意力机制的编码器和第一解码器组成;图像获取模块,用于通过第二解码器对所述连接向量的去噪声向量进行处理,以获取所述目标图像

[0014]第三方面,本申请提供一种计算机可读存储介质,其上存储有一计算机程序,该计算机程序被处理器执行时实现本申请第一方面任一项所述图像生成方法

[0015]第四方面,本申请提供一种电子设备,所述电子设备包括:存储器,存储有一计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行本申请第一方面任一项所述图像生成方法

[0016]如上所述,本申请所述基于语音的图像生成方法

装置

介质及电子设备,具有以下有益效果:在所述图像生成方法中,仅仅通过引入所述深度学习模型即可实现根据语音直接生成图像,并不涉及任务的级联,整体图像生成过程的复杂性较低,并且由于不涉及任务的级联,因此不存在不同任务之间容易存在的信息丢失和失真的问题,最终生成的目标图像的精度较高

附图说明
[0017]图1显示为本申请实施例运行所述图像生成方法的硬件结构示意图

[0018]图2显示为本申请实施例所述图像生成方法的流程图

[0019]图3显示为本申请实施例通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量的实现方法的流程图

[0020]图4显示为本申请实施例通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量的实现方法的流程图

[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于语音的图像生成方法,其特征在于,所述图像生成方法包括:获取用于生成目标图像的语音;通过音频编码器对所述语音进行处理,以获取所述语音的嵌入向量;获取样本的嵌入向量,所述样本为从高斯分布中随机采样出的样本;对所述语音的嵌入向量和所述样本的嵌入向量进行连接处理,以获取连接向量;通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量,所述深度学习模型包括基于交叉注意力机制的编码器和第一解码器;通过第二解码器对所述连接向量的去噪声向量进行处理,以获取所述目标图像
。2.
根据权利要求1所述的图像生成方法,其特征在于,通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量的实现方法包括:
S1
:通过所述深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量;
S2
:若当前迭代次数小于预设迭代次数,则转至
S1
并且所述当前迭代次数的值加1,
S1
中的所述连接向量为更新的连接向量,所述更新的连接向量为所述连接向量的去噪声向量,否则获取所述连接向量的去噪声向量
。3.
根据权利要求1所述的图像生成方法,其特征在于,通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理,以获取噪声向量的实现方法包括:通过堆叠的所述编码器对所述连接向量和所述语音的嵌入向量进行第一交叉融合处理,以获取融合向量;通过堆叠的所述第一解码器对所述融合向量和所述连接向量进行第二交叉融合处理,以获取所述噪声向量
。4.
根据权利要求3所述的图像生成方法,其特征在于,通过堆叠的所述编码器对所述连接向量和所述语音的嵌入向量进行第一交叉融合处理,以获取融合向量的实现方法包括:通过所述堆叠的所述编码器对第一查询向量

第一值向量和第一键向量进...

【专利技术属性】
技术研发人员:孔欧
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1