基于语音的图像生成方法技术

技术编号：39897733 阅读：4 留言：0更新日期：2023-12-30 13:11

本申请提供一种基于语音的图像生成方法

全部详细技术资料下载

【技术实现步骤摘要】
基于语音的图像生成方法、装置、介质及电子设备

[0001]本申请属于语音处理领域，涉及一种基于语音的图像生成方法，特别是涉及一种基于语音的图像生成方法
、
装置
、
介质及电子设备
。

技术介绍

[0002]语音识别是近些年来发展很快的技术，如今语音识别已经被广泛运用到人们日常生活生产之中，通过语音完成文本生成记录
、
操作指令识别等等
。
[0003]目前基于语音的图像生成方法一般是通过任务的级联方法生成，例如用
ASR
（
Automatic Speech Recognition
，自动语音识别）
+Text2Image
（
Text
‑
to
‑
Image
，文本到图像）的级联方法生成，由于该方法至少需要多个模型，因此该方法存在整体图像生成过程复杂性较高
、
生成图像精度较低的问题
。

技术实现思路

[0004]本申请的目的在于提供一种基于语音的图像生成方法
、
装置
、
介质及电子设备，用于解决目前的图像生成方法存在的整体图像生成过程复杂性较高
、
生成图像精度较低的问题
。
[0005]第一方面，本申请提供一种基于语音的图像生成方法，所述图像生成方法包括：获取用于生成目标图像的语音；通过音频编码器对所述语音进行处理，以获取所述语音的嵌入向...

【技术保护点】

【技术特征摘要】
1.
一种基于语音的图像生成方法，其特征在于，所述图像生成方法包括：获取用于生成目标图像的语音；通过音频编码器对所述语音进行处理，以获取所述语音的嵌入向量；获取样本的嵌入向量，所述样本为从高斯分布中随机采样出的样本；对所述语音的嵌入向量和所述样本的嵌入向量进行连接处理，以获取连接向量；通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理，以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量，所述深度学习模型包括基于交叉注意力机制的编码器和第一解码器；通过第二解码器对所述连接向量的去噪声向量进行处理，以获取所述目标图像
。2.
根据权利要求1所述的图像生成方法，其特征在于，通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理，以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量的实现方法包括：
S1
：通过所述深度学习模型对所述连接向量和所述语音的嵌入向量进行处理，以获取噪声向量并基于所述噪声向量和所述连接向量获取所述连接向量的去噪声向量；
S2
：若当前迭代次数小于预设迭代次数，则转至
S1
并且所述当前迭代次数的值加1，
S1
中的所述连接向量为更新的连接向量，所述更新的连接向量为所述连接向量的去噪声向量，否则获取所述连接向量的去噪声向量
。3.
根据权利要求1所述的图像生成方法，其特征在于，通过深度学习模型对所述连接向量和所述语音的嵌入向量进行处理，以获取噪声向量的实现方法包括：通过堆叠的所述编码器对所述连接向量和所述语音的嵌入向量进行第一交叉融合处理，以获取融合向量；通过堆叠的所述第一解码器对所述融合向量和所述连接向量进行第二交叉融合处理，以获取所述噪声向量
。4.
根据权利要求3所述的图像生成方法，其特征在于，通过堆叠的所述编码器对所述连接向量和所述语音的嵌入向量进行第一交叉融合处理，以获取融合向量的实现方法包括：通过所述堆叠的所述编码器对第一查询向量
、
第一值向量和第一键向量进...

【专利技术属性】
技术研发人员：孔欧，
申请(专利权)人：上海蜜度科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人