基于语音的图像生成方法、装置、设备及存储介质制造方法及图纸

技术编号：29678321 阅读：32 留言：0更新日期：2021-08-13 22:01

本发明专利技术涉及人工智能领域，公开了一种基于语音的图像生成方法、装置、设备及存储介质，用于提高语音合成图像的正确率。该方法包括：获取待处理的目标语音，并对目标语音进行预处理，得到标准语音；对标准语音进行特征提取，得到语音特征向量；计算语音特征向量的语音相似度并根据语音相似度对目标语音进行语音模板匹配，得到目标语音模板；根据目标语音模板对目标语音进行文本和语义查询，得到文本信息和语义信息；将文本信息和语义信息输入图像生成器进行图像生成，得到初始图像，并通过判别器对初始图像进行图像检测，得到检测结果；若检测结果为边缘正确，则将初始图像作为图像生成模型的输出图像，得到目标图像。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音的图像生成方法、装置、设备及存储介质
本专利技术涉及人工智能领域，尤其涉及一种基于语音的图像生成方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的高速发展，计算机自动生成图像已经成为可能。利用计算机自动生成图像，在艺术品创作，数据增强等方面有重要应用。目前，计算机自动生成图像主要是由计算机根据文本描述来生成图像。这项技术在人机交互，计算机辅助设计方面有重要应用。计算机可以根据创作人员的文本指令生成与文本指令语义一致的图像，可加快创作流程。在刑事侦查、设计思路分享、回忆录等日常生活和专业工作领域有潜在的应用价值。但是大多数图像合成方法都是基于全局句子向量来合成图像，而全局句子向量可能会丢失单词级别的重要细粒度信息，从而造成生成的图像出现错误，因此，现有方案生成的图像准确率低。
技术实现思路
本专利技术提供了一种基于语音的图像生成方法、装置、设备及存储介质，用于提高语音合成图像的正确率。本专利技术第一方面提供了一种基于语音的图像生成方法，所述基于语音的图像生成方法包括：获取待处...

【技术保护点】
1.一种基于语音的图像生成方法，其特征在于，所述基于语音的图像生成方法包括：/n获取待处理的目标语音，并对所述目标语音进行预处理，得到标准语音；/n对所述标准语音进行特征提取，得到语音特征向量；/n对所述语音特征向量进行相似度计算，得到语音相似度，并根据所述语音相似度对所述目标语音进行语音模板匹配，得到目标语音模板；/n根据所述目标语音模板，对所述目标语音进行文本和语义查询，得到所述目标语音对应的文本信息和语义信息；/n将所述文本信息和所述语义信息输入预置的图像生成模型中的图像生成器进行图像生成，得到初始图像，并通过预置的图像生成模型中的判别器对所述初始图像进行图像检测，得到检测结果，所述检测...

【技术特征摘要】
1.一种基于语音的图像生成方法，其特征在于，所述基于语音的图像生成方法包括：
获取待处理的目标语音，并对所述目标语音进行预处理，得到标准语音；
对所述标准语音进行特征提取，得到语音特征向量；
对所述语音特征向量进行相似度计算，得到语音相似度，并根据所述语音相似度对所述目标语音进行语音模板匹配，得到目标语音模板；
根据所述目标语音模板，对所述目标语音进行文本和语义查询，得到所述目标语音对应的文本信息和语义信息；
将所述文本信息和所述语义信息输入预置的图像生成模型中的图像生成器进行图像生成，得到初始图像，并通过预置的图像生成模型中的判别器对所述初始图像进行图像检测，得到检测结果，所述检测结果包括边缘正确和边缘错误；
若所述检测结果为边缘正确，则通过所述图像生成模型将所述初始图像输出为目标图像。

2.根据权利要求1所述的基于语音的图像生成方法，其特征在于，所述对所述标准语音进行特征提取，得到语音特征向量包括：
对所述标准语音进行短时傅里叶变换，得到所述标准语音对应的语音频谱；
采用预置的滤波器对所述语音频谱进行滤波操作，得到所述标准语音对应的目标梅尔频谱；
对所述目标梅尔频谱进行向量编码，得到语音特征向量。

3.根据权利要求1所述的基于语音的图像生成方法，其特征在于，所述对所述语音特征向量进行相似度计算，得到语音相似度，并根据所述语音相似度对所述目标语音进行语音模板匹配，得到目标语音模板包括：
提取所述语音特征向量的向量元素，得到多个向量元素；
调用预置语音模板向量，对所述多个向量元素进行相似度计算，得到语音相似度；
根据所述语音相似度，对所述目标语音进行语音模板匹配，得到目标语音模板。

4.根据权利要求1所述的基于语音的图像生成方法，其特征在于，所述根据所述目标语音模板，对所述目标语音进行文本和语义查询，得到所述目标语音对应的文本信息和语义信息包括：
基于所述目标语音模板，对所述目标语音进行语音匹配，得到所述目标语音对应的语音数据；
分别查询所述语音数据对应的文本和语义，得到所述目标语音对应的文本信息和语义信息。

5.根据权利要求1所述的基于语音的图像生成方法，其特征在于，所述将所述文本信息和所述语义信息输入预置的图像生成模型中的图像生成器进行图像生成，得到初始图像包括：
将所述文本信息和所述语义信息输入预置的图像生成模型中的图像生成器，并采用预置的注意力机制，对所述文本信息进行图像对象提取，得到目标对象，并对所述语义信息进行语义布局信息提取，得到目标布局信息；
调用...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人