信息处理方法、装置以及计算机可读存储介质制造方法及图纸

技术编号：33074848 阅读：24 留言：0更新日期：2022-04-15 10:10

本申请实施例公开了一种信息处理方法、装置以及计算机可读存储介质；可以获取预设音频以及待转换文本；对待转换文本进行编码处理，得到待转换文本对应的文本编码向量；提取预设音频的全局风格特征，得到预设音频对应的全局风格向量；对全局风格向量以及文本编码向量进行加权求和处理，得到文本表征向量序列，文本表征向量序列包含多个文本表征子向量；基于每个文本表征子向量及其对应的局部风格向量，构建目标语音频谱信息，并输出目标语音频谱信息对应的目标语音信息。以此，通过对合成的语音频谱信息进行全局风格植入和局部风格植入，以实现对合成的语音频谱信息风格植入控制，使得合成的语音频谱信息符合预期风格效果，且更加自然拟真。自然拟真。自然拟真。

全部详细技术资料下载

【技术实现步骤摘要】
信息处理方法、装置以及计算机可读存储介质

[0001]本申请涉及人工智能领域，具体涉及一种信息处理方法、装置以及计算机可读存储介质。

技术介绍

[0002]随着语音技术的发展，使得应用程序的功能得到完善。例如，音频合成(Text to Speech，TTS)，可将计算机内置或外部输入的文字信息转变为语音。相关技术在进行语音合成时，通过获取与文本匹配的音频信息，通过语音模型的无监督方式从音频信息中构建语音的风格成分，以对文本进行风格植入，得到文本对应的语音信息。
[0003]在对现有技术的研究和实践过程中，本申请的专利技术人发现对于现有的语音合成技术，由于在实际应用中部分文本对应的音频信息是无法获取的，即无法查找到与文本一一对应的语音风格，而通过人为设定的方式难以获取特定的语音风格，使得合成的语音风格不符合文本对应的预期风格效果，且合成的语音信息缺乏自然拟真。

技术实现思路

[0004]本申请实施例提供一种信息处理方法、装置以及计算机可读存储介质。可以使得合成的语音信息符合文本对应的预期风格效果，且使得...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法，其特征在于，包括：获取预设音频以及待转换文本；对所述待转换文本进行编码处理，得到所述待转换文本对应的文本编码向量；提取所述预设音频的全局风格特征，得到所述预设音频对应的全局风格向量；对所述全局风格向量以及文本编码向量进行加权求和处理，得到文本表征向量序列，所述文本表征向量序列包含多个文本表征子向量；基于每个文本表征子向量及其对应的局部风格向量，构建目标语音频谱信息，并输出所述目标语音频谱信息对应的目标语音信息。2.根据权利要求1所述的方法，其特征在于，所述基于每个文本表征子向量及其对应的局部风格向量，构建目标语音频谱信息，包括：获取每一文本表征子向量对应的局部风格向量，其中，所述文本表征子向量对应的局部风格向量由前一时刻的语音子基频提取得到；对每一文本表征子向量及对应的局部风格向量进行解码处理，得到每一时刻对应的语音子基频；对每个时刻对应的语音子基频进行融合，得到所述目标语音频谱信息。3.根据权利要求2所述的方法，其特征在于，所述获取每一文本表征子向量对应的局部风格向量，包括：将位于所述文本表征向量序列中首位的文本表征子向量，确定为参考子向量；对所述参考子向量进行解码，得到所述参考子向量对应的参考语音子基频；根据所述参考子向量以及参考语音子基频，获取所述文本表征向量序列中除参考子向量的文本表征子向量对应的局部风格向量。4.根据权利要求3所述的方法，其特征在于，所述根据所述参考子向量以及参考语音子基频，获取所述文本表征向量序列中除参考子向量的文本表征子向量对应的局部风格向量，包括：对所述参考子基频进行风格特征提取，得到所述参考子基频对应的参考局部风格向量；基于所述参考局部风格向量以及参考子向量，获取所述文本表征向量序列中除参考子向量的文本表征子向量对应的局部风格向量。5.根据权利要求1所述的方法，其特征在于，所述预设音频包含多个预设子音频，所述提取...

【专利技术属性】
技术研发人员：林诗伦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人