【技术实现步骤摘要】
一种声音处理方法和装置
[0001]本申请涉及音频
,尤其涉及一种声音处理方法和装置。
技术介绍
[0002]随着计算机和网络技术的发展与用户形象构建意识的觉醒,越来越多的用户在网络上进行自我展示与自我表达,比如在角色扮演游戏中,用户热衷于通过调整五官、肤色、发型、服装等,打造自己的虚拟外观形象,操纵定制的虚拟形象在游戏中与其他用户交流。但这种个人定制的虚拟形象仅限于人物外观图像,却无法对用户的语音进行定制。
[0003]目前存在一种声音处理方法,用户需要上传少量语料,通过该语料训练模型,模型训练完成后,该模型可以用于输出与用户上传的语料所对应的声音效果。
[0004]上述方案存在声音处理效果差的问题。
技术实现思路
[0005]本申请实施例提供了一种声音处理方法和装置,用于提高声音处理的效果。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]第一方面,本申请实施例提供一种声音处理方法,包括:
[0008]获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音参数和显式声音参数;其中,所述隐式声音参数,包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数;所述显式声音参数,包括如下至少一种:语速维度的声音参数、能量维度的声音参数和音高维度的声音参数;
[0009]对所述隐式声音参数进行特征映射,以得到隐式特征向量;其中,所述隐式特征向量,包括如下至少一种:音色隐式特征向量、情感隐式特征向量 ...
【技术保护点】
【技术特征摘要】
1.一种声音处理方法,其特征在于,包括:获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音参数和显式声音参数;其中,所述隐式声音参数,包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数;所述显式声音参数,包括如下至少一种:语速维度的声音参数、能量维度的声音参数和音高维度的声音参数;对所述隐式声音参数进行特征映射,以得到隐式特征向量;其中,所述隐式特征向量,包括如下至少一种:音色隐式特征向量、情感隐式特征向量和风格隐式特征向量;将所述用户输入信息、所述隐式特征向量和所述显式声音参数输入到声学模型中,通过所述声学模型输出声学特征。2.根据权利要求1所述的方法,其特征在于,所述获取声音参数信息之前,所述方法还包括:获取第一训练文本和第一语料库,所述第一语料库包括:所述第一训练文本对应的第一语音数据,其中,所述第一语音数据预先配置有相应的第一显式特征向量和第一声学特征;将所述第一语音数据输入初始的声学模型,通过所述初始的声学模型输出第一隐式特征向量;获取所述第一训练文本对应的文本隐式特征向量;通过所述初始的声学模型将所述文本隐式特征向量和所述第一隐式特征向量组合为第二隐式特征向量;通过所述初始的声学模型对所述第二隐式特征向量进行预测,以得到第二显式特征向量;根据所述第二显式特征向量对所述第二隐式特征向量进行对齐处理,以得到第三隐式特征向量;通过所述初始的声学模型对所述第二显式特征向量和所述第三隐式特征向量进行预测,以得到第二声学特征;根据所述第二显式特征向量与所述第一显式特征向量进行损失计算,以得到第一损失计算结果;根据所述第二声学特征与所述第一声学特征进行损失计算,以得到第二损失计算结果;根据所述第一损失计算结果和所述第二损失计算结果确定是否结束对所述初始的声学模型的训练。3.根据权利要求1所述的方法,其特征在于,所述获取声音参数信息之前,所述方法还包括:获取第二语料库,所述第二语料库包括:第二语音数据,所述第二语音数据预先配置有相应的第四显式特征向量和第三声学特征;将所述第二语音数据输入初始的声学模型,通过所述初始的声学模型输出第四隐式特征向量;对所述第二语音数据进行内容特征提取,以得到内容隐式特征向量;通过所述初始的声学模型将所述第四隐式特征向量和所述内容隐式特征向量组合为
第五隐式特征向量;通过所述初始的声学模型对所述第四显式特征向量和所述第五隐式特征向量进行预测,以得到第四声学特征;根据所述第三声学特征与所述第四声学特征进行损失计算,以得到第三损失计算结果;根据所述第三损失计算结果确定是否结束对所述初始的声学模型的训练。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取声音参数信息,包括:获取用户选择的所述隐式声音参数和所述显式声音参数;或者,获取声音参数模板,所述声音参数模板包括预设的隐式声音参数和预设的显式声音参数;根据所述声音参数模板获取所述隐式声音参数和所述显式声音参数。5.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取声音参数信息,包括:通过用户输入的文本数据获取所述用户输入信息;或,通过用户输入的语音数据获取所述用户输入信息。6.根据权利要求1至3中任一项所述的方法,其特征在于,所述隐式声音参数,包括:第一维度的声音参数,所述第一维度包括如下其中一种:音色维度、情感维度和风格维度;所述获取声音参数信息,包括:当所述第一维度的声音参数包括多个方向和所述多个方向分别对应的预设幅度时,获取用户从所述多个方向中选择的第一方向和所述用户选择的第一尺度;按照所述第一尺度对所述第一方向对应的预设幅度进行调整,以得到所述第一方向对应的调整后的幅度;所述方法还包括:根据所述第一方向对应的调整后的幅度对所述声学特征进行幅度变换。7.据权利要求1至6中任一项所述的方法,其特征在于,所述隐式声音参数,包括:音色维度的声音参数,和/或风格维度的声音参数;所述用户输入信息包括:文本信息;所述对所述隐式声音参数进行特征映射,以得到隐式特征向量,包括:对所述音色维度的声音参数进行特征映射,以得到音色隐式特征向量,和/或,对所述风格维度的声音参数进行特征映射,以得到风格隐式特征向量;和,获取所述文本信息对应的表情图标,获取与所述表情图标对应的情感隐式特征向量。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:对所述声学特征进行还原,以得到还原后的语音数据。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:将所述还原后的语音数据加入到一条或多条的音轨中;通过所述音轨播放所述还原后的语音数据。10.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:将所述还原后的语音数据存储到音库中。11.一种声音处理装置,其特征在于,所述声音处理装置包括:获取模块,用于获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音
参数和显式声音参数;其中,所述隐式声音参数,包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数;所述显式声音参数,包括如下至少一种:语速维度的声音参数、能量维度的声音参数和音高维度的声音参数;特征映射模块,用于对所述隐式声音...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。