一种声音处理方法和装置制造方法及图纸

技术编号:37720530 阅读:10 留言:0更新日期:2023-06-02 00:19
本申请实施例公开了一种声音处理方法和装置,用于提高声音处理的效果。本申请实施例提供一种声音处理方法,包括:获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音参数和显式声音参数;对所述隐式声音参数进行特征映射,以得到隐式特征向量;将所述用户输入信息、所述隐式特征向量和所述显式声音参数输入到声学模型中,通过所述声学模型输出声学特征。声学特征。声学特征。

【技术实现步骤摘要】
一种声音处理方法和装置


[0001]本申请涉及音频
,尤其涉及一种声音处理方法和装置。

技术介绍

[0002]随着计算机和网络技术的发展与用户形象构建意识的觉醒,越来越多的用户在网络上进行自我展示与自我表达,比如在角色扮演游戏中,用户热衷于通过调整五官、肤色、发型、服装等,打造自己的虚拟外观形象,操纵定制的虚拟形象在游戏中与其他用户交流。但这种个人定制的虚拟形象仅限于人物外观图像,却无法对用户的语音进行定制。
[0003]目前存在一种声音处理方法,用户需要上传少量语料,通过该语料训练模型,模型训练完成后,该模型可以用于输出与用户上传的语料所对应的声音效果。
[0004]上述方案存在声音处理效果差的问题。

技术实现思路

[0005]本申请实施例提供了一种声音处理方法和装置,用于提高声音处理的效果。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]第一方面,本申请实施例提供一种声音处理方法,包括:
[0008]获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音参数和显式声音参数;其中,所述隐式声音参数,包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数;所述显式声音参数,包括如下至少一种:语速维度的声音参数、能量维度的声音参数和音高维度的声音参数;
[0009]对所述隐式声音参数进行特征映射,以得到隐式特征向量;其中,所述隐式特征向量,包括如下至少一种:音色隐式特征向量、情感隐式特征向量和风格隐式特征向量;
[0010]将所述用户输入信息、所述隐式特征向量和所述显式声音参数输入到声学模型中,通过所述声学模型输出声学特征。
[0011]在上述方案中,本申请实施例中能够获取到用户输入信息、显式声音参数和隐式声音参数,由于隐式声音参数无法被声学模型直接识别,该隐式声音参数需要被映射为隐式特征向量,声学模型中输入的是用户输入信息、隐式特征向量和显式声音参数,因此声学模型可以通过多种维度的声音参数进输出声学特征,使得声音的处理效果更加丰富。
[0012]在上述方案中,声音参数信息中包括的隐式声音参数可以包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数,上述多种维度的隐式声音参数可以采用默认配置,也可以由用户对上述多种维度中的一种或多种或全部维度的隐式声音参数进行设置。用户可以调整情感、风格、音色等多个维度的声音参数合成虚拟声音形象,将声音形象拆解为可量化的参数表达,满足了用户精确可调控富有表达性的虚拟声音形象合成的需求。
[0013]在上述方案中,声音参数信息中包括的隐式声音参数可以包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数,上述多种维度的隐式声
音参数可以采用默认配置,也可以由用户对上述多种维度中的一种或多种或全部维度的隐式声音参数进行设置。用户可以调整情感、风格、音色等多个维度的声音参数合成虚拟声音形象,将声音形象拆解为可量化的参数表达,满足了用户精确可调控富有表达性的虚拟声音形象合成的需求。
[0014]在一种可能的实现方式中,所述获取声音参数信息之前,所述方法还包括:
[0015]获取第一训练文本和第一语料库,所述第一语料库包括:所述第一训练文本对应的第一语音数据,其中,所述第一语音数据预先配置有相应的第一显式特征向量和第一声学特征;
[0016]将所述第一语音数据输入初始的声学模型,通过所述初始的声学模型输出第一隐式特征向量;
[0017]获取所述第一训练文本对应的文本隐式特征向量;
[0018]通过所述初始的声学模型将所述文本隐式特征向量和所述第一隐式特征向量组合为第二隐式特征向量;
[0019]通过所述初始的声学模型对所述第二隐式特征向量进行预测,以得到第二显式特征向量;
[0020]根据所述第二显式特征向量对所述第二隐式特征向量进行对齐处理,以得到第三隐式特征向量;
[0021]通过所述初始的声学模型对所述第二显式特征向量和所述第三隐式特征向量进行预测,以得到第二声学特征;
[0022]根据所述第二显式特征向量与所述第一显式特征向量进行损失计算,以得到第一损失计算结果;
[0023]根据所述第二声学特征与所述第一声学特征进行损失计算,以得到第二损失计算结果;
[0024]根据所述第一损失计算结果和所述第二损失计算结果确定是否结束对所述初始的声学模型的训练。
[0025]在上述方案中,声音处理装置可以使用声学模型进行特征预测,该声学模型可以由声音处理装置通过机器学习算法进行模型训练得到,接下来对声学模型的训练过程进行举例说明。声音处理装置可以预先提供训练文本和语料库,则声音处理装置可以根据该训练文本和语料库对初始的声学模型进行训练。
[0026]在一种可能的实现方式中,所述获取声音参数信息之前,所述方法还包括:
[0027]获取第二语料库,所述第二语料库包括:第二语音数据,所述第二语音数据预先配置有相应的第四显式特征向量和第三声学特征;
[0028]将所述第二语音数据输入初始的声学模型,通过所述初始的声学模型输出第四隐式特征向量;
[0029]对所述第二语音数据进行内容特征提取,以得到内容隐式特征向量;
[0030]通过所述初始的声学模型将所述第四隐式特征向量和所述内容隐式特征向量组合为第五隐式特征向量;
[0031]通过所述初始的声学模型对所述第四显式特征向量和所述第五隐式特征向量进行预测,以得到第四声学特征;
[0032]根据所述第三声学特征与所述第四声学特征进行损失计算,以得到第三损失计算结果;
[0033]根据所述第三损失计算结果确定是否结束对所述初始的声学模型的训练。
[0034]在上述方案中,声音处理装置可以使用声学模型进行特征预测,该声学模型可以由声音处理装置通过机器学习算法进行模型训练得到,接下来对声学模型的训练过程进行举例说明。声音处理装置可以预先提供语料库,则声音处理装置可以根据该语料库对初始的声学模型进行训练。
[0035]在一种可能的实现方式中,所述获取声音参数信息,包括:
[0036]获取用户选择的所述隐式声音参数和所述显式声音参数;或者,
[0037]获取声音参数模板,所述声音参数模板包括预设的隐式声音参数和预设的显式声音参数;根据所述声音参数模板获取所述隐式声音参数和所述显式声音参数。
[0038]在上述方案中,显式声音参数和隐式声音参数中都可以根据用户的需要进行灵活的配置,由用户来选择具体的显式声音参数和隐式声音参数。不限定的是,本申请实施例中还可以由用户选择隐式声音参数,显式声音参数通过用户输入信息得到,或者显式声音参数通过默认配置得到。不同声音参数之间互相解耦,可以根据用户的需求控制需要生成的具体声音形象,从而使得用户可以根据自己的个人喜好,灵活定制自己的声音形象。或者,可以预先设置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音处理方法,其特征在于,包括:获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音参数和显式声音参数;其中,所述隐式声音参数,包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数;所述显式声音参数,包括如下至少一种:语速维度的声音参数、能量维度的声音参数和音高维度的声音参数;对所述隐式声音参数进行特征映射,以得到隐式特征向量;其中,所述隐式特征向量,包括如下至少一种:音色隐式特征向量、情感隐式特征向量和风格隐式特征向量;将所述用户输入信息、所述隐式特征向量和所述显式声音参数输入到声学模型中,通过所述声学模型输出声学特征。2.根据权利要求1所述的方法,其特征在于,所述获取声音参数信息之前,所述方法还包括:获取第一训练文本和第一语料库,所述第一语料库包括:所述第一训练文本对应的第一语音数据,其中,所述第一语音数据预先配置有相应的第一显式特征向量和第一声学特征;将所述第一语音数据输入初始的声学模型,通过所述初始的声学模型输出第一隐式特征向量;获取所述第一训练文本对应的文本隐式特征向量;通过所述初始的声学模型将所述文本隐式特征向量和所述第一隐式特征向量组合为第二隐式特征向量;通过所述初始的声学模型对所述第二隐式特征向量进行预测,以得到第二显式特征向量;根据所述第二显式特征向量对所述第二隐式特征向量进行对齐处理,以得到第三隐式特征向量;通过所述初始的声学模型对所述第二显式特征向量和所述第三隐式特征向量进行预测,以得到第二声学特征;根据所述第二显式特征向量与所述第一显式特征向量进行损失计算,以得到第一损失计算结果;根据所述第二声学特征与所述第一声学特征进行损失计算,以得到第二损失计算结果;根据所述第一损失计算结果和所述第二损失计算结果确定是否结束对所述初始的声学模型的训练。3.根据权利要求1所述的方法,其特征在于,所述获取声音参数信息之前,所述方法还包括:获取第二语料库,所述第二语料库包括:第二语音数据,所述第二语音数据预先配置有相应的第四显式特征向量和第三声学特征;将所述第二语音数据输入初始的声学模型,通过所述初始的声学模型输出第四隐式特征向量;对所述第二语音数据进行内容特征提取,以得到内容隐式特征向量;通过所述初始的声学模型将所述第四隐式特征向量和所述内容隐式特征向量组合为
第五隐式特征向量;通过所述初始的声学模型对所述第四显式特征向量和所述第五隐式特征向量进行预测,以得到第四声学特征;根据所述第三声学特征与所述第四声学特征进行损失计算,以得到第三损失计算结果;根据所述第三损失计算结果确定是否结束对所述初始的声学模型的训练。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取声音参数信息,包括:获取用户选择的所述隐式声音参数和所述显式声音参数;或者,获取声音参数模板,所述声音参数模板包括预设的隐式声音参数和预设的显式声音参数;根据所述声音参数模板获取所述隐式声音参数和所述显式声音参数。5.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取声音参数信息,包括:通过用户输入的文本数据获取所述用户输入信息;或,通过用户输入的语音数据获取所述用户输入信息。6.根据权利要求1至3中任一项所述的方法,其特征在于,所述隐式声音参数,包括:第一维度的声音参数,所述第一维度包括如下其中一种:音色维度、情感维度和风格维度;所述获取声音参数信息,包括:当所述第一维度的声音参数包括多个方向和所述多个方向分别对应的预设幅度时,获取用户从所述多个方向中选择的第一方向和所述用户选择的第一尺度;按照所述第一尺度对所述第一方向对应的预设幅度进行调整,以得到所述第一方向对应的调整后的幅度;所述方法还包括:根据所述第一方向对应的调整后的幅度对所述声学特征进行幅度变换。7.据权利要求1至6中任一项所述的方法,其特征在于,所述隐式声音参数,包括:音色维度的声音参数,和/或风格维度的声音参数;所述用户输入信息包括:文本信息;所述对所述隐式声音参数进行特征映射,以得到隐式特征向量,包括:对所述音色维度的声音参数进行特征映射,以得到音色隐式特征向量,和/或,对所述风格维度的声音参数进行特征映射,以得到风格隐式特征向量;和,获取所述文本信息对应的表情图标,获取与所述表情图标对应的情感隐式特征向量。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:对所述声学特征进行还原,以得到还原后的语音数据。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:将所述还原后的语音数据加入到一条或多条的音轨中;通过所述音轨播放所述还原后的语音数据。10.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:将所述还原后的语音数据存储到音库中。11.一种声音处理装置,其特征在于,所述声音处理装置包括:获取模块,用于获取声音参数信息,所述声音参数信息包括:用户输入信息、隐式声音
参数和显式声音参数;其中,所述隐式声音参数,包括如下至少一种:音色维度的声音参数、情感维度的声音参数和风格维度的声音参数;所述显式声音参数,包括如下至少一种:语速维度的声音参数、能量维度的声音参数和音高维度的声音参数;特征映射模块,用于对所述隐式声音...

【专利技术属性】
技术研发人员:张思捷
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1