配音方法及装置制造方法及图纸

技术编号:37887710 阅读:8 留言:0更新日期:2023-06-18 11:52
本申请提供一种配音方法及装置,方法包括:确定文本对应的至少一种音色;提取文本中的多个文本单元对应的情感特征集,情感特征集包括多个文本单元分别对应的情感特征,多个文本单元中存在以下至少一种粒度的文本单元:词粒度、句子粒度、段落粒度、篇章粒度;根据至少一种音色、文本以及情感特征集,合成文本的配音。本申请能够准确地生成情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。内容的上下文变化且情感符合当前语境的配音。内容的上下文变化且情感符合当前语境的配音。

【技术实现步骤摘要】
配音方法及装置
[0001]本申请要求于2021年12月14日提交国家知识产权局、申请号为202111525491.8、申请名称为“配音方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。


[0002]本申请实施例涉及多媒体
,尤其涉及一种配音方法及装置。

技术介绍

[0003]在线音频平台的市场越来越成熟,其用户群体的数量也越来越多。在线音频平台可以提供例如广播剧、有声读物以及情感生活节目等多种类型的音频内容,各类音频内容是对文本进行配音得到的。
[0004]目前在线音频平台提供的音频内容通常由人工对文本进行配音得到。在人工配音过程中进行音频内容的录制,之后对录制得到的音频内容进行编辑和后期制作,并将制作完成的音频内容上传至在线音频平台。
[0005]但是人工配音的方式成本较高且效率较低,导致音频内容的制作成本较高且制作周期较长。

技术实现思路

[0006]本申请提供一种配音方法及装置,能够准确地生成情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。
[0007]第一方面,本申请提供一种配音方法,所述方法包括:确定文本对应的至少一种音色;提取所述文本中的多个文本单元对应的情感特征集,所述情感特征集包括所述多个文本单元分别对应的情感特征,所述多个文本单元中存在以下至少一种粒度的文本单元:词粒度、句子粒度、段落粒度、篇章粒度;根据所述至少一种音色、所述文本以及所述情感特征集,合成所述文本的配音。
[0008]该方法中,文本的配音与各种层级粒度的文本单元(包括词粒度、句子粒度、段落粒度以及篇章粒度)对应的情感特征有关,任一文本单元的配音不仅与其对应的情感特征有关,还与其所在的更大粒度的文本单元对应的情感特征有关,使得在文本的配音过程中,考虑到了词所在的句子、段落以及篇章之间的语义联系,在配音过程中无需参考其他音频,在准确提取角色、合理确定音色以及替代真人实现了文本中各个角色的情感配音基础上,实现了文本的配音中每相邻两个句子、每相邻两个段落以及每相邻两个篇章之间的配音的情感自然过渡和自然转换,保证文本的配音的情感能够更符合文本主体基调,从而准确地生成了情感随着角色对应的内容的上下文变化且情感符合当前语境的配音。
[0009]文本可以是配音装置从文本资源数据库中获取的,或者可以是配音装置基于用户输入的内容得到的。
[0010]情感特征用于指示情感类型,情感类型可以包括:和蔼、撒娇、城府老辣、羞愧、生
气、开心以及难过等。
[0011]可选地,可以将至少一种音色、文本以及情感特征集分别进行编码,将编码后的至少一种音色、文本以及情感特征集进行融合后再解码,得到声学特征,之后将声学特征转换为文本的配音。示例地,可以通过声码器(Vocoder)将声学特征转换为文本的配音。声学特征可以包括梅尔谱,可以通过声码器将梅尔谱转换为波形,以得到文本的配音。
[0012]可以通过音色编码器将每种音色编码为一个二进制序列。通过文本编码器进行文本的编码,文本编码器可以采用变换网络中的编码(Encoder)结构或者Tacotron2网络(一种声谱预测网络)中的卷积结构和LSTM结构。通过变分自编码器(Variational Auto Encoder, VAE)对情感特征集进行编码。通过解码器采用自回归方式对融合后的至少一种音色的编码、文本的编码和情感特征集的编码进行解码。
[0013]在一种可能的实现方式中,所述方法还包括:从所述文本中提取至少一个位置关键词,所述位置关键词用于指示方位和/或距离信息;利用所述至少一个位置关键词对所述配音进行渲染。
[0014]其中,位置关键词用于指示对应的角色的方位和/或距离信息。方位例如可以包括上方、下方、前方、后方、左边、右边、左前、左后以及右前等,距离信息例如可以包括远处以及近处等。
[0015]可选地,可以利用渲染算法对文本的配音进行渲染,渲染算法包括头相关传递函数 (Head Related Transfer Functions,HRTF)算法和矢量基幅值相移(Vector Base AmplitudePanning,VBAP)算法。
[0016]利用至少一个位置关键词对配音进行渲染后,渲染后的文本的配音具有三维效果,可以将配音的音效渲染到空间中任意一个位置,从而提高了收听配音的用户的沉浸感和代入感。
[0017]在一种可能的实现方式中,所述文本包括至少一种角色对应的内容,所述从所述文本中提取至少一个位置关键词,包括:从所述文本中提取所述角色对应的位置关键词,所述位置关键词用于指示对应的角色的方位和/或距离信息;所述利用所述至少一个位置关键词对所述配音进行渲染,包括:利用所述位置关键词对所述文本的配音中对应的角色的配音进行渲染。示例地,可以按照与角色绑定的位置关键词在文本中的位置顺序,对角色对应的对白内容的配音依次进行渲染。
[0018]在一种可能的实现方式中,所述多个文本单元包括第一粒度的文本单元和第二粒度的文本单元,所述第二粒度大于所述第一粒度,所述方法还包括:将所述情感特征集中所述第一粒度的文本单元对应的情感特征与所述第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合,得到组合后的情感特征;利用所述组合后的情感特征更新所述第一粒度的文本单元对应的情感特征,得到更新后的情感特征集;所述根据所述至少一种音色、所述文本以及所述情感特征集,合成所述文本的配音,包括:根据所述至少一种音色,所述文本以及所述更新后的情感特征集,合成所述文本的配音。
[0019]示例地,可以将第一粒度的文本单元对应的情感特征与第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征按照预设权重集进行组合,得到组合后的情感特征。其中,预设权重集包括第一粒度的文本单元对应的情感特征的权重,以及第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征的权重。
[0020]在一种可能的实现方式中,所述多个文本单元中存在句子粒度、段落粒度以及篇章粒度的文本单元,所述提取所述文本中的多个文本单元对应的情感特征集,包括:提取所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征;对所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征进行平均处理,得到所述句子粒度的文本单元对应的融合的词特征;基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征,得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征;基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征,得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征;基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征,得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征。
[0021]在一种可能的实现方式中,所述基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征,得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征,包括:将所述多个文本单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种配音方法,其特征在于,所述方法包括:确定文本对应的至少一种音色;提取所述文本中的多个文本单元对应的情感特征集,所述情感特征集包括所述多个文本单元分别对应的情感特征,所述多个文本单元中存在以下至少一种粒度的文本单元:词粒度、句子粒度、段落粒度、篇章粒度;根据所述至少一种音色、所述文本以及所述情感特征集,合成所述文本的配音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述文本中提取至少一个位置关键词,所述位置关键词用于指示方位和/或距离信息;利用所述至少一个位置关键词对所述配音进行渲染。3.根据权利要求2所述的方法,其特征在于,所述文本包括至少一种角色对应的内容,所述从所述文本中提取至少一个位置关键词,包括:从所述文本中提取所述角色对应的位置关键词,所述位置关键词用于指示对应的角色的方位和/或距离信息;所述利用所述至少一个位置关键词对所述配音进行渲染,包括:利用所述位置关键词对所述文本的配音中对应的角色的配音进行渲染。4.根据权利要求1至3任一项所述的方法,其特征在于,所述多个文本单元包括第一粒度的文本单元和第二粒度的文本单元,所述第二粒度大于所述第一粒度,所述方法还包括:将所述情感特征集中所述第一粒度的文本单元对应的情感特征与所述第一粒度的文本单元所属于的第二粒度的文本单元对应的情感特征进行组合,得到组合后的情感特征;利用所述组合后的情感特征更新所述第一粒度的文本单元对应的情感特征,得到更新后的情感特征集;所述根据所述至少一种音色、所述文本以及所述情感特征集,合成所述文本的配音,包括:根据所述至少一种音色,所述文本以及所述更新后的情感特征集,合成所述文本的配音。5.根据权利要求1至4任一项所述的方法,其特征在于,所述多个文本单元中存在句子粒度、段落粒度以及篇章粒度的文本单元,所述提取所述文本中的多个文本单元对应的情感特征集,包括:提取所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征;对所述句子粒度的文本单元包括的各个词粒度的文本单元分别对应的情感特征进行平均处理,得到所述句子粒度的文本单元对应的融合的词特征;基于所述多个文本单元中每个句子粒度的文本单元对应的融合的词特征,得到所述多个文本单元中每个句子粒度的文本单元对应的情感特征;基于所述多个文本单元中每个句子粒度的文本单元对应的情感特征,得到所述多个文本单元中每个段落粒度的文本单元对应的情感特征;基于所述多个文本单元中每个段落粒度的文本单元对应的情感特征,得到所述多个文本单元中每个篇章粒度的文本单元对应的情感特征。6.根据权利要求5所述的方法,其特征在于,所述基于所述多个文本单元中每个句子粒
度的文本单元对应的融合的...

【专利技术属性】
技术研发人员:程泽丰丁二亮张毅杜旭浩
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1