一种语音处理方法及相关设备技术

技术编号:30137615 阅读:26 留言:0更新日期:2021-09-23 14:51
本申请实施例公开了一种语音处理方法及相关设备。可以应用于用户录制短视频、老师录制授课语音等场景,该方法包括:获取原始语音与第二文本,原始语音对应的原始文本与第二文本所属的目标文本都包括第一文本;通过参考原始文本中正确文本(即第一文本)的第一语音特征生成目标文本中校正文本(即第二文本)的第二语音特征,再根据第二语音特征生成校正文本对应的目标编辑语音,实现修改部分对应的目标编辑语音的听感与正确文本对应的非编辑语音的听感类似,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
一种语音处理方法及相关设备


[0001]本申请实施例涉及人工智能领域与音频应用领域,尤其涉及一种语音处理方法及相关设备。

技术介绍

[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,语音编辑具有非常重要的实用意义。比如,在用户录制短视频、老师在录制授课语音等场景下,经常会由于口误而导致语音中的某些内容出错。该种情况下,语音编辑便可帮助用户或老师方便又快速地修正原始语音中的错误内容,生成校正后的语音。常用的语音编辑方法是通过预先构建含有大量语音片段的数据库,从数据库中获取发音单元的片段,并用该片段替换原始语音中的错误片段,进而生成校正后的语音。
[0004]然而,上述语音编辑的方式依赖数据库中语音片段的多样性,在数据库中语音片段较少的情况下,会导致校正后的语音听感较差。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法及相关设备,可以实现编辑语音的听感与原始语音的听感类似,提升用户体验。<br/>[0006]本申请实施例第一方面提供了一种语音处理方法,可以应用于用户录制短视频、老师录制授课语音等场景。该方法可以由语音处理设备执行,也可以由语音处理设备的部件(例如处理器、芯片、或芯片系统等)执行。其中,该语音处理设备可以是终端设备也可以是云端设备,该方法包括:获取原始语音与第二文本,第二文本为目标文本中除了第一文本以外的文本,目标文本与原始语音对应的原始文本都包括第一文本,第一文本在原始语音中对应的语音为非编辑语音;基于非编辑语音获取第一语音特征;基于第一语音特征与第二文本通过神经网络得到第二文本对应的第二语音特征;基于第二语音特征生成第二文本对应的目标编辑语音。其中,第一语音特征可以与第二语音特征的韵律、音色和/或信噪比等相同或相近,韵律可以反映出发音者的情感状态或讲话形式等,韵律泛指语调、音调、重音强调、停顿或节奏等特征。
[0007]另外,获取第二文本的方式有多种,可以是直接获取第二文本;也可以是先获取位置信息(也可以理解为是标记信息,用于指示第二文本在目标文本中的位置),在根据位置与目标文本获取第二文本,位置信息用于表示第二文本在目标文本中的位置;还可以是获
取目标文本与原始文本(或者获取目标文本与原始语音,对原始语音进行识别得到原始文本),再基于原始文本与目标文本确定第二文本。
[0008]本申请实施例中,通过第一文本在原始语音中的第一语音特征获取目标文本中第二文本对应的第二语音特征,即通过参考原始文本中第一文本的第一语音特征生成目标文本中第二文本的第二语音特征,进而实现目标编辑语音的听感与原始语音的听感类似,提升用户体验。
[0009]可选地,在第一方面的一种可能的实现方式中,上述步骤:获取原始语音与第二文本,包括:接收终端设备发送的原始语音与第二文本;方法还包括:向终端设备发送目标编辑语音,目标编辑语音用于终端设备生成目标文本对应的目标语音。也可以理解为是交互场景,由云端设备进行复杂的计算操作,由终端设备执行简单的拼接操作,从终端设备处获取原始语音与第二文本,云端设备生成目标编辑语音之后,向终端设备发送目标编辑语音,再由终端设备进行拼接得到目标语音。
[0010]该种可能的实现方式中,在语音处理设备是云端设备的情况下,一方面,可以通过云端设备与终端设备的交互,由云端设备进行复杂的计算得到目标编辑语音并返给终端设备,可以减少终端设备的算力与存储空间。另一方面,可以根据原始语音中非编辑区域的语音特征生成修改文本对应的目标编辑语音,进而与非编辑语音生成目标文本对应的目标语音。
[0011]可选地,在第一方面的一种可能的实现方式中,上述步骤:获取原始语音与第二文本,包括:接收终端设备发送的原始语音与目标文本;方法还包括:基于非编辑语音与目标编辑语音生成目标文本对应的目标语音,向终端设备发送目标语音。
[0012]该种可能的实现方式中,接收终端设备发送的原始语音与目标文本,可以获取非编辑语音,并根据非编辑语音的第一语音特征生成第二文本对应的第二语音特征,进而根据声码器得到目标编辑语音,并拼接目标编辑语音与非编辑语音生成目标语音。相当于,处理过程都在语音处理设备,结果返回给终端设备。由云端设备进行复杂的计算得到目标语音并返给终端设备,可以减少终端设备的算力与存储空间。
[0013]可选地,在第一方面的一种可能的实现方式中,上述步骤:获取原始语音与第二文本,包括:接收来自用户的编辑请求,编辑请求中包括原始语音与第二文本。或者编辑请求中包括原始语音与目标文本。该目标文本可以理解为是用户想要生成语音对应的文本。
[0014]该种可能的实现方式中,用户可以通过对原始文本中的文本进行修改,得到修改文本(即第二文本)对应的目标编辑语音。提升用户基于文本进行语音编辑的编辑体验。
[0015]可选地,在第一方面的一种可能的实现方式中,上述步骤还包括:获取第二文本在目标文本中的位置;基于位置拼接目标编辑语音与非编辑语音得到目标文本对应的目标语音。也可以理解为是用目标编辑语音替换原始语音中的编辑语音,该编辑语音为原始语音中除了非编辑语音以外的语音。
[0016]该种可能的实现方式中,可以根据第二文本在目标文本中的位置拼接目标编辑语音与非编辑语音。如果第一文本是原始文本与目标文本中的所有重叠文本,则可以在不改变原始语音中非编辑语音的情况下生成所需文本(即目标文本)的语音。
[0017]可选地,在第一方面的一种可能的实现方式中,上述步骤:基于非编辑语音获取第一语音特征,包括:获取非编辑语音中的至少一个语音帧;基于至少一个语音帧获取第一语
音特征,第一语音特征用于表示至少一个语音帧的特征,第一语音特征为特征向量或序列。另外,还可以获取目标语音(方式与前述类似),为了保证非编辑语音与目标编辑语音的衔接处更加平缓,在多个语音帧的情况下,选取的语音帧对应的文本可以与第二文本相近。
[0018]该种可能的实现方式中,一方面,通过非编辑语音中的语音帧获取第一语音特征,可以使得生成的目标编辑语音具有与非编辑语音相同或相近的语音特征,减少原始语音与目标编辑语音的听感差异。另一方面,在多个语音帧的情况下,选取的语音帧对应的文本可以与第二文本相近,进而在生成目标语音时,使得目标编辑语音与非编辑语音的衔接处更加平缓。另外,还可以通过非物理量的方式,例如,序列、向量的方式等体现语音特征。
[0019]可选地,在第一方面的一种可能的实现方式中,上述步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取原始语音与第二文本,所述第二文本为目标文本中除了第一文本以外的文本,所述目标文本与所述原始语音对应的原始文本都包括所述第一文本,所述第一文本在所述原始语音中对应的语音为非编辑语音;基于所述非编辑语音获取第一语音特征;基于所述第一语音特征与所述第二文本通过神经网络得到所述第二文本对应的第二语音特征;基于所述第二语音特征生成所述第二文本对应的目标编辑语音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第二文本在所述目标文本中的位置;基于所述位置拼接所述目标编辑语音与所述非编辑语音得到所述目标文本对应的目标语音。3.根据权利要求1或2所述的方法,其特征在于,所述基于非编辑语音获取第一语音特征,包括:获取所述非编辑语音中的至少一个语音帧;基于所述至少一个语音帧获取所述第一语音特征,所述第一语音特征用于表示所述至少一个语音帧的特征,所述第一语音特征为特征向量或序列。4.根据权利要求3中所述的方法,其特征在于,所述至少一个语音帧对应的文本为所述第一文本中与所述第二文本相邻的文本。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述第一语音特征与第二文本通过神经网络得到所述第二文本对应的第二语音特征,包括:基于所述第一语音特征、所述目标文本以及标记信息通过神经网络得到第二文本对应的第二语音特征,所述标记信息用于标记所述目标文本中的所述第二文本。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述神经网络包括编码器与解码器,所述基于所述第一语音特征与第二文本通过神经网络得到所述第二文本对应的第二语音特征,包括:基于所述第二文本,通过所述编码器,获取所述第二文本对应的第一向量;基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征。7.根据权利要求6所述的方法,其特征在于,所述基于所述第二文本,通过所述编码器,获取所述第二文本对应的第一向量,包括:基于所述目标文本,通过所述编码器,获取所述第一向量。8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:基于所述目标文本通过预测网络预测第一时长与第二时长,所述第一时长为所述第一文本在所述目标文本中对应的音素时长,所述第二时长为所述第二文本在所述目标文本中对应的音素时长;基于所述第一时长与第三时长修正所述第二时长,以得到第一修正时长,所述第三时长为所述第一文本在所述原始语音中的音素时长;所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:
基于所述第一向量、所述第一语音特征与所述第一修正时长,通过所述解码器,获取所述第二语音特征。9.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:基于所述第二文本通过预测网络预测第四时长,所述第四时长为所述第二文本对应所有音素的总时长;获取所述原始语音的语速;基于所述语速修正所述第四时长,得到第二修正时长;所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:基于所述第一向量、所述第一语音特征与所述第二修正时长,通过所述解码器,获取所述第二语音特征。10.根据权利要求6至9中任一项所述的方法,其特征在于,所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:基于所述解码器与所述第一语音特征从所述目标文本的正序或反序解码所述第一向量得到所述第二语音特征。11.根据权利要求6至9中任一项所述的方法,其特征在于,所述第二文本在所述目标文本的中间区域,所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:基于所述解码器与所述第一语音特征从所述目标文本的正序解码所述第一向量得到第三语音特征;基于所述解码器与所述第一语音特征从所述目标文本的反序解码所述第一向量得到第四语音特征;基于所述第三语音特征与所述第四语音特征获取所述第二语音特征。12.根据权利要求11所述的方法,其特征在于,所述第二文本包括第三文本和第四文本,所述第三语音特征为所述第三文本对应的语音特征,所述第四语音特征为所述第四文本对应的语音特征;所述基于所述第三语音特征与所述第四语音特征获取所述第二语音特征,包括:拼接所述第三语音特征与所述第四语音特征得到所述第二语音特征。13.根据权利要求11所述的方法,其特征在于,所述第三语音特征为所述解码器基于所述正序得到的所述第二文本对应的语音特征,所述第四语音特征为所述解码器基于所述反序得到的所述第二文本对应的语音特征;所述基于所述第三语音特征与所述第四语音特征获取所述第二语音特征,包括:确定所述第三语音特征与所述第四语音特征中相似度大于第一阈值的语音特征为过渡语音特征;拼接第五语音特征与第六语音特征得到所述第二语音特征,所述第五语音特征为基于所述过渡语音特征在所述第三语音特征中的位置从所述第三语音特征中截取得到的,所述第六语音特征为基于所述过渡语音特征在所述第四语音特征中的位置从所述第四语音特征中截取得到的。14.根据权利...

【专利技术属性】
技术研发人员:邓利群谭达新郑念祖
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1