【技术实现步骤摘要】
一种语音处理方法及相关设备
[0001]本申请实施例涉及人工智能领域与音频应用领域,尤其涉及一种语音处理方法及相关设备。
技术介绍
[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,语音编辑具有非常重要的实用意义。比如,在用户录制短视频、老师在录制授课语音等场景下,经常会由于口误而导致语音中的某些内容出错。该种情况下,语音编辑便可帮助用户或老师方便又快速地修正原始语音中的错误内容,生成校正后的语音。常用的语音编辑方法是通过预先构建含有大量语音片段的数据库,从数据库中获取发音单元的片段,并用该片段替换原始语音中的错误片段,进而生成校正后的语音。
[0004]然而,上述语音编辑的方式依赖数据库中语音片段的多样性,在数据库中语音片段较少的情况下,会导致校正后的语音听感较差。
技术实现思路
[0005]本申请实施例提供了一种语音处理方法及相关设备,可以实现编辑语音的听感与原始语音的听感类似,提升用户体验。< ...
【技术保护点】
【技术特征摘要】
1.一种语音处理方法,其特征在于,所述方法包括:获取原始语音与第二文本,所述第二文本为目标文本中除了第一文本以外的文本,所述目标文本与所述原始语音对应的原始文本都包括所述第一文本,所述第一文本在所述原始语音中对应的语音为非编辑语音;基于所述非编辑语音获取第一语音特征;基于所述第一语音特征与所述第二文本通过神经网络得到所述第二文本对应的第二语音特征;基于所述第二语音特征生成所述第二文本对应的目标编辑语音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述第二文本在所述目标文本中的位置;基于所述位置拼接所述目标编辑语音与所述非编辑语音得到所述目标文本对应的目标语音。3.根据权利要求1或2所述的方法,其特征在于,所述基于非编辑语音获取第一语音特征,包括:获取所述非编辑语音中的至少一个语音帧;基于所述至少一个语音帧获取所述第一语音特征,所述第一语音特征用于表示所述至少一个语音帧的特征,所述第一语音特征为特征向量或序列。4.根据权利要求3中所述的方法,其特征在于,所述至少一个语音帧对应的文本为所述第一文本中与所述第二文本相邻的文本。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述基于所述第一语音特征与第二文本通过神经网络得到所述第二文本对应的第二语音特征,包括:基于所述第一语音特征、所述目标文本以及标记信息通过神经网络得到第二文本对应的第二语音特征,所述标记信息用于标记所述目标文本中的所述第二文本。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述神经网络包括编码器与解码器,所述基于所述第一语音特征与第二文本通过神经网络得到所述第二文本对应的第二语音特征,包括:基于所述第二文本,通过所述编码器,获取所述第二文本对应的第一向量;基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征。7.根据权利要求6所述的方法,其特征在于,所述基于所述第二文本,通过所述编码器,获取所述第二文本对应的第一向量,包括:基于所述目标文本,通过所述编码器,获取所述第一向量。8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:基于所述目标文本通过预测网络预测第一时长与第二时长,所述第一时长为所述第一文本在所述目标文本中对应的音素时长,所述第二时长为所述第二文本在所述目标文本中对应的音素时长;基于所述第一时长与第三时长修正所述第二时长,以得到第一修正时长,所述第三时长为所述第一文本在所述原始语音中的音素时长;所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:
基于所述第一向量、所述第一语音特征与所述第一修正时长,通过所述解码器,获取所述第二语音特征。9.根据权利要求6或7所述的方法,其特征在于,所述方法还包括:基于所述第二文本通过预测网络预测第四时长,所述第四时长为所述第二文本对应所有音素的总时长;获取所述原始语音的语速;基于所述语速修正所述第四时长,得到第二修正时长;所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:基于所述第一向量、所述第一语音特征与所述第二修正时长,通过所述解码器,获取所述第二语音特征。10.根据权利要求6至9中任一项所述的方法,其特征在于,所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:基于所述解码器与所述第一语音特征从所述目标文本的正序或反序解码所述第一向量得到所述第二语音特征。11.根据权利要求6至9中任一项所述的方法,其特征在于,所述第二文本在所述目标文本的中间区域,所述基于所述第一向量与所述第一语音特征,通过所述解码器,获取所述第二语音特征,包括:基于所述解码器与所述第一语音特征从所述目标文本的正序解码所述第一向量得到第三语音特征;基于所述解码器与所述第一语音特征从所述目标文本的反序解码所述第一向量得到第四语音特征;基于所述第三语音特征与所述第四语音特征获取所述第二语音特征。12.根据权利要求11所述的方法,其特征在于,所述第二文本包括第三文本和第四文本,所述第三语音特征为所述第三文本对应的语音特征,所述第四语音特征为所述第四文本对应的语音特征;所述基于所述第三语音特征与所述第四语音特征获取所述第二语音特征,包括:拼接所述第三语音特征与所述第四语音特征得到所述第二语音特征。13.根据权利要求11所述的方法,其特征在于,所述第三语音特征为所述解码器基于所述正序得到的所述第二文本对应的语音特征,所述第四语音特征为所述解码器基于所述反序得到的所述第二文本对应的语音特征;所述基于所述第三语音特征与所述第四语音特征获取所述第二语音特征,包括:确定所述第三语音特征与所述第四语音特征中相似度大于第一阈值的语音特征为过渡语音特征;拼接第五语音特征与第六语音特征得到所述第二语音特征,所述第五语音特征为基于所述过渡语音特征在所述第三语音特征中的位置从所述第三语音特征中截取得到的,所述第六语音特征为基于所述过渡语音特征在所述第四语音特征中的位置从所述第四语音特征中截取得到的。14.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。