用于语音处理的方法、装置、设备和存储介质制造方法及图纸

技术编号:35352127 阅读:14 留言:0更新日期:2022-10-26 12:22
根据本公开的实施例,提供了用于语音处理的方法、装置、设备和存储介质。在该方法中,针对原语言的多个原文本单元中的各原文本单元,确定相应的语音单元的第一时间戳,多个原文本单元是基于原语言的原语音生成的;确定多个原文本单元与目标语言的多个目标文本单元的对齐信息,多个目标文本单元是从多个原文本单元翻译的;基于第一时间戳和对齐信息,针对多个目标文本单元中的各目标文本单元,确定相应的语音单元的第二时间戳;以及基于多个目标文本单元和第二时间戳,生成目标语言的目标语音。以此方式,提高了语音转换的效率和效果,提高了用户体验。了用户体验。了用户体验。

【技术实现步骤摘要】
用于语音处理的方法、装置、设备和存储介质


[0001]本公开的示例实施例总体涉及计算机领域,特别地涉及用于语音处理的方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]利用语音合成技术,可以将用户提供的文本合成语音。所合成的语音可供用户用于配音、朗读、交互等等各种活动。译制片和同声传译是语音合成的两种常见应用场景。在译制片的制作过程中,通常将电影中某种语言(例如,英文)的原声,使用另一种语言(例如,中文)进行翻译并录制,最终将原语音进行覆盖。同声传译与译制片类似,也是对原语音进行翻译,再由翻译官读出翻译语言的音频。这两种场景都需要翻译人员参与,而且对实时性要求较高。

技术实现思路

[0003]在本公开的第一方面,提供了一种语音处理的方法。该方法包括针对原语言的多个原文本单元中的各原文本单元,确定相应的语音单元的第一时间戳,多个原文本单元是基于原语言的原语音生成的;确定多个原文本单元与目标语言的多个目标文本单元的对齐信息,多个目标文本单元是从多个原文本单元翻译的;基于第一时间戳和对齐信息,针对多个目标文本单元中的各目标文本单元,确定相应的语音单元的第二时间戳;以及基于多个目标文本单元和第二时间戳,生成目标语言的目标语音。
[0004]在本公开的第二方面,提供了一种语音处理的装置。该装置包括第一定时模块,被配置为针对原语言的多个原文本单元中的各原文本单元,确定相应的语音单元的第一时间戳,多个原文本单元是基于原语言的原语音生成的;对齐模块,被配置为确定多个原文本单元与目标语言的多个目标文本单元的对齐信息,多个目标文本单元是从多个原文本单元翻译的;第二定时模块,被配置为基于第一时间戳和对齐信息,针对多个目标文本单元中的各目标文本单元,确定相应的语音单元的第二时间戳;以及文本转语音模块,被配置为基于多个目标文本单元和第二时间戳,生成目标语言的目标语音。
[0005]在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
[0006]在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第一方面的方法。
[0007]应当理解,该内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
[0008]结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
[0009]图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
[0010]图2示出了根据本公开的一些实施例的语音处理过程的流程图;
[0011]图3A示出了根据本公开的一些实施例的用于呈现原文本单元的相应第一时间戳的示例用户界面;
[0012]图3B示出了根据本公开的一些实施例的用于呈现目标文本单元与原文本单元的对齐信息的示例用户界面;
[0013]图4示出了根据本公开的一些实施例的用于创作视频的示例过程的流程图;
[0014]图5示出了根据本公开的一些实施例的文本处理的装置的框图;以及
[0015]图6示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
[0016]下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的一些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0017]在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
[0018]在此使用的术语“文本单元”是指文本处理的基本单位,其粒度可以根据应用而改变和设置。例如,文本单元可以包括字、词、短语、字符、前述的组合,或者任何其他在自然语言表达中会出现的单元。在一些示例中,文本单元也被称为令牌(token)。
[0019]在此使用的术语“文本单元组”或者“一组文本单元”是指多个文本单元的集合。例如,在文本单元是中文字的情况下,文本单元组可以包括词、短语或者句子等等。
[0020]在此使用的术语“语音单元”是指语音处理的基本单位,其粒度可以根据应用而改变和设置。例如,语音单元可以包括音素、音节等等。音素例如包括声母和韵母。
[0021]可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获得或使用)应当遵循相应法律法规及相关规定的要求。
[0022]可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
[0023]例如,响应于接收到用户的主动请求,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获得和使用到用户的个人信息,从而使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
[0024]作为一种可选的但非限制性的实现方式,响应于接收到用户的主动请求,向用户
发送提示信息的方式,例如可以是弹出窗口的方式,弹出窗口中可以以文字的方式呈现提示信息。此外,弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。
[0025]可以理解的是,上述通知和获得用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其他满足相关法律法规的方式也可应用于本公开的实现方式中。
[0026]如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
[0027]“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理的方法,包括:针对原语言的多个原文本单元中的各原文本单元,确定相应的语音单元的第一时间戳,所述多个原文本单元是基于所述原语言的原语音生成的;确定所述多个原文本单元与目标语言的多个目标文本单元的对齐信息,所述多个目标文本单元是从所述多个原文本单元翻译的;基于所述第一时间戳和所述对齐信息,针对所述多个目标文本单元中的各目标文本单元,确定相应的语音单元的第二时间戳;以及基于所述多个目标文本单元和所述第二时间戳,生成所述目标语言的目标语音。2.根据权利要求1所述的方法,其中确定所述第二时间戳包括:将所述多个目标文本单元转换为所述目标语言的参考语音;以及基于所述第一时间戳和所述对齐信息,根据所述参考语音中各参考语音单元的参考时间戳,来确定所述第二时间戳。3.根据权利要求2所述的方法,还包括:针对所述多个参考语音单元中与一组目标文本单元相对应的一组参考语音单元,基于所述对齐信息,确定与所述一组目标文本单元对齐的一组原文本单元;以及基于所述一组目标文本单元的目标文本单元数目以及所述一组原文本单元中各原文本单元的相应语音单元的第一时间戳,调整所述一组参考语音单元中各参考语音单元的所述参考时间戳。4.根据权利要求1所述的方法,其中确定所述第一时间戳包括:在用户界面上呈现所述第一时间戳;接收用户对所述第一时间戳的第一修改;以及基于所述第一修改,调整所述第一时间戳。5.根据权利要求1所述的方法,其中确定所述第二时间戳包括:在用户界面上呈现所述第二时间戳;接收用户对所述第二时间戳的第二修改;以及基于所述第二修改,调整所述第二时间戳。6.根据权利要求1所述的方法,其中确定所述对齐信息包括:在用户界面上呈现所述对齐信息;接收用户对所述对齐信息的第三修改;以及基于所述第三修改,调整所述对齐信息。7.一种语音处理的装置,包括:第一定时模块,被配置为针对原语言的多个原文本单元中的各原文本单元,确定相应的语音单元的第一时间戳,所述多个原文本单元是基于所述原语言的原语音生成的;对齐模块,被配置为确定所述多个原文本单元与目标语言的多个目标文本单元的对齐信息,所述多个...

【专利技术属性】
技术研发人员:章峻珲马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1