【技术实现步骤摘要】
自动音频内容生成
技术介绍
[0001]文本到语音(TTS)合成旨在基于文本输入来生成对应的语音波形。传统的TTS模型或系统可以基于文本输入来预测声学特征,并进而基于所预测的声学特征来生成语音波形。TTS模型可以被应用于将各种类型的文本内容转换为音频内容,例如,将文本格式的书籍转换为有声书(audiobook)等。
技术实现思路
[0002]提供本
技术实现思路
以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本
技术实现思路
并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
[0003]本公开的实施例提出了用于自动音频内容生成的方法和装置。可以获得文本。可以构建与所述文本对应的上下文。可以至少基于所述上下文来确定参考因素,所述参考因素至少包括与所述文本对应的角色类别和/或角色。可以至少基于所述文本和所述参考因素来生成与所述文本对应的语音波形。
[0004]应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些 ...
【技术保护点】
【技术特征摘要】
1.一种用于自动音频内容生成的方法,包括:获得文本;构建与所述文本对应的上下文;至少基于所述上下文来确定参考因素,所述参考因素至少包括与所述文本对应的角色类别和/或角色;以及至少基于所述文本和所述参考因素来生成与所述文本对应的语音波形。2.如权利要求1所述的方法,其中,所述参考因素还包括与所述文本对应的风格。3.如权利要求1所述的方法,其中,所述确定参考因素包括:通过预测模型,至少基于所述上下文来预测所述角色类别。4.如权利要求3所述的方法,其中,所述生成语音波形包括:通过基于语言特征的文本到语音(TTS)模型,至少基于所述文本和所述角色类别来生成所述语音波形,其中,所述基于语言特征的TTS模型是针对目标讲话者所预先训练的。5.如权利要求3所述的方法,其中,所述生成语音波形包括:通过基于上下文的文本到语音(TTS)模型,至少基于所述文本、所述上下文和所述角色类别来生成所述语音波形,其中,所述基于上下文的TTS模型是针对目标讲话者所预先训练的。6.如权利要求1所述的方法,其中,所述确定参考因素包括:从包括所述文本的文本内容中提取多个候选角色;以及通过学习排序(LTR)模型,至少基于所述上下文来从所述多个候选角色中确定所述角色。7.如权利要求1所述的方法,其中,所述生成语音波形包括:从预先训练的多个候选文本到语音(TTS)模型中选择与所述角色对应的TTS模型,所述多个候选TTS模型是分别针对不同讲话者所预先训练的;以及通过所选择的TTS模型来生成所述语音波形。8.如权利要求7所述的方法,其中,所述确定参考因素包括:通过第一预测模型,至少基于所述上下文来预测所述角色类别;通过第二预测模型,至少基于所述上下文来预测所述角色;以及通过第三预测模型,至少基于所述上下文来预测角色性格,并且其中,所述选择TTS模型包括:基于所述角色、所述角色类别和所述角色性格中至少之一来从所述多个候选TTS模型中选择所述TTS模型。9.如权利要求7所述的方法,其中,所选择的TTS模型是基于语言特征的TTS模型,并且所述生成语音波形包括:通过所述基于语言特征的TTS模型,至少基于所述文本来生成所述语音波形。10.如权利要求7所述的方法,其中,所选择的TTS模型是基于上下文的TTS模型,并且所述生成语音波形包括:通过所述基于上下文的TTS模型,至少基于所述文本和所述上下文来生成所述语音波形。
11.如权利要求4、5、9、10中任一项所述的方法,其中,所述语音波形是进一步基于与所述文本对应的风格来...
【专利技术属性】
技术研发人员:汪曦,张少飞,肖雨佳,刘越颖,何磊,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。