【技术实现步骤摘要】
语音合成方法、装置、系统及存储介质
[0001]本专利技术涉及语音处理
,具体地,涉及一种语音合成方法、装置、系统及存储介质。
技术介绍
[0002]语音合成技术是一种将文字信息转化为声音信息的技术。语音合成技术可以为广大用户及目标应用提供语音合成服务。语音合成系统在如今有着较为广泛的应用。随着用户对有声读物类资源的需求日益增长,依靠人工录制有声读物语料的做法已难以满足需求,因而开发多角色多情绪的(半)自动语音合成技术/工具/系统显得尤为重要。现有的多角色多情绪语音合成技术主要采用单纯模型的方式实现。然而,单纯依靠模型无法保证最终的语音合成效果。
技术实现思路
[0003]为了至少部分地解决现有技术中存在的问题,提供一种语音合成方法、装置、系统及存储介质。
[0004]根据本专利技术一个方面,提供一种语音合成方法,包括:获取待处理文本;对待处理文本中的任一目标语句进行文本分析,以获得初始文本分析结果,其中,文本分析包括对至少一个预设项目的分析,至少一个预设项目包括以下一项或多项:文本类型、角色名 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,包括:获取待处理文本;对所述待处理文本中的任一目标语句进行文本分析,以获得初始文本分析结果,其中,所述文本分析包括对至少一个预设项目的分析,所述至少一个预设项目包括以下一项或多项:文本类型、角色名称、角色属性和情绪类别,其中,对所述文本类型的分析是指判断所述目标语句是否属于多角色类型,所述多角色类型包括对白,所述角色属性包括角色性别和/或角色年龄;输出文本结果信息,所述文本结果信息包括所述初始文本分析结果;接收用户输入的文本反馈信息;在所述文本反馈信息包括与所述初始文本分析结果相关的第一修改信息的情况下,基于所述第一修改信息对所述初始文本分析结果进行修改,以获得新文本分析结果;以及至少基于最终文本分析结果对所述目标语句进行语音合成,以获得与所述目标语句相对应的最终合成语音,其中,在未对所述初始文本分析结果进行修改的情况下,所述最终文本分析结果为所述初始文本分析结果,并且在对所述初始文本分析结果进行修改的情况下,所述最终文本分析结果为所述新文本分析结果。2.根据权利要求1所述的方法,其中,所述对所述待处理文本中的任一目标语句进行文本分析包括:利用文本分析模型对所述目标语句进行文本分析;在所述基于所述第一修改信息对所述初始文本分析结果进行修改之后,所述方法还包括:将所述新文本分析结果作为标注数据,并将所述初始文本分析结果作为预测数据,计算所述文本分析模型的损失函数;利用所计算的损失函数对所述文本分析模型进行优化。3.根据权利要求2所述的方法,其中,所述文本分析模型包括与所述至少一个预设项目一一对应的至少一个预设分析模型,所述第一修改信息包括对所述初始文本分析结果中与特定预设项目相对应的分析结果的修改信息;所述将所述新文本分析结果作为标注数据,并将所述初始文本分析结果作为预测数据,计算所述文本分析模型的损失函数包括:将所述新文本分析结果中与所述特定预设项目相对应的分析结果作为标注数据,并将所述初始文本分析结果中与所述特定预设项目相对应的分析结果作为预测数据,计算与所述特定预设项目相对应的特定预设分析模型的特定损失函数;利用所计算的损失函数对所述文本分析模型进行优化包括:利用所述特定损失函数对所述特定预设分析模型进行优化。4.根据权利要求1所述的方法,其中,所述至少基于最终文本分析结果对所述目标语句进行语音合成包括:基于所述最终文本分析结果进行发音人适配,以确定与所述目标语句匹配的初始发音人信息;确定所述初始发音人信息为最终发音人信息;基于所述最终发音人信息从模型库中调用对应的语音合成模型,其中,所述模型库用
于存储与多组不同的发音人信息一一对应的语音合成模型;以及利用所调用的语音合成模型对所述目标语句进行语音合成。5.根据权利要求4所述的方法,其中,所述基于所述最终文本分析结果进行发音人适配包括:基于所述...
【专利技术属性】
技术研发人员:潘华山,李秀林,
申请(专利权)人:标贝北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。