一种语音合成方法及系统技术方案

技术编号:32832425 阅读:13 留言:0更新日期:2022-03-26 20:47
本说明书实施例提供一种语音合成方法,该方法包括获取待处理文本;基于待处理文本,确定多个任务的预测结果,所述多个任务包括待处理文本中字符的韵律、待处理文本中字符的发音、待处理文本中字符串的类型及待处理文本中字符串的情感中的至少两个;基于多个任务的预测结果,确定待处理文本对应的语音。确定待处理文本对应的语音。确定待处理文本对应的语音。

【技术实现步骤摘要】
一种语音合成方法及系统


[0001]本说明书涉及数据处理领域,特别涉及一种语音合成方法及系统。

技术介绍

[0002]随着人工智能技术的发展,语音合成技术越来越受到人们的重视,语音合成技术可以将文本转化成语音输出。现有的语音合成技术合成的语音较为生硬,用户体验较差。
[0003]因此,需要提供一种语音合成方法和系统,用于提高合成的语音的质量。

技术实现思路

[0004]本说明书实施例之一提供一种语音合成方法,所述方法包括:获取待处理文本;基于所述待处理文本,确定多个任务的预测结果,所述多个任务包括所述待处理文本中字符的韵律、所述待处理文本中字符的发音、所述待处理文本中字符串的类型及所述待处理文本中字符串的情感中的至少两个;基于所述多个任务的预测结果,确定所述待处理文本对应的语音。
[0005]本说明书实施例之一提供一种语音合成系统,所述系统包括:文本获取模块,用于获取待处理文本;任务预测模块,用于基于所述待处理文本,确定多个任务的预测结果,所述多个任务包括所述待处理文本中字符的韵律、所述待处理文本中字符的发音、所述待处理文本中字符串的类型及所述待处理文本中字符串的情感中的至少两个;结果生成模块,用于基于所述多个任务的预测结果,确定所述待处理文本对应的语音。
[0006]本说明书实施例之一提供一种语音合成装置,包括处理器,所述处理器用于执行语音合成方法。
[0007]本说明书实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行语音合成方法。
附图说明
[0008]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
[0009]图1是根据本说明书一些实施例所示的语音合成系统的应用场景示意图;
[0010]图2是根据本说明书一些实施例所示的处理设备的示例性框图;
[0011]图3是根据本说明书一些实施例所示的语音合成方法的示例性流程图;
[0012]图4是根据本说明书一些实施例所示的预测模型的结构示意图;
[0013]图5是根据本说明书一些实施例所示的预测模型的又一示意图;
[0014]图6是根据本说明书一些实施例所示的预测模型的又一示意图;
[0015]图7是根据本说明书一些实施例所示的训练预测模型的示意图。
具体实施方式
[0016]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0017]应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0018]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0019]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0020]图1是根据本说明书一些实施例所示的语音合成系统100的应用场景示意图。
[0021]在一些实施例中,语音合成系统100可以通过实施本说明书中披露的方法和/或过程确定待处理文本150对应的语音160。
[0022]如图1所示,本说明书实施例所涉及的语音合成系统100可以包括处理设备110、网络120、终端130及存储设备140。
[0023]处理设备110可以用于处理来自语音合成系统100的至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。处理设备110可以通过网络120从终端130和/或存储设备140访问数据和/或信息。处理设备110可以直接连接终端130和/或存储设备140以访问信息和/或数据。例如,处理设备110可以从终端130和/或存储设备140获取待处理文本150。处理设备110可以对获取的数据和/或信息进行处理。例如,处理设备110可以基于预测模型对待处理文本150进行处理,确定多个任务的预测结果,并基于多个任务的预测结果确定待处理文本150对应的语音160。在一些实施例中,处理设备110可以是单个服务器或服务器组。处理设备110可以是本地的、远程的。处理设备110可以在云平台上实现。关于处理设备110的更多描述可以参见图2及其相关描述,此处不再赘述。
[0024]网络120可以包括提供能够促进语音合成系统100的信息和/或数据交换的任何合适的网络。在一些实施例中,语音合成系统100的一个或多个组件(例如,处理设备110、终端130以及存储设备140)之间可以通过网络120交换信息和/或数据。网络120可以包括局域网(LAN)、广域网(WAN)、有线网络、无线网络等或其任意组合。
[0025]终端130指用户所使用的一个或多个终端设备或软件。在一些实施例中,终端130可以是移动设备、平板计算机等或其任意组合。在一些实施例中,终端130可以通过网络120与语音合成系统100中的其他组件交互。例如,终端130可以向处理设备110发送一个或多个控制指令以控制处理设备110对待处理文本150进行处理,从而确定待处理文本150对应的
语音160。在一些实施例中,终端130可以是处理设备110的一部分。在一些实施例中,终端130可以与处理设备110整合为一体,作为待处理文本150的输入端。
[0026]存储设备140可以用于存储数据、指令和/或任何其他信息。在一些实施例中,存储设备140可以存储从例如处理设备110、终端130等获得的数据和/或信息。例如,存储设备140可以存储预先确定好的待处理文本150。又例如,存储设备140可以存储训练好的预测模型。在一些实施例中,存储设备140可包括大容量存储器、可移除存储器等或其任意组合。
[0027]图2是根据本说明书一些实施例所示的处理设备110的示例性框图。
[0028]在一些实施例中,处理设备110可以包括文本获取模块210、任务预测模块220和结果生成模块230。
[0029]文本获取模块210可以用于获取待处理文本。关于待处理文本的更多描述可以参见图3及其相关描述。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待处理文本;基于所述待处理文本,确定多个任务的预测结果,所述多个任务包括所述待处理文本中字符的韵律、所述待处理文本中字符的发音、所述待处理文本中字符串的类型及所述待处理文本中字符串的情感中的至少两个;基于所述多个任务的预测结果,确定所述待处理文本对应的语音。2.如权利要求1所述的方法,其特征在于,所述基于所述待处理文本,确定多个任务的预测结果,包括:获取所述多个任务中预设任务的参考结果;基于所述待处理文本,确定所述多个任务的初始预测结果;基于所述预设任务的参考结果替换所述预设任务的初始预测结果的至少一部分,确定所述多个任务的预测结果。3.如权利要求1所述的方法,其特征在于,所述基于所述待处理文本,确定多个任务的预测结果,包括:通过预测模型对所述待处理文本进行处理,确定所述多个任务的预测结果,其中,所述预测模型为机器学习模型,所述预测模型包括多个任务层,所述多个任务层与所述多个任务一一对应。4.如权利要求3所述的方法,其特征在于,所述通过预测模型对所述待处理文本进行处理,确定所述多个任务的预测结果包括:获取所述多个任务中预设任务的参考结果;通过预测模型对所述待处理文本和所述预设任务的参考结果进行处理,确定所述多个任务的预测结果。5.根据权利要求3所述的方法,所述预测模型包括:嵌入层、特征层、所述多...

【专利技术属性】
技术研发人员:段英杰胡新辉徐欣康
申请(专利权)人:浙江核新同花顺网络信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1