用于语音合成的文本分析方法、装置、服务器和介质制造方法及图纸

技术编号:27364535 阅读:26 留言:0更新日期:2021-02-19 13:47
本申请实施例公开了用于语音合成的文本分析方法、装置、服务器和介质。该方法的一具体实施方式包括:获取待合成语音的文本;将该待合成语音的文本输入至预先训练的文本分析模型,得到文本分析结果,其中,该文本分析模型包括特征共享层和至少两个子任务模型,该文本分析结果包括该待合成语音的文本中与该至少两个子任务模型对应输出的标签。该实施方式减少了语音合成前端处理的流程,并且可以减少子任务的过拟合风险,从而提升文本分析模型的性能。能。能。

【技术实现步骤摘要】
用于语音合成的文本分析方法、装置、服务器和介质


[0001]本申请实施例涉及计算机
,具体涉及用于语音合成的文本分析方法、装置、服务器和介质。

技术介绍

[0002]随着人工智能技术的发展,语音合成(Text To Speech,TTS)技术也取得了越来越多的应用。当前,语音合成技术主要分为前端和后端两大部分。其中,前端技术主要用于对文本进行语言学分析。其可以包括但不限于以下至少一项:语种判断,文本规范化(比如确定各种符号、数字的读法),语言学特征提取(例如分词、多音字),韵律分析和预测等等。
[0003]通常采用流水线(pipeline)结构对语音合成前端的各项子任务进行依次处理,从而完成文本分析。

技术实现思路

[0004]本申请实施例提出了用于语音合成的文本分析方法、装置、服务器和介质。
[0005]第一方面,本申请实施例提供了一种用于语音合成的文本分析方法,该方法包括:获取待合成语音的文本;将待合成语音的文本输入至预先训练的文本分析模型,得到文本分析结果,其中,文本分析模型包括特征共享层和至少两个子任务模型,文本分析结果包括待合成语音的文本中与至少两个子任务模型对应输出的标签。
[0006]在一些实施例中,上述文本分析模型通过以下步骤训练得到:获取训练样本集合,其中,训练样本集合中的训练样本包括用于训练至少两个子任务模型的样本输入和样本标注信息;将训练样本集合中的训练样本的样本输入作为输入,将与输入的样本输入对应的样本标注信息作为期望输出,训练得到文本分析模型。<br/>[0007]在一些实施例中,上述至少两个子任务模型中包括韵律预测模型;上述韵律预测模型中包括字符向量表示网络和序列标注网络。
[0008]在一些实施例中,用于训练上述韵律预测模型的样本输入和样本标注信息包括样本文本和与样本文本对应的韵律停顿标注。
[0009]在一些实施例中,上述字符向量表示网络包括BERT(Bidirectional Encoder Representation from Transformers)模型,上述序列标注网络包括长短期记忆网络和条件随机场层。
[0010]在一些实施例中,上述特征共享层包括上述BERT模型、长短期记忆网络和条件随机场层中的至少一项。
[0011]在一些实施例中,上述至少两个子任务模型中还包括以下至少两项:分词模型,词性标注模型,命名实体识别模型,多音字发音预测模型。
[0012]第二方面,本申请实施例提供了一种用于语音合成的文本分析装置,该装置包括:获取单元,被配置成获取待合成语音的文本;分析单元,被配置成将待合成语音的文本输入至预先训练的文本分析模型,得到文本分析结果,其中,文本分析模型包括特征共享层和至
少两个子任务模型,文本分析结果包括待合成语音的文本中与至少两个子任务模型对应输出的标签。
[0013]在一些实施例中,上述文本分析模型通过以下步骤训练得到:获取训练样本集合,其中,训练样本集合中的训练样本包括用于训练至少两个子任务模型的样本输入和样本标注信息;将训练样本集合中的训练样本的样本输入作为输入,将与输入的样本输入对应的样本标注信息作为期望输出,训练得到文本分析模型。
[0014]在一些实施例中,上述至少两个子任务模型中包括韵律预测模型;上述韵律预测模型中包括字符向量表示网络和序列标注网络。
[0015]在一些实施例中,用于训练上述韵律预测模型的样本输入和样本标注信息包括样本文本和与样本文本对应的韵律停顿标注。
[0016]在一些实施例中,上述字符向量表示网络包括BERT模型,上述序列标注网络包括长短期记忆网络和条件随机场层。
[0017]在一些实施例中,上述特征共享层包括上述BERT模型、长短期记忆网络和条件随机场层中的至少一项。
[0018]在一些实施例中,上述至少两个子任务模型中还包括以下至少两项:分词模型,词性标注模型,命名实体识别模型,多音字发音预测模型。
[0019]第三方面,本申请实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
[0020]第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
[0021]本申请实施例提供的用于语音合成的文本分析方法、装置、服务器和介质,通过包括特征共享层和至少两个子任务模型的文本分析模型实现了对多个子任务的平行处理,减少了语音合成前端处理的流程。而且,还通过特征共享层使得子任务能够学习到其他子任务的特征,并且可以减少子任务的过拟合风险,从而提升文本分析模型的性能。
附图说明
[0022]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0023]图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
[0024]图2是根据本申请的用于语音合成的文本分析方法的一个实施例的流程图;
[0025]图3是根据本申请的实施例的用于语音合成的文本分析方法的一个应用场景的示意图;
[0026]图4是根据本申请的用于语音合成的文本分析方法的文本分析模型的一个实施例的结构示意图;
[0027]图5是根据本申请的用于语音合成的文本分析装置的一个实施例的结构示意图;
[0028]图6是适于用来实现本申请的实施例的电子设备的结构示意图。
具体实施方式
[0029]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关本公开相关的部分。
[0030]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0031]图1示出了可以应用本申请的用于语音合成的文本分析方法或用于语音合成的文本分析装置的示例性架构100。
[0032]如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0033]终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件、文本编辑类应用、阅读类应用等。
[0034]终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音合成的文本分析方法,包括:获取待合成语音的文本;将所述待合成语音的文本输入至预先训练的文本分析模型,得到文本分析结果,其中,所述文本分析模型包括特征共享层和至少两个子任务模型,所述文本分析结果包括所述待合成语音的文本中与所述至少两个子任务模型对应输出的标签。2.根据权利要求1所述的方法,其中,所述文本分析模型通过以下步骤训练得到:获取训练样本集合,其中,所述训练样本集合中的训练样本包括用于训练所述至少两个子任务模型的样本输入和样本标注信息;将所述训练样本集合中的训练样本的样本输入作为输入,将与输入的样本输入对应的样本标注信息作为期望输出,训练得到所述文本分析模型。3.根据权利要求1所述的方法,其中,所述至少两个子任务模型中包括韵律预测模型;所述韵律预测模型中包括字符向量表示网络和序列标注网络。4.根据权利要求3所述的方法,其中,用于训练所述韵律预测模型的样本输入和样本标注信息包括样本文本和与样本文本对应的韵律停顿标注。5.根据权利要求4所述的方法,其中,所述字符向量表示网络包括BERT模型,所述序列...

【专利技术属性】
技术研发人员:刘世超
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1