一种获取用于语音合成的训练文本的方法及装置制造方法及图纸

技术编号:35025511 阅读:55 留言:0更新日期:2022-09-24 22:56
本发明专利技术提供了一种获取用于语音合成的训练文本的方法及装置。在该方法中,从文本库中随机选择文本,形成文本样本组和初始的训练文本组;根据文本样本组中的每个第一文本的loss值,从文本样本组中选择M个第一文本作为训练文本添加至训练文本组并将所选择的第一文本从文本样本组中移除,其中,M为正整数且M+N为预设的训练文本数量,loss值表征单个第一文本中发音的稀有程度并且loss值随训练文本组中的训练文本的数量增加而变化;其中,选择M个第一文本作为训练文本包括每次选择一个第一文本作为一个训练文本直至已选择出的训练文本的数量等达到M。的数量等达到M。的数量等达到M。

【技术实现步骤摘要】
一种获取用于语音合成的训练文本的方法及装置


[0001]本专利技术涉及大数据处理领域,尤其涉及一种获取用于语音合成的训练文本的方法及装置。

技术介绍

[0002]TTS(Text to Speech,文本到语音)技术是按照特定的语言的发音规范,将文本转换成尽可能接近真实人类语音的语音合成技术,广泛应用于语音助手、智能家居和地图导航等场景。TTS技术具有不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性等优点。TTS技术在数据录入时的数据成本较高,相对于大批量的原始数据,因此限制了进行训练所能够使用的训练文本的数量只需要在其中选择极少量的数据文本进行训练,其中对于有效文本这导致对于训练文本的筛选则是严重影响TTS技术进行语音合成转化的准确度的关键因素。
[0003]对于不同的发音通常需要相近次数的训练,如果一个发音的出现次数过少,若采用随机方法进行文本筛选,则此发音被筛选到训练文本中的概率就很低,那么就会造成此发音得不到训练或训练次数不够的情况出现,导致最后语音合成的不准确。

技术实现思路

[0004]本专利技术的目的在于提供一种获取用于语音合成的训练文本的方法及装置,从而解决现有技术中存在的前述问题。
[0005]为了实现上述目的,本专利技术采用的技术方案如下:
[0006]第一方面,本申请至少一个实施例提供了一种获取用于语音合成的训练文本的方法,包括:从文本库中随机选择文本,形成文本样本组和初始的训练文本组,其中,文本库包括多个文本,文本样本组包括多个第一文本,初始的训练文本组包括N个训练文本,N为小于或等于预设阈值的正整数;根据文本样本组中的每个第一文本的loss值,从文本样本组中选择M个第一文本作为训练文本添加至训练文本组并将所选择的第一文本从文本样本组中移除,其中,M为正整数且M+N为预设的训练文本数量,loss值表征单个第一文本中发音的稀有程度并且loss值随训练文本组中的训练文本的数量增加而变化;其中,选择M个第一文本作为训练文本包括每次选择一个第一文本作为一个训练文本直至已选择出的训练文本的数量等达到M。
[0007]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,根据每个第一文本的loss值,从文本样本组中选择M个第一文本作为训练文本添加至训练文本组,包括对文本样本组循环执行以下操作直到训练文本组中的训练文本的数量达到M+N:计算文本样本组中的每个第一文本的loss值;选择loss值最小的一个第一文本作为训练文本添加到训练文本组;以及将所选择的一个第一文本从文本样本组中移除。
[0008]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,计算文本样本组中的每个第一文本的loss值,包括:获取训练文本组中当前所有的训练文本的每一个发音
类别中的每个不同发音的出现次数now以及每个不同发音的平均出现次数avg;计算每个不同发音的出现次数now和对应的平均出现次数avg的差值dif,其中,dif=now

avg;获取每个第一文本中的每一个发音类别中的不同发音的出现次数count;根据每一个发音类别中每个不同发音对应的差值dif和每个不同发音的出现次数count,计算每个第一文本中的每一个发音类别的loss值:loss
type
=dif
·
count;对每一个发音类别的loss值进行加权求和得到每个第一文本的loss值。
[0009]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,计算每个第一文本中的每一个发音类别的loss值loss
type
,包括:获取每个第一文本的长度len(sentence);根据每一个发音类别中每个不同发音对应的差值dif和每个不同发音的出现次数count和每个第一文本的长度len(sentence),计算每一个发音类别的loss值其中,β用于调整第一文本的长度对于loss值的影响。
[0010]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,计算每个第一文本中的每一个发音类别的loss值loss
type
,还包括:根据每一个发音类别中每个不同发音对应的差值dif和每个不同发音的出现次数count和每个不同发音的稀有程度权重weight,计算每一个发音类别的loss值loss
type
=weight
·
(count*dif),稀有程度权重weight是预先从文本样本组中获取的或预先存储的。
[0011]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,稀有程度权重weight为文本样本组中每个不同发音在所属发音类别中的出现频率的函数。
[0012]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,发音的发音类别包括声母、韵母、音调和整体读音中的至少一种,并且每一个发音类别具有多个不同的发音且每个不同的发音的数量大于或等于1。
[0013]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,从文本库中随机选择文本样本组和初始的训练文本组,包括:将文本库划分为多个文本组,从多个文本组中的每个文本组随机选择相同数量的第一文本组成文本样本组,以及从每个文本组随机选择相同数量的初始训练文本组成初始的训练文本组;或者,将文本库中的所有文本随机打乱顺序,选择排序在前的预设数量的文本组成文本样本组,以及继续按照顺序选择N个文本组成初始的训练文本组。
[0014]第二方面,本申请至少一个实施例提供了一种获取用于语音合成的训练文本的装置,包括处理器和存储器,存储器中存储有可由处理器执行的指令,指令在由处理器执行时使处理器执行如上述第一方面中任一项的方法。
[0015]本专利技术的有益效果是:本专利技术公开了一种获取用于语音合成的训练文本的方法及装置,相较于随机抽取的训练文本,本专利技术通过设置文本样本组和训练文本组,动态的根据第一文本的loss值来选择训练文本,从而提高训练文本中稀有发音的出现比例,使得后续的语音合成可以得到更完备的训练,优化语音合成的准确性。
附图说明
[0016]图1是根据本专利技术至少一个实施例提供的获取用于语音合成的方法的流程示意图;
[0017]图2是本专利技术至少一个实施例提供的获取用于语音合成的训练文本的装置是示意图。
具体实施方式
[0018]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本专利技术实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0019]除非另外定义,本专利技术使用的技术术语或者科学术语应当为本专利技术所属领域内具有一般技能的人士所理解的通常意义。本专利技术中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获取用于语音合成的训练文本的方法,包括:从文本库中随机选择文本,形成文本样本组和初始的训练文本组,其中,所述文本库包括多个文本,所述文本样本组包括多个第一文本,所述初始的训练文本组包括N个训练文本,N为小于或等于预设阈值的正整数;根据所述文本样本组中的每个第一文本的loss值,从所述文本样本组中选择M个第一文本作为训练文本添加至所述训练文本组并将所选择的第一文本从所述文本样本组中移除,其中,M为正整数且M+N为预设的训练文本数量,所述loss值表征单个第一文本中发音的稀有程度并且所述loss值随训练文本组中的训练文本的数量增加而变化;其中,所述选择M个第一文本作为训练文本包括每次选择一个第一文本作为一个训练文本直至已选择出的训练文本的数量等达到M。2.根据权利要求1所述的方法,其中,所述根据每个第一文本的loss值,从所述文本样本组中选择M个第一文本作为训练文本添加至所述训练文本组,包括对所述文本样本组循环执行以下操作直到所述训练文本组中的训练文本的数量达到M+N:计算所述文本样本组中的每个第一文本的loss值;选择loss值最小的一个第一文本作为训练文本添加到所述训练文本组;将所选择的一个第一文本从所述文本样本组中移除。3.根据权利要求1或2所述的方法,其中,所述计算所述文本样本组中的每个第一文本的loss值,包括:获取所述训练文本组中当前所有的训练文本的每一个发音类别中的每个不同发音的出现次数now以及每个不同发音的平均出现次数avg;计算每个不同发音的出现次数now和对应的平均出现次数avg的差值dif,其中,dif=now

avg;获取每个第一文本中的每一个发音类别中的不同发音的出现次数count;根据每一个发音类别中每个不同发音对应的差值dif和每个不同发音的出现次数count,计算每个第一文本中的每一个发音类别的loss值:loss
type
=dif
·
count;对每一个发音类别的loss值进行加权求和得到每个第一文本的loss值。4.根据权利要求3所述的方法,其中,所...

【专利技术属性】
技术研发人员:王智彪杨明祺
申请(专利权)人:名日之梦北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1