一种获取用于语音合成的训练文本的方法及装置制造方法及图纸

技术编号：35025511 阅读：55 留言：0更新日期：2022-09-24 22:56

本发明专利技术提供了一种获取用于语音合成的训练文本的方法及装置。在该方法中，从文本库中随机选择文本，形成文本样本组和初始的训练文本组；根据文本样本组中的每个第一文本的loss值，从文本样本组中选择M个第一文本作为训练文本添加至训练文本组并将所选择的第一文本从文本样本组中移除，其中，M为正整数且M+N为预设的训练文本数量，loss值表征单个第一文本中发音的稀有程度并且loss值随训练文本组中的训练文本的数量增加而变化；其中，选择M个第一文本作为训练文本包括每次选择一个第一文本作为一个训练文本直至已选择出的训练文本的数量等达到M。的数量等达到M。的数量等达到M。

全部详细技术资料下载

【技术实现步骤摘要】
一种获取用于语音合成的训练文本的方法及装置

[0001]本专利技术涉及大数据处理领域，尤其涉及一种获取用于语音合成的训练文本的方法及装置。

技术介绍

[0002]TTS(Text to Speech，文本到语音)技术是按照特定的语言的发音规范，将文本转换成尽可能接近真实人类语音的语音合成技术，广泛应用于语音助手、智能家居和地图导航等场景。TTS技术具有不仅能帮助有视觉障碍的人阅读计算机上的信息，更能增加文本文档的可读性等优点。TTS技术在数据录入时的数据成本较高，相对于大批量的原始数据，因此限制了进行训练所能够使用的训练文本的数量只需要在其中选择极少量的数据文本进行训练，其中对于有效文本这导致对于训练文本的筛选则是严重影响TTS技术进行语音合成转化的准确度的关键因素。
[0003]对于不同的发音通常需要相近次数的训练，如果一个发音的出现次数过少，若采用随机方法进行文本筛选，则此发音被筛选到训练文本中的概率就很低，那么就会造成此发音得不到训练或训练次数不够的情况出现，导致最后语音合成的不准确。

技术实现思路

[0004]本专利技术的目的在于提供一种获取用于语音合成的训练文本的方法及装置，从而解决现有技术中存在的前述问题。
[0005]为了实现上述目的，本专利技术采用的技术方案如下：
[0006]第一方面，本申请至少一个实施例提供了一种获取用于语音合成的训练文本的方法，包括：从文本库中随机选择文本，形成文本样本组和初始的训练文本组，其中，文本库包括多个文本，文本样本组包括多个第一文...

【技术保护点】

【技术特征摘要】
1.一种获取用于语音合成的训练文本的方法，包括：从文本库中随机选择文本，形成文本样本组和初始的训练文本组，其中，所述文本库包括多个文本，所述文本样本组包括多个第一文本，所述初始的训练文本组包括N个训练文本，N为小于或等于预设阈值的正整数；根据所述文本样本组中的每个第一文本的loss值，从所述文本样本组中选择M个第一文本作为训练文本添加至所述训练文本组并将所选择的第一文本从所述文本样本组中移除，其中，M为正整数且M+N为预设的训练文本数量，所述loss值表征单个第一文本中发音的稀有程度并且所述loss值随训练文本组中的训练文本的数量增加而变化；其中，所述选择M个第一文本作为训练文本包括每次选择一个第一文本作为一个训练文本直至已选择出的训练文本的数量等达到M。2.根据权利要求1所述的方法，其中，所述根据每个第一文本的loss值，从所述文本样本组中选择M个第一文本作为训练文本添加至所述训练文本组，包括对所述文本样本组循环执行以下操作直到所述训练文本组中的训练文本的数量达到M+N：计算所述文本样本组中的每个第一文本的loss值；选择loss值最小的一个第一文本作为训练文本添加到所述训练文本组；将所选择的一个第一文本从所述文本样本组中移除。3.根据权利要求1或2所述的方法，其中，所述计算所述文本样本组中的每个第一文本的loss值，包括：获取所述训练文本组中当前所有的训练文本的每一个发音类别中的每个不同发音的出现次数now以及每个不同发音的平均出现次数avg；计算每个不同发音的出现次数now和对应的平均出现次数avg的差值dif，其中，dif＝now
‑
avg；获取每个第一文本中的每一个发音类别中的不同发音的出现次数count；根据每一个发音类别中每个不同发音对应的差值dif和每个不同发音的出现次数count，计算每个第一文本中的每一个发音类别的loss值:loss
type
＝dif
·
count；对每一个发音类别的loss值进行加权求和得到每个第一文本的loss值。4.根据权利要求3所述的方法，其中，所...

【专利技术属性】
技术研发人员：王智彪，杨明祺，
申请(专利权)人：名日之梦北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人