最少发音文本的筛选方法、装置、设备和存储介质制造方法及图纸

技术编号:39936229 阅读:14 留言:0更新日期:2024-01-08 22:12
本公开提供了一种最少发音文本的筛选方法、装置、设备和存储介质,首先获取待选语料和预定义音节词袋,然后,分别获取各个待选文本各自对应的所有相似音节,再遍历各个待选文本,逐次从各个待选文本中筛选出被包含于预定义音节词袋的相似音节的数量最大的发音文本,并在每次选出一个发音文本时,从预定义音节词袋中剔除与发音文本的各个相似音节对应的所述发音音节,直至预定义音节词袋剩余的发音音节的数量小于数量阈值。最后,将选出的各发音文本作为当前次TTS训练的训练数据。本公开根据各个待选文本的所有相似音节在预定义音节词袋中的覆盖率进行逐级降序筛选,从而能够快速筛选到发音覆盖率最高、数量最少的发音文本。

【技术实现步骤摘要】

本公开涉及文本筛选,特别涉及一种最少发音文本的筛选方法、装置、设备和存储介质


技术介绍

1、在进行tts(text to speech,文本到语音)训练时,训练数据的采集具有重要的意义。如果能够采集到最少的训练文本,这些训练文本又能够覆盖所有的发音,既能节约大量的数据采集时间,同时能够大幅度提高tts训练的训练速度。

2、现有tts训练数据的采集,通常是通过暴力检索的方式进行查找,算法复杂度较高,训练数据筛选所需的时间也较长。


技术实现思路

1、本公开目的在于:提供了一种最少发音文本的筛选方法、装置、设备和存储介质,其能够快速从待选语料中筛选到发音最全、数据量最少的发音文本。

2、为达上述目的,本公开采用以下技术方案:一种最少发音文本的筛选方法,包括:

3、获取待选语料和预定义音节词袋,所述待选语料包括多个待选文本,所述预定义音节词袋包含预设数量个发音音节,所述预定义音节词袋表征当前次需要收集的发音音节的集合;

4、分别获取各所述待选文本各自对应的所有相似音节本文档来自技高网...

【技术保护点】

1.一种最少发音文本的筛选方法,其特征在于,包括:

2.根据权利要求1所述的最少发音文本的筛选方法,其特征在于,所述遍历各所述待选文本,逐次从各所述待选文本中筛选出被包含于所述预定义音节词袋的所述相似音节的数量最大的发音文本,并在每次选出一个所述发音文本时,从所述预定义音节词袋中剔除与所述发音文本的各所述相似音节对应的所述发音音节,直至所述预定义音节词袋剩余的所述发音音节的数量小于数量阈值的步骤,包括:

3.根据权利要求1所述的最少发音文本的筛选方法,其特征在于,所述分别获取各所述待选文本各自对应的所有相似音节的步骤之前,包括:

4.根据权利要求3所述...

【技术特征摘要】

1.一种最少发音文本的筛选方法,其特征在于,包括:

2.根据权利要求1所述的最少发音文本的筛选方法,其特征在于,所述遍历各所述待选文本,逐次从各所述待选文本中筛选出被包含于所述预定义音节词袋的所述相似音节的数量最大的发音文本,并在每次选出一个所述发音文本时,从所述预定义音节词袋中剔除与所述发音文本的各所述相似音节对应的所述发音音节,直至所述预定义音节词袋剩余的所述发音音节的数量小于数量阈值的步骤,包括:

3.根据权利要求1所述的最少发音文本的筛选方法,其特征在于,所述分别获取各所述待选文本各自对应的所有相似音节的步骤之前,包括:

4.根据权利要求3所述的最少发音文本的筛选方法,其特征在于,所述常用音节携带声调,所述根据所述常用词典构建得到混淆矩阵的步骤中,两个所述常用音节之间的相似度的计算步骤,包括:

5.根据权利要求4所述的最少发音文本的筛选方法,其特征在于,所述第一发...

【专利技术属性】
技术研发人员:李贤雷延强
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1