一种文本语料的筛选方法及装置制造方法及图纸

技术编号:19934279 阅读:29 留言:0更新日期:2018-12-29 04:34
本申请提供了一种文本语料的筛选方法及装置,获取文本组合,从作为文本组合的子集的第一筛选文本组合中删除不满足第一预设条件的文本组合,得到第二筛选文本组合,第一预设条件包括:每个音段特征的出现次数在第一预设范围内。基于第二筛选文本组合,筛选文本语料。可见,以文本组合为单位,将文本组合中的音段特征作为筛选条件筛选语料,以筛选出音段特征的数量合适的文本组合,从而能够得到高质量的文本语料。

【技术实现步骤摘要】
一种文本语料的筛选方法及装置
本申请涉及语音合成
,尤其涉及一种文本语料的筛选方法及装置。
技术介绍
随着语音合成技术的发展,现阶段可以很方便地使用软件合成个性化的语音。音频语料库是语音合成的基础。音频语料库的构建过程主要包括以下几个方面:首先获取文本语料(以文字形式呈现的语料),再对相关人员郎读文本语料的声音进行采集,得到音频语料(以声音形式呈现的语料),若干音频语料构成音频语料库。可见文本语料的质量直接关系到音频语料的质量,从而直接影响语音合成的效果。因此,如何筛选出高质量的文本语料,以提高音频语料的质量,成为目前亟待解决的问题。
技术实现思路
申请人在研究的过程中发现,所谓高质量的文本语料,至少应该满足以下条件:音段特征的数量合适。本申请提供了一种文本语料的筛选方法及装置,目的在于解决如何筛选出高质量的文本语料的问题。为了实现上述目的,本申请提供了以下技术方案:一种文本语料的筛选方法,包括:获取文本组合,所述文本组合由文本单位组合形成,所述文本单位为文本资源中被划分为一个集合的文本;从第一筛选文本组合中删除不满足第一预设条件的文本组合,得到第二筛选文本组合,所述第一筛选文本组本文档来自技高网...

【技术保护点】
1.一种文本语料的筛选方法,包括:获取文本组合,所述文本组合由文本单位组合形成,所述文本单位为文本资源中被划分为一个集合的文本;从第一筛选文本组合中删除不满足第一预设条件的文本组合,得到第二筛选文本组合,所述第一筛选文本组合为所述文本组合的子集;所述第一预设条件包括:每个音段特征的出现次数在第一预设范围内;基于所述第二筛选文本组合,筛选文本语料。

【技术特征摘要】
1.一种文本语料的筛选方法,包括:获取文本组合,所述文本组合由文本单位组合形成,所述文本单位为文本资源中被划分为一个集合的文本;从第一筛选文本组合中删除不满足第一预设条件的文本组合,得到第二筛选文本组合,所述第一筛选文本组合为所述文本组合的子集;所述第一预设条件包括:每个音段特征的出现次数在第一预设范围内;基于所述第二筛选文本组合,筛选文本语料。2.根据权利要求1所述的方法,其特征在于,所述第一预设条件还包括:总字数在第二预设范围内。3.根据权利要求1所述的方法,其特征在于,所述第一筛选文本组合的获取过程包括:从所述文本组合中删除音段特征覆盖率小于第一阈值的文本组合,得到所述第一筛选文本组合。4.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述第二筛选文本组合,筛选文本语料包括:对所述第二筛选文本组合排序,获取文本组合序列,所述排序至少包括:按照所述第二筛选文本组合中音段特征的均衡性从优到劣的顺序,对所述第二筛选文本组合进行排序;将所述文本组合序列中的前预设数量个文本组合,作为筛选出的文本语料。5.根据权利要求4所述的方法,其特征在于,所述排序还包括:将第一文本组合序列中,不满足第二预设条件的文本组合的次序从第一次序调整为第二次序,所述第二次序在所述第一次序之后,得到第二文本组合序列,所述第一文本组合序列为按照所述第二筛选文本组合中音段特征的均衡性从优到劣的顺序,对所述第二筛选文本组合进行排序的结果,所述第二预设条件为:所述文本单位属于同一个分类,或者,所述文本单位的数量为1。6.根据权利要求1-3任一项所述的方法,其特征在于,在所述获取文本组合之前,还包括:从所述文本资源中选择满足目标人群的特征的文本单位,所述目标人群的特征包括年龄、性别和阅读的兴趣...

【专利技术属性】
技术研发人员:王晓斐钱云
申请(专利权)人:安徽淘云科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1