用于语音合成语料库的建立方法、装置、设备和介质制造方法及图纸

技术编号:29967103 阅读:13 留言:0更新日期:2021-09-08 09:36
本发明专利技术涉及一种用于语音合成语料库的建立方法、装置、设备和介质,该方法包括:获取第一文本以及第一文本对应的语音数据;切分语音数据得到分割语料;所述分割语料得到第二文本;对比第二文本和第一文本,筛选得到筛选文本;根据筛选文本确定筛选音频;提取筛选音频的基频值;计算基频值的均值和方差;聚类均值和方差得到聚类结果;根据聚类结果将筛选文本及其对应的语音数据分成k个语料库。本申请实施例中采取先切分后识别的方式,可以提高文本识别准确率,并且将获取得到的第一文本作为参考去除识别错误的情况;由于基频与语音风格和音色具有强相关性,使用句子级的基频均值方差进行分类,有效的保证类内语音风格与音色的一致性。致性。致性。

【技术实现步骤摘要】
用于语音合成语料库的建立方法、装置、设备和介质


[0001]本专利技术涉及语料库
,具体涉及一种用于语音合成语料库的建立方法、装置、设备和介质。

技术介绍

[0002]目前,语料库录制存在成本高、制作周期长、难度大等问题。但直接使用网络爬取的语音数据,其中含有大量质量并不能满足合成模型训练的数据质量要求的数据。当前常见的自动化构建音库的方法,对爬取语音进行语音识别获得识别文本,根据识别文本将语音切分成符合长度要求的短句,最后将切割后的音频和对应文本作为语库中的语料。
[0003]一个合格的用于语音合成模型训练的语料库,通常需要满足如下要求:1、语音和文本需要有高度的字音一致性;2、同一发音人所有语音在音色、风格、音质等语音学指标上要保持一致;3、每条语音的长度要保持在一定的字数区间,不可过长或者过短。而上述方法由于识别模型存在误差,所以要求1中内容不能得到有效保证。同时无法通过方法对语音的语言学稳定性进行评估,导致要求2中的内容不能得到满足。

技术实现思路

[0004]本专利技术提供一种用于语音合成语料库的建立方法、装置、设备和介质,能够解决语音文本字音一致性差、音色、风格、音质上的一致性较差的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种用于语音合成语料库的建立方法,包括:获取第一文本以及第一文本对应的语音数据;切分所述语音数据得到分割语料;识别所述分割语料得到第二文本;对比第二文本和第一文本,筛选得到筛选文本;根据筛选文本确定筛选音频;提取筛选音频的基频值;计算句子级基频值的均值和方差;聚类均值和方差得到聚类结果;根据聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。
[0007]在一些实施例中,上述方法中切分所述语音数据得到分割语料,包括:
[0008]通过语音活动检测算法切分所述语音数据得到分割语料。
[0009]在一些实施例中,上述方法中对比第二文本和第一文本,筛选得到筛选文本,包括:
[0010]根据对比的字数和准确率进行筛选。
[0011]在一些实施例中,上述方法还包括:
[0012]将k个语料库使用不同的style

id进行区分。
[0013]在一些实施例中,上述方法中识别分割语料得到第二文本,包括:采用自动识别语音技术识别分割语料得到第二文本。
[0014]第二方面,本专利技术实施例还提供了一种用于语音合成语料库的建立装置,包括:获取模块:用于获取第一文本以及第一文本对应的语音数据;切分模块:用于切分语音数据得到分割语料;识别模块:用于识别分割语料得到第二文本;对比模块:用于对比第二文本和
所述第一文本,筛选得到筛选文本;确定模块:根据筛选文本确定筛选音频;提取模块:用于提取筛选音频的基频值;计算模块:用于计算句子级基频值的均值和方差;聚类模块:用于聚类均值和方差得到聚类结果;分类模块:根据聚类结果将筛选文本及其对应的语音数据分类得到k个语料库。
[0015]在一些实施例中,上述装置中切分模块切分语音数据得到分割语料,包括:
[0016]通过语音活动检测算法切分所述语音数据得到分割语料。
[0017]在一些实施例中,上述对比模块还用于:
[0018]根据对比的字数和准确率进行筛选得到筛选文本。
[0019]第三方面,本专利技术实施例还提供了一种电子设备,包括:处理器和存储器;
[0020]所述处理器通过调用所述存储器存储的程序或指令,用于执行如上所述任一项用于语音合成语料库的建立方法。
[0021]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如上所述任一项用于语音合成语料库的建立方法。
[0022]本专利技术的有益效果是:获取第一文本以及第一文本对应的语音数据;切分所述语音数据得到分割语料;识别所述分割语料得到第二文本;对比第二文本和第一文本,筛选得到筛选文本;根据筛选文本确定筛选音频;提取筛选音频的基频值;计算基频值的均值和方差;聚类均值和方差得到聚类结果;根据聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。本申请建立语料库的方法第一方面采取先切分后识别的方式,可以提高文本识别准确率,并且将获取得到的第一文本作为参考与第二文本进行对比去除识别错误的情况,进一步提高文本识别准确率;第二方面,由于基频与语音风格和音色具有强相关性,使用句子级的基频均值方差进行分类,可以有效的保证类内语音风格与音色的一致性。
附图说明
[0023]图1为本专利技术实施例提供的一种用于语音合成语料库的建立方法;
[0024]图2为本专利技术实施例提供的一种用于语音合成语料库的建立装置;
[0025]图3为本专利技术实施例提供的一种电子设备的示意性框图。
具体实施方式
[0026]以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0027]为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本申请的限定。基于所描述的本申请的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
[0028]需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0029]图1为本专利技术实施例提供的一种用于语音合成语料库的建立方法。
[0030]第一方面,结合图1,本专利技术实施例提供了一种用于语音合成语料库的建立方法,包括如下S101、S102、S103、S104、S105、S106、S107、S108和S109九个步骤:
[0031]S101:获取第一文本以及第一文本对应的语音数据。
[0032]具体的,本申请实施例中,第一文本以及第一文本对应的语音数据可以是有声读物、新闻播报等,获取手段可以是爬取,如第一文本是“我是中国人”,第一文本对应的语音数据是“我是中国人”对应的语音数据。
[0033]S102:切分语音数据得到分割语料。
[0034]具体的,本申请实施例中,切分语音数据得到分割语料,可以是将一个长语音,根据其静音段,切分出多个短的语音段,多个短的语音段就是分割语料,切分长语音切分出多个短的语音段,主要是句长在5到25字区间的音频比较适合用于模型训练,为模型训练提供语料。
[0035]S103:识别所述分割语料得到第二文本。
[0036]具体的,本申请实施例中,如分割语料是“我爱中国”的语音,识别“我爱中国”的语音得到我爱中国的文本。
[0037]S104:对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于语音合成语料库的建立方法,其特征在于,包括:获取第一文本以及第一文本对应的语音数据;切分所述语音数据得到分割语料;识别所述分割语料得到第二文本;对比所述第二文本和所述第一文本,筛选得到筛选文本;根据所述筛选文本确定筛选音频;提取所述筛选音频的基频值;计算所述基频值的均值和方差;聚类所述均值和所述方差得到聚类结果;根据所述聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。2.根据权利要求1所述的用于语音合成语料库的建立方法,其特征在于,所述切分所述语音数据得到分割语料,包括:通过语音活动检测算法切分所述语音数据得到分割语料。3.根据权利要求1所述的用于语音合成语料库的建立方法,其特征在于,对比所述第二文本和所述第一文本,筛选得到筛选文本,包括:根据对比的字数和准确率进行筛选。4.根据权利要求1所述的用于语音合成语料库的建立方法,其特征在于,所述方法还包括:将所述k个语料库使用不同的style

id进行区分。5.根据权利要求1所述的用于语音合成语料库的建立方法,其特征在于,识别所述分割语料得到第二文本,包括:采用自动识别语音技术识别所述分割语料得到第二文本。6.一种用于语音合成语料库的建立装置,其特征在于,包括:获取模块:用于...

【专利技术属性】
技术研发人员:石强孙见青梁家恩
申请(专利权)人:深圳云知声信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1