用于语音合成语料库的建立方法、装置、设备和介质制造方法及图纸

技术编号：29967103 阅读：13 留言：0更新日期：2021-09-08 09:36

本发明专利技术涉及一种用于语音合成语料库的建立方法、装置、设备和介质，该方法包括：获取第一文本以及第一文本对应的语音数据；切分语音数据得到分割语料；所述分割语料得到第二文本；对比第二文本和第一文本，筛选得到筛选文本；根据筛选文本确定筛选音频；提取筛选音频的基频值；计算基频值的均值和方差；聚类均值和方差得到聚类结果；根据聚类结果将筛选文本及其对应的语音数据分成k个语料库。本申请实施例中采取先切分后识别的方式，可以提高文本识别准确率，并且将获取得到的第一文本作为参考去除识别错误的情况；由于基频与语音风格和音色具有强相关性，使用句子级的基频均值方差进行分类，有效的保证类内语音风格与音色的一致性。致性。致性。

全部详细技术资料下载

【技术实现步骤摘要】
用于语音合成语料库的建立方法、装置、设备和介质

[0001]本专利技术涉及语料库
，具体涉及一种用于语音合成语料库的建立方法、装置、设备和介质。

技术介绍

[0002]目前，语料库录制存在成本高、制作周期长、难度大等问题。但直接使用网络爬取的语音数据，其中含有大量质量并不能满足合成模型训练的数据质量要求的数据。当前常见的自动化构建音库的方法，对爬取语音进行语音识别获得识别文本，根据识别文本将语音切分成符合长度要求的短句，最后将切割后的音频和对应文本作为语库中的语料。
[0003]一个合格的用于语音合成模型训练的语料库，通常需要满足如下要求：1、语音和文本需要有高度的字音一致性；2、同一发音人所有语音在音色、风格、音质等语音学指标上要保持一致；3、每条语音的长度要保持在一定的字数区间，不可过长或者过短。而上述方法由于识别模型存在误差，所以要求1中内容不能得到有效保证。同时无法通过方法对语音的语言学稳定性进行评估，导致要求2中的内容不能得到满足。

技术实现思路

[0004]本专利技术提供一种用于语音合成语料库的建立方法、装置、设备和介质，能够解决语音文本字音一致性差、音色、风格、音质上的一致性较差的技术问题。
[0005]本专利技术解决上述技术问题的技术方案如下：
[0006]第一方面，本专利技术实施例提供了一种用于语音合成语料库的建立方法，包括：获取第一文本以及第一文本对应的语音数据；切分所述语音数据得到分割语料；识别所述分割语料得到第二文本；对比第二文本和第一文本，筛选得...

【技术保护点】

【技术特征摘要】
1.一种用于语音合成语料库的建立方法，其特征在于，包括：获取第一文本以及第一文本对应的语音数据；切分所述语音数据得到分割语料；识别所述分割语料得到第二文本；对比所述第二文本和所述第一文本，筛选得到筛选文本；根据所述筛选文本确定筛选音频；提取所述筛选音频的基频值；计算所述基频值的均值和方差；聚类所述均值和所述方差得到聚类结果；根据所述聚类结果将所述筛选文本及其对应的语音数据分成k个语料库。2.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，所述切分所述语音数据得到分割语料，包括：通过语音活动检测算法切分所述语音数据得到分割语料。3.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，对比所述第二文本和所述第一文本，筛选得到筛选文本，包括：根据对比的字数和准确率进行筛选。4.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，所述方法还包括：将所述k个语料库使用不同的style
‑
id进行区分。5.根据权利要求1所述的用于语音合成语料库的建立方法，其特征在于，识别所述分割语料得到第二文本，包括：采用自动识别语音技术识别所述分割语料得到第二文本。6.一种用于语音合成语料库的建立装置，其特征在于，包括：获取模块：用于...

【专利技术属性】
技术研发人员：石强，孙见青，梁家恩，
申请(专利权)人：深圳云知声信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人