一种面向语音合成的自动化语音数据校验方法技术

技术编号：38379758 阅读：11 留言：0更新日期：2023-08-05 17:38

一种面向语音合成的自动化语音数据校验方法，包括如下步骤：步骤一：由专业的声优在专业的录音棚录制音频语料；步骤二：声优录制好一段完整的音频后，开始对音频剪辑处理；步骤三：对整段录制的音频进行裁剪后，对各个短音频进行自动语音识别，获得每个音频文件对应的文本；步骤四：对获得的台词音频数据和对应的台词文本进行多字少字校验并处理；步骤五：获得的台词音频数据和对应的台词文本进行错别字检查并修正，以保证训练数据和标签没有错误和异常值。本发明专利技术利用深度学习技术，以及针对语音合成数据处理流程特点，结合自然语言处理和信号处理方法，实现自动化地对语音合成数据进行校验和清洗，以提高语音合成数据处理的效率和准确性。率和准确性。率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向语音合成的自动化语音数据校验方法

[0001]本专利技术属于语音合成领域，具体地说是一种面向语音合成的自动化语音数据校验方法。

技术介绍

[0002]近年来，随着深度学习的快速发展，人工智能技术已经开始普及在生活的各个方方面面。语音合成技术也随着深度学习的发展，得到了空前的进步。早期语音合成通过录制拼接式虽然可以实现语音自动合成，但是机械音让人难以接受。而现在通过大数据进行深度神经网络学习，已经可以合成比较自然的语音。而与传统拼接式语音合成系统相比，基于深度神经网络的语音合成方法，需要用大量的训练语料来进行训练。
[0003]随着元宇宙概念的提出，虚拟数字人成为目前人工智能技术最热门的方向。而虚拟数字人最大的特点就是具有高度的拟人化，这在进行语音交互的时候体现的尤为重要。为了在元宇宙中，让数字人拥有丰富的语音交互能力，例如多音色和多情感等，需要训练出较强的语音合成模型。然而要训练这些功能强大的语音合成模型，需要有大规模高质量的训练语料。大规模高质量的训练语料，意味着需要请声优录制大规模语音数据，这在推高录制工作量的时候，也在推高数据处理的工作量。不仅如此，在快速搭建一个虚拟人时，需要搭配一个音色的语音合成，也需要快速的获取训练语料，即需要快速的处理语音数据。在生成语音合成数据时，一般需要大量的人工处理工作，比如对语音的切割，人工校验数据，最后生成可用于训练的音频文本数据。
[0004]传统的语音合成数据主要处理流程如下：
[0005]首先是录音。准备好台词后，请专业的声优到专业的录音棚...

【技术保护点】

【技术特征摘要】
1.一种面向语音合成的自动化语音数据校验方法，其特征在于：包括如下步骤：步骤一：由专业的声优在专业的录音棚录制音频语料；步骤二：声优录制好一段完整的音频后，开始对音频剪辑处理，以获得一条一条的训练音频数据；步骤三：对整段录制的音频进行裁剪后，我们得到一条一条的短音频文件，对各个短音频进行自动语音识别，获得每个音频文件对应的文本，然后根据台词顺序对台词文本进行音频召回处理，得到了一条一条的台词音频数据；步骤四：对获得的台词音频数据和对应的台词文本进行多字少字校验并处理，以保证训练数据和标签没有错误和异常值；步骤五：获得的台词音频数据和对应的台词文本进行错别字检查并修正，以保证训练数据和标签没有错误和异常值。2.根据权利要求1所述的一种面向语音合成的自动化语音数据校验方法，其特征在于：所述步骤一中文本语料为提前准备好的台词，由一条一条独立文本组成，为了保证较高的录音效率，录音前需要声优提前熟练掌握台词，同时设置单次录音台词条数，录音过程中录音不停顿；每录制完一条台词，停顿3秒及以上，如果声优发现录错内容，可以说出“重来”，然后停顿1秒后，重新录制台词内容。3.根据权利要求1所述的一种面向语音合成的自动化语音数据校验方法，其特征在于：所述的步骤二中采用静音边界检测算法，简称VAD；利用梅尔倒谱系数，简称MFCC特征，来做静音检测。4.根据权利要求1所述的一种面向语音合成的自动化语音数据校验方法，其特征在于：所述的静音检测包括如下步骤：步骤一：计算每一帧音频对应的MFCC特征；步骤二：找到第一帧MFCC特征大于静音阈值的帧，设为声音起始帧v0；步骤三：对于连续的3帧及以上MFCC特征均小于静音阈值部分，则把第一帧开始小于静音阈值的前一针作为声音的末尾帧v1；步骤四：根据当前声音的边界剪辑并保存音频，注意在剪辑时，为了方便下一步鉴别停顿为语气停顿还是台词之间停顿，真正裁剪的声音末尾帧为v1+10；步骤五：按顺序保存好音频后继续从步骤二循环。5.根据权利要求4所述的一种面向语音合成的自动化语音数据校验方法，其特征在于：所述的步骤四中声音末尾帧为v1+10音频末尾不够10帧不用截取操作，直接把音频末尾所有帧归为最后切割的一个音频。6.根据权利要求3所述的一种面向语音合成的自动化语音数据校验方法，其特征在于：所述的步骤三中根据台词顺序对台词文本进行音频召回处理的集体操作包括如下步骤：步骤一：为了合并因语气停顿被分割开的音频，首先对每个音频文件做静音检测，如果音频文件最后一帧非静音帧，说明该处截取是因为语气停顿的音频，对该音频文件做标记以待处理；步骤二：首先按台词文本顺序取两条待召回台词文本text_a和文本text_b，文本text_a为当前需要召回的音频文本，文本text_b为下一个需要召回的音频文本；步骤三：那么先判断wav_b中是否包含
‘
重来
’
，如果是那么回到第2步重新开始，否则进
入下一步；步骤四：按顺序取两条音频的语音识别文本wav_a和wav_b，分别用wav_a和wav_b与text_a和text_b，做相似距离计算，相似距离计算公式如下：Match_ab＝ED(wav_a,text_b)
–
|len(wav_a)
‑
len(text_b)|其中，ED(wav_a,text_b)表示wav_a和text_b的编辑距离，|len(wav_a)
‑
len(wav_a)|表示wav_a和text_b文本长度差的绝对值；步骤五：如果音频a属于第一步中因语气停顿而被剪辑的音频，判断Match_(a+b)b是否大于Match_ab，若Match_(a+b)b大于Match_ab，...

【专利技术属性】
技术研发人员：梁晨阳，
申请(专利权)人：北京中科深智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人