一种面向语音合成的自动化语音数据校验方法技术

技术编号:38379758 阅读:11 留言:0更新日期:2023-08-05 17:38
一种面向语音合成的自动化语音数据校验方法,包括如下步骤:步骤一:由专业的声优在专业的录音棚录制音频语料;步骤二:声优录制好一段完整的音频后,开始对音频剪辑处理;步骤三:对整段录制的音频进行裁剪后,对各个短音频进行自动语音识别,获得每个音频文件对应的文本;步骤四:对获得的台词音频数据和对应的台词文本进行多字少字校验并处理;步骤五:获得的台词音频数据和对应的台词文本进行错别字检查并修正,以保证训练数据和标签没有错误和异常值。本发明专利技术利用深度学习技术,以及针对语音合成数据处理流程特点,结合自然语言处理和信号处理方法,实现自动化地对语音合成数据进行校验和清洗,以提高语音合成数据处理的效率和准确性。率和准确性。率和准确性。

【技术实现步骤摘要】
一种面向语音合成的自动化语音数据校验方法


[0001]本专利技术属于语音合成领域,具体地说是一种面向语音合成的自动化语音数据校验方法。

技术介绍

[0002]近年来,随着深度学习的快速发展,人工智能技术已经开始普及在生活的各个方方面面。语音合成技术也随着深度学习的发展,得到了空前的进步。早期语音合成通过录制拼接式虽然可以实现语音自动合成,但是机械音让人难以接受。而现在通过大数据进行深度神经网络学习,已经可以合成比较自然的语音。而与传统拼接式语音合成系统相比,基于深度神经网络的语音合成方法,需要用大量的训练语料来进行训练。
[0003]随着元宇宙概念的提出,虚拟数字人成为目前人工智能技术最热门的方向。而虚拟数字人最大的特点就是具有高度的拟人化,这在进行语音交互的时候体现的尤为重要。为了在元宇宙中,让数字人拥有丰富的语音交互能力,例如多音色和多情感等,需要训练出较强的语音合成模型。然而要训练这些功能强大的语音合成模型,需要有大规模高质量的训练语料。大规模高质量的训练语料,意味着需要请声优录制大规模语音数据,这在推高录制工作量的时候,也在推高数据处理的工作量。不仅如此,在快速搭建一个虚拟人时,需要搭配一个音色的语音合成,也需要快速的获取训练语料,即需要快速的处理语音数据。在生成语音合成数据时,一般需要大量的人工处理工作,比如对语音的切割,人工校验数据,最后生成可用于训练的音频文本数据。
[0004]传统的语音合成数据主要处理流程如下:
[0005]首先是录音。准备好台词后,请专业的声优到专业的录音棚录音。录音方法有两种一种是在录制的时候,录一条切割一条音频,这样录制效率较慢。另一种是录制完所有台词后,后续统一再进行切割,这样后续切割处理难度加大。
[0006]其次就是校验语音数据。由于语音合成数据对数据质量要求较高,要做到一字不差,而传统的语音识别技术很难达到要求,因此需要人工校验。
[0007]最后就是数据纠正,校验完数据后,需要对错误的数据进行纠错,主要是对音频的文本标签进行修改,以匹配录制的音频,该过程同样需要大量人工成本。
[0008]目前对语音合成数据的处理,基本上依赖人工进行处理,在需要快速处理大量文本时,导致成本太高。尤其是在处理带情感的长文本数据时,更是增加了人工工作量。首先是音频录制阶段,需要大量的人工剪辑,而声优在录制时也需要配合录音师的剪辑要求,大大降低录音效率。其次是语音校验阶段,语音合成数据校验需要大量的人工成本,而且在处理大量文本时效率也比较低。虽然深度学习端到端语音合成技术可以直接将文本转换成语音,但是为了保证生成的语音质量和准确性,校验数据仍然是非常重要的。训练数据集的质量对于生成的语音质量有着至关重要的影响。虽然传统的语音识别可以辅助进行一些语音校验工作,但由于语音合成对数据的高要求性,其实并没有降低多少人工成本,依然需要人工一字一字的去校验。因此,在语音合成模型进行训练之前,需要大量人工成本对数据进行
校验和清洗,以去除数据中的错误和异常值,并确保数据的准确性和一致性。

技术实现思路

[0009]本专利技术提供一种面向语音合成的自动化语音数据校验系统及其方法,用以解决现有技术中的缺陷。
[0010]本专利技术通过以下技术方案予以实现:
[0011]一种面向语音合成的自动化语音数据校验方法,包括如下步骤:
[0012]步骤一:由专业的声优在专业的录音棚录制音频语料;
[0013]步骤二:声优录制好一段完整的音频后,开始对音频剪辑处理,以获得一条一条的训练音频数据,以便后续处理和声学模型训练;
[0014]步骤三:对整段录制的音频进行裁剪后,我们得到一条一条的短音频文件,对各个短音频进行自动语音识别,获得每个音频文件对应的文本,然后根据台词顺序对台词文本进行音频召回处理,得到了一条一条的台词音频数据;
[0015]步骤四:对获得的台词音频数据和对应的台词文本进行多字少字校验并处理,以保证训练数据和标签没有错误和异常值;
[0016]步骤五:获得的台词音频数据和对应的台词文本进行错别字检查并修正,以保证训练数据和标签没有错误和异常值。
[0017]如上所述的一种面向语音合成的自动化语音数据校验方法,所述的步骤一中文本语料为提前准备好的台词,由一条一条独立文本组成,为了保证较高的录音效率,录音前需要声优提前熟练掌握台词,同时设置单次录音台词条数,录音过程中录音不停顿;每录制完一条台词,停顿3秒及以上,如果声优发现录错内容,可以说出“重来”,然后停顿1秒后,重新录制台词内容。
[0018]如上所述的一种面向语音合成的自动化语音数据校验方法,所述的步骤二中采用静音边界检测算法,简称VAD(VoiceActivityDetection);利用梅尔倒谱系数(Mel

scaleFrequencyCepstralCoefficients),简称MFCC特征,来做静音检测。
[0019]如上所述的一种面向语音合成的自动化语音数据校验方法,所述的静音检测包括如下步骤:
[0020]步骤一:计算每一帧音频对应的MFCC特征;
[0021]步骤二:找到第一帧MFCC特征大于静音阈值的帧,设为声音起始帧v0;
[0022]步骤三:对于连续的3帧及以上MFCC特征均小于静音阈值部分,则把第一帧开始小于静音阈值的前一针作为声音的末尾帧v1;
[0023]步骤四:根据当前声音的边界剪辑并保存音频,注意在剪辑时,为了方便下一步鉴别停顿为语气停顿还是台词之间停顿,真正裁剪的声音末尾帧为v1+10,音频末尾不够10帧除外;
[0024]步骤五:按顺序保存好音频后继续从步骤二循环。
[0025]如上所述的一种面向语音合成的自动化语音数据校验方法,所述的步骤四中声音末尾帧为v1+10音频末尾不够10帧不用截取操作,直接把音频末尾所有帧归为最后切割的一个音频。
[0026]如上所述的一种面向语音合成的自动化语音数据校验方法,所述的步骤三中根据
台词顺序对台词文本进行音频召回处理的集体操作包括如下步骤:
[0027]步骤一:为了合并因语气停顿被分割开的音频,首先对每个音频文件做静音检测,如果音频文件最后一帧非静音帧,说明该处截取是因为语气停顿的音频,对该音频文件做标记以待处理;
[0028]步骤二:首先按台词文本顺序取两条待召回台词文本text_a和文本text_b,文本text_a为当前需要召回的音频文本,文本text_b为下一个需要召回的音频文本;
[0029]步骤三:那么先判断wav_b中是否包含

重来

,如果是那么回到第2步重新开始,否则进入下一步;
[0030]步骤四:按顺序取两条音频的语音识别文本wav_a和wav_b,分别用wav_a和wav_b与text_a和text_b,做相似距离计算,相似距离计算公式如下:
[0031]Match_ab=ED(wav本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向语音合成的自动化语音数据校验方法,其特征在于:包括如下步骤:步骤一:由专业的声优在专业的录音棚录制音频语料;步骤二:声优录制好一段完整的音频后,开始对音频剪辑处理,以获得一条一条的训练音频数据;步骤三:对整段录制的音频进行裁剪后,我们得到一条一条的短音频文件,对各个短音频进行自动语音识别,获得每个音频文件对应的文本,然后根据台词顺序对台词文本进行音频召回处理,得到了一条一条的台词音频数据;步骤四:对获得的台词音频数据和对应的台词文本进行多字少字校验并处理,以保证训练数据和标签没有错误和异常值;步骤五:获得的台词音频数据和对应的台词文本进行错别字检查并修正,以保证训练数据和标签没有错误和异常值。2.根据权利要求1所述的一种面向语音合成的自动化语音数据校验方法,其特征在于:所述步骤一中文本语料为提前准备好的台词,由一条一条独立文本组成,为了保证较高的录音效率,录音前需要声优提前熟练掌握台词,同时设置单次录音台词条数,录音过程中录音不停顿;每录制完一条台词,停顿3秒及以上,如果声优发现录错内容,可以说出“重来”,然后停顿1秒后,重新录制台词内容。3.根据权利要求1所述的一种面向语音合成的自动化语音数据校验方法,其特征在于:所述的步骤二中采用静音边界检测算法,简称VAD;利用梅尔倒谱系数,简称MFCC特征,来做静音检测。4.根据权利要求1所述的一种面向语音合成的自动化语音数据校验方法,其特征在于:所述的静音检测包括如下步骤:步骤一:计算每一帧音频对应的MFCC特征;步骤二:找到第一帧MFCC特征大于静音阈值的帧,设为声音起始帧v0;步骤三:对于连续的3帧及以上MFCC特征均小于静音阈值部分,则把第一帧开始小于静音阈值的前一针作为声音的末尾帧v1;步骤四:根据当前声音的边界剪辑并保存音频,注意在剪辑时,为了方便下一步鉴别停顿为语气停顿还是台词之间停顿,真正裁剪的声音末尾帧为v1+10;步骤五:按顺序保存好音频后继续从步骤二循环。5.根据权利要求4所述的一种面向语音合成的自动化语音数据校验方法,其特征在于:所述的步骤四中声音末尾帧为v1+10音频末尾不够10帧不用截取操作,直接把音频末尾所有帧归为最后切割的一个音频。6.根据权利要求3所述的一种面向语音合成的自动化语音数据校验方法,其特征在于:所述的步骤三中根据台词顺序对台词文本进行音频召回处理的集体操作包括如下步骤:步骤一:为了合并因语气停顿被分割开的音频,首先对每个音频文件做静音检测,如果音频文件最后一帧非静音帧,说明该处截取是因为语气停顿的音频,对该音频文件做标记以待处理;步骤二:首先按台词文本顺序取两条待召回台词文本text_a和文本text_b,文本text_a为当前需要召回的音频文本,文本text_b为下一个需要召回的音频文本;步骤三:那么先判断wav_b中是否包含

重来

,如果是那么回到第2步重新开始,否则进
入下一步;步骤四:按顺序取两条音频的语音识别文本wav_a和wav_b,分别用wav_a和wav_b与text_a和text_b,做相似距离计算,相似距离计算公式如下:Match_ab=ED(wav_a,text_b)

|len(wav_a)

len(text_b)|其中,ED(wav_a,text_b)表示wav_a和text_b的编辑距离,|len(wav_a)

len(wav_a)|表示wav_a和text_b文本长度差的绝对值;步骤五:如果音频a属于第一步中因语气停顿而被剪辑的音频,判断Match_(a+b)b是否大于Match_ab,若Match_(a+b)b大于Match_ab,...

【专利技术属性】
技术研发人员:梁晨阳
申请(专利权)人:北京中科深智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1