The application discloses a prosody annotation method, device, device and medium, the method includes: acquiring the first acoustic feature, the first text feature and the first prosody annotation result corresponding to the sample audio; taking the first acoustic feature as the input of the encoder in the end-to-end neural network, and the first text feature as the input of the decoder in the end-to-end neural network In, the first prosody annotation result is the output of the end-to-end neural network, and the end-to-end neural network is trained to obtain the training back-end neural network; when the second acoustic feature and the second text feature of the prosody to be labeled are acquired, the second prosody annotation result is directly output by the training back-end neural network. This prosodic annotation method effectively integrates the acoustic features with the corresponding text features to improve the accuracy of prosodic annotation.
【技术实现步骤摘要】
一种韵律标注方法、装置、设备、介质
本申请涉及语音合成
,特别涉及一种韵律标注方法、装置、设备、介质。
技术介绍
合成音库一般包括大量高质量的录制音频片段、对应的转写文本以及依据录制音频片段的韵律信息在转写文本上进行的韵律标注。如何通过计算机自动、准确地进行合成音库的韵律标注成为语音合成领域一项重要的的技术。现有技术方案一:先利用预先训练好的文本韵律预测模型预测出文本的韵律信息,再使用预先录制好的音频对预测出的文本韵律信息进行认证筛选,剔除不正确的韵律信息,保留正确的韵律信息,得到最终韵律信息。方案二:利用已有的语音及文本两种韵律预测模型分别针对语音和文本进行韵律预测,得到带有概率的韵律预测结果,然后依据两个韵律预测结果的概率,选择较高概率的韵律预测结果。方案一在不按预测出的文本韵律节奏朗读的情况下,无法最终筛选出正确韵律信息。方案二割裂了语音和文本的内在联系,也无法取得很好的韵律标注效果。且现有方案中的韵律标注过程都包含多个阶段的处理,每个阶段的组件构建都需要有丰富的领域知识,整个系统设计困难,实现复杂,各个阶段的误差在最终阶段都会叠加,使最终得到的韵律信息不准确。
技术实现思路
有鉴于此,本申请的目的在于提供一种韵律标注方法、装置、设备、介质,能够避免韵律标注过程多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现韵律自动标注,提高韵律标注结果的准确性。其具体方案如下:第一方面,本申请公开了一种韵律标注方法,包括:获取样本 ...
【技术保护点】
1.一种韵律标注方法,其特征在于,包括:/n获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;/n将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;/n当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。/n
【技术特征摘要】
1.一种韵律标注方法,其特征在于,包括:
获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。
2.根据权利要求1所述的韵律标注方法,其特征在于,所述获取样本音频对应的第一声学特征之前,还包括:
将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。
3.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一文本特征之前,还包括:
将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。
4.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一韵律标注结果之前,还包括:
将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。
5.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:
将所述端到端神经网络的网络参数随机初始化。
6.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:
训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。
7.根据权利要求6所述的韵律标注方法,其特征在于,所述将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络,包括:
将所述第一声学特征作为端到端神经...
【专利技术属性】
技术研发人员:谌明,陆健,徐欣康,胡新辉,
申请(专利权)人:浙江同花顺智能科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。