一种韵律标注方法、装置、设备、介质制造方法及图纸

技术编号:22566701 阅读:41 留言:0更新日期:2019-11-16 12:44
本申请公开了一种韵律标注方法、装置、设备、介质,该方法包括:获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,利用所述训练后端到端神经网络直接输出第二韵律标注结果。该韵律标注方法将声学特征与对应的文本特征进行有效融合,提高了韵律标注的准确性。

A prosody marking method, device, equipment and medium

The application discloses a prosody annotation method, device, device and medium, the method includes: acquiring the first acoustic feature, the first text feature and the first prosody annotation result corresponding to the sample audio; taking the first acoustic feature as the input of the encoder in the end-to-end neural network, and the first text feature as the input of the decoder in the end-to-end neural network In, the first prosody annotation result is the output of the end-to-end neural network, and the end-to-end neural network is trained to obtain the training back-end neural network; when the second acoustic feature and the second text feature of the prosody to be labeled are acquired, the second prosody annotation result is directly output by the training back-end neural network. This prosodic annotation method effectively integrates the acoustic features with the corresponding text features to improve the accuracy of prosodic annotation.

【技术实现步骤摘要】
一种韵律标注方法、装置、设备、介质
本申请涉及语音合成
,特别涉及一种韵律标注方法、装置、设备、介质。
技术介绍
合成音库一般包括大量高质量的录制音频片段、对应的转写文本以及依据录制音频片段的韵律信息在转写文本上进行的韵律标注。如何通过计算机自动、准确地进行合成音库的韵律标注成为语音合成领域一项重要的的技术。现有技术方案一:先利用预先训练好的文本韵律预测模型预测出文本的韵律信息,再使用预先录制好的音频对预测出的文本韵律信息进行认证筛选,剔除不正确的韵律信息,保留正确的韵律信息,得到最终韵律信息。方案二:利用已有的语音及文本两种韵律预测模型分别针对语音和文本进行韵律预测,得到带有概率的韵律预测结果,然后依据两个韵律预测结果的概率,选择较高概率的韵律预测结果。方案一在不按预测出的文本韵律节奏朗读的情况下,无法最终筛选出正确韵律信息。方案二割裂了语音和文本的内在联系,也无法取得很好的韵律标注效果。且现有方案中的韵律标注过程都包含多个阶段的处理,每个阶段的组件构建都需要有丰富的领域知识,整个系统设计困难,实现复杂,各个阶段的误差在最终阶段都会叠加,使最终得到的韵律信息不准确。
技术实现思路
有鉴于此,本申请的目的在于提供一种韵律标注方法、装置、设备、介质,能够避免韵律标注过程多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现韵律自动标注,提高韵律标注结果的准确性。其具体方案如下:第一方面,本申请公开了一种韵律标注方法,包括:获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。可选的,所述获取样本音频对应的第一声学特征之前,还包括:将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。可选的,所述获取所述样本音频对应的第一文本特征之前,还包括:将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。可选的,所述获取所述样本音频对应的第一韵律标注结果之前,还包括:将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。可选的,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:将所述端到端神经网络的网络参数随机初始化。可选的,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。可选的,所述将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络,包括:将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出;通过所述解码器中的注意力模块将所述第一声学特征和所述第一文本特征进行关联,得到关联信息,并将所述关联信息输入所述解码器中的循环神经网络,得到实时韵律序列,其中,所述实时韵律序列中的每个韵律标签均带有包含概率信息的分值;将所述实时韵律序列通过所述端到端神经网络中的条件随机场,得到全局最优的所述实时韵律标注结果;计算所述实时韵律标注结果与所述第一韵律标注结果的误差,通过误差反向传播算法,实时更新所述端到端神经网络的网络参数,直至所述误差满足预设条件,得到训练后端到端神经网络。可选的,所述当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果之后,还包括:将所述第二韵律标注结果插入所述第二文本特征对应的第二文本序列,得到带韵律标注的第二文本序列。第二方面,本申请公开了一种韵律标注装置,包括:特征获取模块,用于获取样本音频对应的第一声学特征和第一文本特征;韵律标注结果获取模块,用于获取所述样本音频对应的第一韵律标注结果;训练处理模块,用于将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;标注模块,用于当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。第三方面,本申请公开了一种韵律标注设备,包括:存储器和处理器;其中,所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以实现前述公开的韵律标注方法。第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的韵律标注方法。可见,本申请先获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;再将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。由此可见,本申请通过训练得到一个端到端神经网络,当获取到待标注韵律的声学特征和对应的文本特征时,将所述声学特征和所述文本特征作为所述训练后端到端神经网络的输入,以得到所述训练后端到端神经网络直接输出的韵律标注结果,避免了韵律标注过程中多阶段化带来的叠加误差,且将声学特征与对应的文本特征进行有效融合,实现了韵律自动标注,且提高了韵律标注结果的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请公开的一种韵律标注方法流程图;图2为本申请公开的一种具体的韵律标注方法流程图;图3为本申请公开的一种端到端神经网本文档来自技高网...

【技术保护点】
1.一种韵律标注方法,其特征在于,包括:/n获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;/n将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;/n当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。/n

【技术特征摘要】
1.一种韵律标注方法,其特征在于,包括:
获取样本音频对应的第一声学特征、第一文本特征以及第一韵律标注结果;
将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络;
当获取到待标注韵律的第二声学特征和第二文本特征时,将所述第二声学特征和所述第二文本特征作为所述训练后端到端神经网络的输入,以得到第二韵律标注结果。


2.根据权利要求1所述的韵律标注方法,其特征在于,所述获取样本音频对应的第一声学特征之前,还包括:
将样本音频按固定时长分帧,并从每一帧所述样本音频中提取向量化的第一声学特征。


3.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一文本特征之前,还包括:
将所述样本音频对应的文本序列中的每个字符用特定的定长向量表示,得到向量化的第一文本特征。


4.根据权利要求1所述的韵律标注方法,其特征在于,所述获取所述样本音频对应的第一韵律标注结果之前,还包括:
将所述样本音频对应的韵律标注结果用数字表示,得到数字化的第一韵律标注结果。


5.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络之前,还包括:
将所述端到端神经网络的网络参数随机初始化。


6.根据权利要求1所述的韵律标注方法,其特征在于,所述训练所述端到端神经网络,得到训练后端到端神经网络,包括:
训练所述端到端神经网络,直至误差满足预设条件,得到训练后端到端神经网络,其中,所述误差为所述端到端神经网络输出的实时韵律标注结果与所述第一韵律标注结果之间的误差。


7.根据权利要求6所述的韵律标注方法,其特征在于,所述将所述第一声学特征作为端到端神经网络中的编码器的输入,所述第一文本特征作为所述端到端神经网络中的解码器的输入,所述第一韵律标注结果作为所述端到端神经网络的输出,训练所述端到端神经网络,得到训练后端到端神经网络,包括:
将所述第一声学特征作为端到端神经...

【专利技术属性】
技术研发人员:谌明陆健徐欣康胡新辉
申请(专利权)人:浙江同花顺智能科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利