韵律层级标注方法、装置、设备和存储介质制造方法及图纸

技术编号:25892342 阅读:36 留言:0更新日期:2020-10-09 23:36
本申请公开了韵律层级标注方法、装置、设备和存储介质,涉及自然语言处理和深度学习技术领域。具体实现方案为:对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示;根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示;根据所述待标注文本数据中音素的文本特征表示和声学特征表示,确定所述待标注文本数据中音素的组合特征表示;根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息。本申请技术提高了韵律层级标注的准确度。

【技术实现步骤摘要】
韵律层级标注方法、装置、设备和存储介质
本申请涉及语音
,尤其涉及自然语言处理和深度学习
,具体涉及一种韵律层级标注方法、装置、设备和存储介质。
技术介绍
随着人工智能技术的发展,智能语音交互广泛应用于工作生活的各个领域,例如通过AI(ArtificialIntelligence,人工智能)合成主播播报新闻、通过智能音箱播报语音消息等。语音合成通过将文字信息转化为语音,是智能语音交互的基础。韵律层级标注利用人们发音停顿的特点,根据停顿的时间长度,将韵律分为不同的韵律层级,是影响合成语音自然度的关键因素。
技术实现思路
本公开提供了一种用于韵律层级标注方法、装置、设备以及存储介质。根据本公开的一方面,提供了一种韵律层级标注方法,包括:对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示;根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示;根据所述待标注文本数据中音素的文本特征表示和声学特征表示,确定所述待标注文本数据中音素的组合特征表示;根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息。根据本公开的另一方面,提供了一种韵律层级标注装置,包括:文本特征模块,用于对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示;声学特征模块,用于根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示;组合特征模块,用于根据所述待标注文本数据中音素的文本特征表示和声学特征表示,确定所述待标注文本数据中音素的组合特征表示;韵律层级标注模块,用于根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息。根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例中任一项所述的韵律层级标注方法。根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的韵律层级标注方法。根据本申请的技术提高了韵律层级标注的准确度。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请实施例提供的一种韵律层级标注方法的流程示意图;图2是根据本申请实施例提供的一种韵律层级标注方法的流程示意图;图3是根据本申请实施例提供的一种韵律层级标注方法的流程示意图;图4是根据本申请实施例提供的一种韵律层级标注方法的流程示意图;图5是根据本申请实施例提供的韵律层级标注装置的结构示意图;图6是用来实现本申请实施例的韵律层级标注方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请实施例提供的一种韵律层级标注方法的流程示意图。本实施例可适用于对待标注文本数据进行韵律层级标注的情况。本实施例公开的韵律层级标注方法可以由电子设备执行,具体可以由韵律层级标注装置来执行,该装置可以由软件和/或硬件的方式实现,配置于电子设备中。参见图1,本实施例提供的韵律层级标注方法包括:S110、对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示。其中,音素是根据语音的自然属性划分的最小语音单位,依据音节里的发音动作进行划分,一个动作构成一个音素。音素分为元音与辅音两大类。需要说明的是,本申请对待标注文本数据的语言类型不作具体限定,例如可以为中文、英文、日语、德语等。为了便于表述,后文主要以中文为例进行说明。其中,音素的文本特征表示可以为第一长度的向量。具体的,确定待标注文本数据的拼音,并按照音素粒度对拼音进行拆分得到待标注文本数据的音素信息;可以预先构建有候选音素信息与音素特征表示之间关联关系,例如音素特征表示可以为固定长度向量表示,不同候选音素的音素特征表示取值不同;通过将待标注文本数据中的音素信息与该关联关系进行匹配,得到待标注文本数据中音素的文本特征表示。以待标注文本数据为“小明今天上学”为例,得到音素信息为“x、iao、m、ing、j、in、t、ian、sh、ang、x和üe”,通过将识别的音素与该关联关系匹配,确定音素的文本特征表示取值。需要说明的是,中文的韵母音素中还包括声调,针对同一韵母音素,若声调不同,则文本特征表示取值不同。S120、根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示。在本申请实施例中,音频数据与待标注文本数据关联,即音频数据为待标注文本数据质量满足要求的语音数据。其中,音素的声学特征表示可以为根据音频数据的声学特征表示确定的第二长度的向量,例如根据音频数据的能量特征、频谱特征确定音素的声学特征表示。具体的,对待标注文本数据和音频数据进行处理,得到音素与音频帧之间关联关系,以及根据音素所关联音频帧的声学特征表示,确定音素的声学特征表示,例如若任一音素关联至少两个音频帧,则可以对至少两个音频帧的声学特征表示求均值,并根据均值确定音素的声学特征表示。S130、根据所述待标注文本数据中音素的文本特征表示和声学特征表示,确定所述待标注文本数据中音素的组合特征表示。其中,音素的组合特征表示可以为第三长度的向量。具体的,针对待标注文本数据中的每一音素,拼接该音素的文本特征表示和声学特征表示,得到该音素的组合特征表示,即第三长度等于第一长度与第二长度之和。S140、根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息。其中,标注韵律层级信息可以为韵律词、韵律短语和语调短语中的至少一个。通过提供基于音素粒度的韵律层级标注方式,相比于文字、词语粒度的韵律层级标注,实现了更细粒度处理,提高了韵律层级标注的准确度,从而提高基于韵律层级标注结果合成语音的自然度。并且,音素是中文、英文等多种语言类型均具有的共性特征,因此基于音素粒度的韵律层级标注不仅适用于中文、英文等单一语言场景下具有良好性能,尤其在多种语言类型混用场景例如中英文混用场景具有良好性能。在一种可选实施方式中,S140包本文档来自技高网...

【技术保护点】
1.一种韵律层级标注方法,包括:/n对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示;/n根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示;/n根据所述待标注文本数据中音素的文本特征表示和声学特征表示,确定所述待标注文本数据中音素的组合特征表示;/n根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息。/n

【技术特征摘要】
1.一种韵律层级标注方法,包括:
对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示;
根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示;
根据所述待标注文本数据中音素的文本特征表示和声学特征表示,确定所述待标注文本数据中音素的组合特征表示;
根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息。


2.根据权利要求1所述的方法,其中,所述根据所述待标注文本数据和所述待标注文本数据关联的音频数据,确定所述待标注文本数据中音素的声学特征表示,包括:
对所述待标注文本数据和所述待标注文本数据关联的音频数据进行对齐,得到所述待标注文本数据中音素的音频时长区间;
根据所述音素的音频时长区间,对所述音频数据进行处理,得到所述待标注文本数据中音素的声学特征表示。


3.根据权利要求2所述的方法,其中,所述根据所述音素的音频时长区间,对所述音频数据进行处理,得到所述待标注文本数据中音素的声学特征表示,包括:
对所述音频数据进行处理,得到所述音素的音频时长区间中音频帧的小波变换能量特征;
对所述音频帧的小波变换能量特征进行压缩,得到所述待标注文本数据中音素的声学特征表示。


4.根据权利要求1所述的方法,其中,所述对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示,包括:
确定所述待标注文本数据的音素信息和初始韵律层级信息;
根据所述音素信息和所述初始韵律层级信息,确定所述待标注文本数据中音素的文本特征表示。


5.根据权利要求1所述的方法,其中,所述根据所述待标注文本数据中音素的组合特征表示,确定所述待标注文本数据的标注韵律层级信息,包括:
将所述待标注文本数据中音素的组合特征表示作为韵律层级标注模型的输入,并根据所述韵律层级标注模型的输出确定所述待标注文本数据的标注韵律层级信息。


6.根据权利要求5所述的方法,确定所述待标注文本数据的标注韵律层级信息之后,还包括:
根据所述标注韵律层级信息关联的音频时长区间,确定所述标注韵律层级信息关联的音频静音时长;
根据所述音频静音时长和所述韵律层级标注模型输出的预测概率,对所述待标注文本数据的标注韵律层级信息进行调整。


7.根据权利要求6所述的方法,其中,所述根据所述音频静音时长,对所述待标注文本数据的标注韵律层级信息进行调整,包括:
若所述待标注文本数据中任一位置处的标注韵律层级信息为语调短语,且该标注韵律层级信息关联的音频静音时长小于静音时长阈值,则将所述韵律层级标注模型在该位置处输出的第二预测概率所属的韵律层级信息作为该位置处的标注韵律层级信息。


8.一种韵律层级标注装置,包括:
文本特征模块,用于对待标注文本数据进行处理,得到所述待标注文本数据中音素的文本特征表示;
声学特征模块,用于根据所...

【专利技术属性】
技术研发人员:高正坤
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1