一种获取韵律边界信息的方法及系统技术方案

技术编号:8216087 阅读:160 留言:0更新日期:2013-01-17 17:26
本发明专利技术实施例公开了一种获取韵律边界信息的方法及系统,其中,所述方法包括:获取待标注的文本数据,并获得所述文本数据对应的音频数据;向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。通过本发明专利技术,能够有效地获取到韵律边界信息,进而提高语音合成结果的自然度。

【技术实现步骤摘要】

本专利技术一般地涉及语音信号处理
,尤其是一种获取韵律边界信息的方法及系统
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术,其目的是能够让计算机将文本信息转化为语音朗读出来,相当于使计算机具有类似于人一样的说话能力。传统的语音合成技术中通常有以下实现方式以字为切分单位的单字式的字音转换,或者以语法词为切分单位的词组式的文语转换。然而,实际上人们在说话时并不是以字或语法词为切分单位,而是以韵律词、韵律短语等为切分单位,因此这些传统的语音合成方法都会导致计算机输出的合成语音的自然度比较低,会给人“一字一顿”的感觉,无法达到人们可以接受的程度。因此,韵律边界信息对于语音信号处理有着至关重要的作用。韵律边界信息用于指示对于一个文本而言,在阅读时应该在哪些地方进行停顿。显然,在语音合成过程中,如果能够使得计算机按照自然的韵律边界信息进行停顿,将有助于提升语音合成结果的自然度和流畅性。为了能够有效地利用韵律边界信息,通常需要预先建立语料库,该语料库中保存有带有正确韵律边界信息的音频或文本,这样,在语音合成过程中,就可以利用语料库中的韵律边界信息进行语音的合成。因此,如何有效地获取韵律边界信息以便建立起语料库成为迫切需要本领域技术人员解决的技术问题。
技术实现思路
有鉴于此,本专利技术实施例提供了一种获取韵律边界信息的方法及系统,能够有效地获取到韵律边界信息,进而提高语音合成结果的自然度。根据本专利技术实施例的一个方面,提供一种获取韵律边界信息的方法,包括获取待标注的文本数据,并获得所述文本数据对应的音频数据;向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。根据本专利技术实施例的另一个方面,提供一种获取韵律边界信息的系统,包括待标注数据获取单元,配置为获取待标注的文本数据,并获得所述文本数据对应的音频数据;第一韵律边界信息获取单元,配置为向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;第二韵律边界信息获取单元,配置为向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;韵律边界信息确定单元,配置为将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述获取韵律边界信息的方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述获取韵律边界信息的方法。根据本专利技术实施例的上述方法,能够在标注者进行韵律边界信息进行标注的过程中,获取到韵律边界信息,在获取标注信息的过程中,分别向不同组的标注者播放音频数据或展现文本数据的句法树,这样,可以避免由于文本与音频之间的相互作用,而对标注者产 生干扰,从而能够提高标注的准确度。另一方面,每个标注者可以独立进行标注,不需要标注者之间进行协商,系统就可以自动从标注者的标注信息中获取到韵律边界信息,因此,可以提闻获取韵律边界彳目息的效率,有利于大规|吴语料库的创建。在下面的说明书部分中给出本专利技术实施例的其他方面,其中,详细说明用于充分地公开本专利技术实施例的优选实施例,而不对其施加限定。附图说明下面结合具体的实施例,并参照附图,对本专利技术实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。图I是示出作为本专利技术实施例提供的方法的流程图;图2是示出作为句法树结构的示意图;图3是示出作为本专利技术实施例提供的第一装置的示意图;图4是示出作为本专利技术实施例提供的第二装置的示意图;图5是示出作为本专利技术实施例提供的第三装置的示意图;图6是示出作为本专利技术实施例提供的第四装置的示意图;和图7是示出作为本专利技术的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。具体实施例方式下面参照附图来说明本专利技术实施例。参见图1,本专利技术实施例提供的获取韵律边界信息的方法可以包括以下步骤SlOl :获取待标注的文本数据,并获得所述文本数据对应的音频数据。在本专利技术实施例中,音频数据通常是指语音文件对应的数据,每个音频数据对应着各自的文本数据,文本数据主要体现音频数据中携带的文字内容。对于待标注的文本数据以及对应的音频数据而言,可以是先通过录音等方式获取音频数据,再从音频数据中提取出文字信息形成文本数据;也可以是先通过从网页中抓取等方式获取文本数据,然后利用TTS (Text ToSpeech,语音合成技术)系统生成文本数据对应的音频数据,等等。S202 向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息。在本专利技术实施例中,相当于是从标注者的标注信息中提取韵律边界信息,也就是说,将标注者的知识利用到获取韵律边界信息的过程中来。具体实现时,可以将标注者分为两组,其中一组专门从音频角度进行韵律边界信息的标注。对于这组标注者而言,系统可以向这组标注者播放待标注的音频数据,标注者在收听音频数据的过程中,就可以在认为需要停顿的地方进行标注。 其中,为了便于标注者对音频数据进行韵律边界信息进行标注,系统可以向标注者提供标注的入口。该入口的形式可以是多种多样的,例如,其中一种可以是预先定义特定的按键作为标注键,当标注者需要进行标注时,可以按下该特定按键,相应的,系统在接收到标注者的按下操作之后,就可以保存相应的标注信息。其中,在保存标注信息时,可以根据标注时刻对应的时间点,在音频数据中该时间点的相应位置上,标注出音律边界标识,等等。也就是说,可以用不同的时间点来表示不同的位置。例如,可以将空格键作为标注键,标注者在收听音频数据的过程中,如果在收到某时刻时认为此处存在韵律边界,则可以按下空格键,相应的,系统就可以在音频数据中时刻对应的位置处保存上韵律边界信息。当然,除了设定标注键以外,还可以有其他的入口提供方式,例如,还可以将用户的点击鼠标操作,作为标注操作,这样,标注者在需要进行标注的地方,点击鼠标即可,系统进行相应的记录。这样,针对第一组中的各个标注者,分别可以获取到各自针对同一音频数据标注的韵律边界信息,最后再将各个标注者的标注结果进行综合,即可得到基于该第一组标注者确定的韵律边界信息。需要说明的是,在实际应用中,韵律边界可能分为多个层级,例如,通常可以有三个层级,分别对应着有韵律词(PD、韵律短语(P2)及语调短语(P3),各个层级对应的停顿时间长短可能有所不同。标注者在标注时,如果能够区分出不同层级的韵律边界,则可以通过具体的操作体现出来,系本文档来自技高网...

【技术保护点】
一种获取韵律边界信息的方法,包括:获取待标注的文本数据,并获得所述文本数据对应的音频数据;向第一组标注者播放所述音频数据,根据各个标注者的标注结果,获取基于该第一组标注者确定的韵律边界信息;向第二组标注者展现根据所述文本数据生成的句法树,根据各个标注者的标注结果,获取基于该第二组标注者确定的韵律边界信息;将所述基于第一组标注者确定的韵律边界信息与所述基于第二组标注者确定的韵律边界信息进行比对,根据比对结果,确定各个位置的韵律边界信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:张洁孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利