使用神经网络变换文本为声频信号的设备制造技术

技术编号:2885877 阅读:220 留言:0更新日期:2012-04-11 18:40
首先训练一个神经网络106使用记录的声频消息204,文本可变换为可闻信号,如话音。为了开始训练,记录的声频消息被变换为具有固定持续期间213的一系列声频帧205。然后,每个声频帧被指定一个音素表示物203和一个目标声频表示物208,该音素表示物203是一个二进制字,代表该声频帧的音素和发音特征,而该目标声频表示物208是一个声频信息如音高和能量的矢量。在训练后,神经网络106用于将文本变换为话音。首先,被变换的文本被翻译为与该音素表示物208相同形式的并且具有固定持续期间213的一系列音素帧401。然后响应包括一些音素帧401的前后关系描述207,该神经网络产生声频表示物。然后该声频表示物由合成器107变换为话音波形。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术为一件分案申请,原申请的申请号为95190349.7,申请日为1995年3月21日,专利技术名称为“使用神经网络变换文本为声频信号的方法和设备”。本专利技术涉及变换文本为声频信号的领域,特别涉及使用神经网络变换文本信号为声频信号。文本/话音变换涉及变换文本信息流为话音波形。这个变换过程通常包括文本的话音表示物变换为多个话音参数,然后话音参数由话音合成器变换为话音波形。使用级联系统(Concatenative sys-tem)变换话音表示物为话音参数。级联系统存储由话音分析产生的可能是二重单音或半音节的参数,和响应话音表示物,使用以调节它们的持续期间和平滑诸多跳变(transition)以产生话音参数的存储图型串接起来。级联系统的一个问题是必须存储大量的图型。一般地,在级联系统中必须存储1000个以上的图型。另外,在存储图型之间的跳变不是平滑的。还使用按规则合成(synthesis-by-rule)系统变换话音表示物为语音参数。按规则合成系统存储每个可能的语音表示物的目标话音参数。按照一组规则在语音表示物之间跳变的基础上修改目标话音参数。按规则合成系统的问题是语音表示物本文档来自技高网...

【技术保护点】
一种变换文本为声频信号的设备,其特征在于,包括:一个文本/音素处理器,其中该文本/音素处理器翻译文本流为一系列音素表示物;一个持续期间处理器,可操作地接到该文本/音素处理器,其中该持续期间处理器为该文本流产生持续期间数据;一个预 处理器,其中该预处理器变换该系列音素表示和该持续期间数据为一系列音素帧,其中该系列音素帧的每个音素帧具有固定持续期间并具有一个前后关系描述,和其中该前后关系表述是基于该系列音素帧的每个音素帧和该系列音素帧的至少一些其它音素帧;一个神经网 络,其中该神经网络基于该前后关系描述为该系列音素帧的一个音素帧产生一个声频表示物。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:奥尔汉卡拉里杰拉尔德爱德华科里恩艾拉艾伦拉尔森
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1