一种基于分布式自然韵律优化本地合成方法技术

技术编号:8656477 阅读:195 留言:0更新日期:2013-05-02 00:13
一种基于分布式自然韵律优化本地合成效果的方法,用于低码率传输自然语音韵律信息并在本地合成,包括以下步骤:由录音数据或者服务器级别的合成系统,生成合成文本的前端标注信息和语音韵律信息。然后通过网络的方式将信息下载到本地,本地使用这些信息结合后端系统合成。由于使用了更好的前端信息和后端韵律参数,提升了本地合成的韵律,从而提高本地合成效果。同时由于基频和时长占用的数据量很少,相比传统网络合成方式响应速度更快和流量更少。

【技术实现步骤摘要】

本专利技术涉及,属于语音合成应用领域,主要应用于手机等电子产品的合成系统中,提升语音合成的韵律表现,降低网络流量。
技术介绍
随着信息化的发展,语音合成应用越来越多,但语音合成的效果也受到一些硬件条件的限制,导致更好的合成效果无法再应用产品上体现,如硬件设备空间有限、网络环境不稳定、用户流量限制等。增加训练库的大小,可以提升合成语音效果,但存储资源会增加,放到终端设备上比较困难,如果使用网络云调用的方式,在网络环境不好的情况下,合成响应比较慢,同时下载语音数据,会造成用户流量比较大。也可以使用分布式的方式,解决流量问题,即合成文本分析前端在服务器运行,合成后端在本地,同时减少了流量、也减少了本地资源大小,但后端效果完全依赖于本地资源。
技术实现思路
本专利技术技术解决问题克服现有技术的硬件设备空间有限、网络环境不稳定以及用户流量限制等不足,提供,具有节省码流率、提升合成语音韵律效果的优点。本专利技术技术解决方案,包括合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤;第一步,利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息,并进行编码,本文档来自技高网...

【技术保护点】
一种基于分布式自然韵律优化本地合成方法,其特征在于包括:合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤;第一步,利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息,并进行编码,用于网络传输;所述参数信息包含基频,时长和频谱信息,其中基频和时长信息在网络端生成;具体实现如下:(1)如果没有录音数据,则文本输入到服务器合成系统,文本前端信息和基频、时长信息均能够利用服务器合成系统生成,由于服务器端相对于终端设备有更多的运算和存储空间,服务器端能够配置最好的语音合成系统,从而获得更准确的前端和基频、时长信息;(2)如果是已有的录音数据,则分为以下三...

【技术特征摘要】
1.一种基于分布式自然韵律优化本地合成方法,其特征在于包括:合成文本前端信息和语音韵律信息提取、低码率网络传输、及本地合成器解析与合成三个步骤; 第一步,利用录音数据或服务器合成器获得文本韵律信息和合成语音的部分参数信息,并进行编码,用于网络传输;所述参数信息包含基频,时长和频谱信息,其中基频和时长信息在网络端生成;具体实现如下: (1)如果没有录音数据,则文本输入到服务器合成系统,文本前端信息和基频、时长信息均能够利用服务器合成系统生成,由于服务器端相对于终端设备有更多的运算和存储空间,服务器端能够配置最好的语音合成系统,从而获得更准确的前端和基频、时长信息; (2)如果是已有的录音数据,则分为以下三步进行提取: (2.1)合成文本前端信息根据录音数据获取,先生成相应的韵律文本,再转换为语音对应的标注文本; (2.2)时长信息通过发音人已有的合成模型进行状态时长切分,时长信息为音素的状态时长,每个音素包含5个状态,时长信息提前生成,不用等到待合成时再生成; 基频信息利用STRAIGHT工具生成,或者使用人工标注的基频,之后按照音素对应的状态为单位,进行基频静态参数均值和一阶动态参数均值的计算。计算以帧为单位,5ms—帧,其中基频静态参数为当前帧H)的对数值,即lfO,一阶动态参数为后一帧的IfO减去前一帧的lfO,差值除以2,基频静态参数均值是对一个状态下所有浊音帧对应基频静态参数总和的平均,一阶动态参数均值是对一个状态下所有浊音帧对应基频一阶动态参数总和的平均; (2.3...

【专利技术属性】
技术研发人员:郜静文殷翔孙见青江源刘艳茹袁武文张鑫孙梦娟赵志伟吴晓如
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1