语音合成系统中的数据交换方法技术方案

技术编号:3046756 阅读:142 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种语音合成系统,尤其是分布式语音合成服务器或分布式语音合成客户机均可以组成完整的分布式语音合成系统数据交换方法,本发明专利技术的核心是采用基于XML的结构化文档进行,系统中的服务器由语言处理模块、韵律处理模块和一个XML文档生成器组成,待处理的文本经过语言处理模块和韵律处理模块的处理,转变成语言和韵律信息,所述的语言和韵律信息经过XML生成器处理,转变成XML文档,经过通信网络传输到客户机,使得不同技术构建的语音合成服务器或语音合成客户机均可以组成完整的语音合成系统。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音合成系统数据交换方法,具体讲是关于分布式语音合成系统数据交换方法。
技术介绍
传统的语音合成系统的一般处理过程如附图说明图1所示。由语言处理、韵律处理和最终语音合成等主要模块构成,其中,语言处理模块和韵律处理模块一般统称为语音合成前端,最终语音合成模块一般统称为语音合成后端。语音合成前端经过一系列复杂的计算,将输入的文本转化为语言和韵律信息。语音合成后端在语言和韵律信息的基础上,经过一定的计算,将其转化成自然语音输出。语音合成前端和语音合成后端之间进行模块之间的数据交换,即语音合成前端将其计算结果(语言和韵律信息)以一定的方式传递语音合成后端。传统的语音合成系统是一类封闭的系统,其数据的交换基本上是与具体系统相关的,也就是说,不同的语音合成系统对语言和韵律信息的描述是不相同的,这样,只有建立在语言和韵律信息的描述完全一致的基础上的语音合成前、后端才能组成完整的语音合成系统。由此可见,传统的语音合成系统中语言和韵律信息的描述必须满足语音合成前、后端的共同要求,这样就使得缺乏广泛的适应性,而且数据交换以难以按能够为机器和人理解的方式进行,这种数据交换方式直接导致其语音合成系统的效率低,适用性和兼容性差。分布式语音合成系统是指这样的一种语音合成系统基于客户服务器模式,语音合成过程中工作量大的部分(语言处理和韵律处理)在服务器端执行,工作量小的部分(最终语音合成器)在客户端执行,服务器和客户机之间通过一定的数据交换方法和一定的网络协议进行通信,共同完成完整的语音合成任务。分布式语音合成是一个新兴的研究和工程化领域。相对于传统的孤立语音合成系统而言,分布式语音合成系统对客户端资源(计算和存储能力)的要求较低,可以实现在各种资源敏感的移动或嵌入式终端设备上,而语音合成最重要的性能指标——自然度,却达到与服务器级大型孤立语音合成系统的自然度媲美的水平。在后PC时代,随着各式各样个人终端设备的层出不穷和无线数据业务的飞速发展,终端用户对语音合成的需求日益迫切。因此,分布式语音合成系统具有巨大的研究和工程化价值。有关分布式语音合成系统的详细
技术实现思路
可参见本申请人的两份在先申请(#02108890.X和#02116017.1)。
技术实现思路
本专利技术的目的在于提供一种语音合成系统数据交换方法,本方法采用人类/机器便于解读的方式对服务器的计算结果进行描述,即对语言和韵律信息进行结构化描述,使得不同技术构建的语音合成服务器或语音合成客户机均可以组成完整的语音合成系统。本专利技术的更进一步目的是使不同技术构建的分布式语音合成服务器或分布式语音合成客户机均可以组成完整的分布式语音合成系统。上述专利技术目的是通过采用以下技术方案实现的一种语音合成系统数据交换方法,其特征在于语音合成系统中数据交换采用基于XML的结构化文档进行。所述的语音合成系统为分布式语音合成系统,系统中的服务器由语言处理模块、韵律处理模块和一个XML文档生成器组成。待处理的文本经过语言处理模块和韵律处理模块的处理,转变成语言和韵律信息,所述的语言和韵律信息经过XML生成器处理,转变成XML文档,经过通信网络传输到客户机。所述的客户机为分布式语音合成客户机,该客户机由一个被称为XML文档解析器的模块和最终语音合成模块构成。所述的由XML生成器处理得到的XML文档经过客户机的XML文档解析器的处理,转变成的语言和韵律信息再经过最终语音合成模块的处理,转变成语音输出。数据交换方法及意义数据交换在分布式语音合成系统中担当着至关重要的角色。分布式语音合成系统的数据交换方法是指在分布式语音合成系统中,服务器完成其所负责的语言处理和韵律处理之后,将计算结果传递给客户机进行最终语音合成的方式和途径。其中涉及两个层面的内容一、服务器对计算结果进行描述,以人/机可读的方式进行数据交换;二、服务器使用某种网络协议将计算结果传递给客户机。由于服务器和客户机之间可以采用各种标准网络协议诸如TCP/IP和HTTP进行通信,本专利技术所述的分布式语音合成系统数据交换方法,不包括上述第二个层面的内容,而仅限于第一个层面的内容,即如何对服务器的计算结果——语言和韵律信息进行结构化描述,以达到人/机可读的目的。数据交换方法的质量,涉及到分布式语音合成系统的效率、适用性和兼容性。本专利技术所提供的分布式语音合成系统数据交换方法,充分考虑了这些问题,在分布式语音合成系统的工程化推广中起了重大的作用。分布式语音合成将客户—服务器构架应用到语音合成系统中语音合成前端运行在所谓的分布式语音合成服务器上,语音合成后端运行在所谓的分布式语音合客户机上。服务器和客户机之前传递的是语言和韵律信息。与传统的语音合成系统不同的是分布式语音合成系统是一类开放的系统。分布式语音合成服务器和分布式语音合成客户机之间的数据交换是开放的,不仅要求数据交换具有广泛的适应性,而且要求数据交换易于人类和机器理解。这样,由本专利技术提供统一的数据交换模式,使得无论以何种技术构建的分布式语音合成服务器和/或分布语音合成户均可以组成完整的分布式语音合成系统。附图概述图1是传统语音合成系统的数据交换处理过程示意框图;图2是本专利技术语音合成系统的数据交换处理过程示意框图。如图2所示,待处理的文本经过语言处理模块和韵律处理模块的处理,转变成语言和韵律信息,这些系统相关的语言和韵律信息经过XML文档生成器的处理,转变成XML文档。系统无关的XML文档在通讯链路上,如互联网等上传递,最终到达分布式语音合成客户机。分布式语音合成系统数据交换方法,即我们对语言和韵律信息进行结构化描述的方法,通常必须具备以下功能支持多种格式文档的输入,即能指明当前文档格式;具有可读性,即易于被人类和机器理解;易于直接由人手工书写,并且同时也易于机器自动生成;与现有各标记体系保持一致,尽量兼容或易于被自动转化。具体来讲应当满足以下基本要求1、对单模态输出和多模态输出都能加以控制;2、能对合成文本的结构加以描述;3、支持不同语言和方言的定义;4、支持特殊发音指定(宏发音),包括强制改变发音以及引用外部声音元素;5支持对诸如速度、音高、音强等参数的控制;6、支持对音色的指定,如发音人姓名、性别、年龄等;7、对特定格式文字发音的支持,如地址、电话、网址等;8、支持重读/强调控制;9、支持某段文字语调控制;10、支持其他模态控制数据嵌入;11、支持音场环境/声源位置定义。本专利技术所述的数据交换方法的具体内容说明如下XML(可扩展标记语言eXtensible Markup Language)是互联网上进行结构化数据交换十分有效的手段。它具有语言无关、平台无关、人类可读性强、易于机器理解、可以直接使用在互联网上、支持大量应用等优良特性。XML描述了一类称为“XML”文件的数据对象,同时也部分地描述了处理这些数据对象的计算机程序的动作。XML文件具有良好的自描述特性,可以独立于各类平台进行数据存储与交换。XML并不是一种“标记语言”。确切地说,它是一种元标记语言,是一种用于定义其它标记语言的标记语言。因此,它不能直接对特定领域的数据进行描述,因而不能被使用作为数据交换的载体。相反,必须使用它来定义针对某一特定领域的数据描述的标记语言,然后将被定义的标记语言作为该特定领域里数据交换的载本文档来自技高网
...

【技术保护点】
一种语音合成系统中的数据交换方法,其特征在于:语音合成系统中数据交换采用基于XML的结构化文档进行。

【技术特征摘要】
【国外来华专利技术】1.一种语音合成系统中的数据交换方法,其特征在于语音合成系统中数据交换采用基于XML的结构化文档进行。2.根据权利要求1所述的语音合成系统中的数据交换方法,其特征在于语音合成系统为分布式语音合成系统,系统中的服务器由语言处理模块、韵律处理模块和一个XML文档生成器组成。3.根据权利要求2所述的语音合成系统中的数据交换方法,其特征在于文本经过语言处理模块和韵律处理模块的处理,转变成语言和韵律信息,所述的语言和韵律信息经过XML生...

【专利技术属性】
技术研发人员:唐浩尹波
申请(专利权)人:安徽中科大讯飞信息科技有限公司
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利