分布式语音合成方法技术

技术编号:3047121 阅读:123 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的在于提供一种分布式语音合成方法,旨在将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程,为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音,尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及在计算机和其它计算设备上将任意文本转换为自然的口语语音输出的技术。传统TTS系统的一般处理流程如附附图说明图1所示,它主要包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成等关键处理环节。传统TTS系统处理环节众多,计算复杂度高,系统所需的词典、音库容量大。随着研究的不断深入,TTS已经由桌面级系统向服务器级系统发展,由低自然度、低性能系统向高自然度、高性能系统发展,因而对计算机的处理能力和存储容量提出了更大的需求。特别是近一两年以来,移动终端设备(如个人数字助理PDA、嵌入式系统)迅速普及,无线互联网方兴未艾,终端应用掀起了对语音合成的迫切需求。由于移动终端设备处理能力相对低下,存储容量相对不足,它们的这些天然特性加上其赖以通信的无线互联网现状(连接距离短、带宽窄、稳定性较差),PC上传统TTS系统在该领域不再适用。这对TTS研究提出了新的课题。为解决这个问题,已有研究者通过减少TTS系统的处理环节,简化文本分析规则和韵律模型,减少音库中的语言单元数量,压缩音库等办法,研制出基于PDA和嵌入式系统的独立TTS系统。但这种系统从本质上而言是PC上大型TTS系统的极端简化版本,无论是合成语音的自然度、清晰度、可懂度,还是系统效率均与大型TTS系统差距甚远。本专利技术的目的在于提供一种,旨在将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,每个部分均由连续的处理环节组成,为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音。为实现上述目的,本专利技术采用一种,它包括语音合成前端处理环节和语音合成后端处理环节,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。上述方法中,采用DSS服务器完成前端环节任务,它接收文本,经过一系列的处理过程,将其转换为某种中间数据输出,所输出的中间数据传输给用于完成后端环节任务的DSS客户机继续处理。上述方法中,语音合成前端处理环节至少包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个处理模块中的一个或多个,其余的处理模块由语音合成后端处理环节完成。上述方法中,所述的DSS服务器选择完成标记文本层任务,进行文本预处理,所述的DSS客户机进行语言分析、韵律生成、语音单元挑选、语音合成处理,中间交换数据为文本预处理结果。上述方法中,所述的DSS服务器选择完成语言分析层任务,进行文本预处理、语言分析处理,所述的DSS客户机进行韵律生成、语音单元挑选、语音合成处理,中间交换数据为语言分析结果。上述方法中,所述的DSS服务器选择完成韵律分析层任务,进行文本预处理、语言分析、韵律生成处理,所述的DSS客户机进行语音单元挑选、语音合成处理,中间交换数据为韵律分析结果。上述方法中,所述的DSS服务器选择完成音元属性层任务,进行文本预处理、语言分析、韵律生成、语音单元挑选处理,所述的DSS客户机进行语音合成处理,中间交换数据为音元属性序列。为在资源敏感的移动终端设备上合成出与PC上大型TTS系统相同自然度的自然语音,我们提出分布式语音合成(Distributed SpeechSynthesis、DSS)的思想将传统TTS系统一般处理流程中的各个处理环节按先后顺序划分为前后两个部分,每个部分均由连续的处理环节组成。我们把前面部分的处理环节总和称为语音合成前端,把后面部分的处理环节总和称为语音合成后端。分布式语音合成就是指采用客户/服务器(C/S)计算模式,语音合成前端运行在服务器上,语音合成后端运行在客户机上,服务器和客户机之间通过一定的数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。通过服务器和客户机之间的协同工作,将部分工作压力放在服务器上,减轻了客户机的负荷,使得设计人员可以把注意力集中放在语音合成提升效果上,因而可以获得高自然度的合成语音。我们把完成语音合成前端任务的服务器称为DSS服务器,把完成语音合成后端任务的客户机称为DSS客户机。同现有技术相比,本专利技术具有突出的实质性特点和显著的技术进步,主要表现在以下方面1)提出语言分布式合成的方案在无线移动场合的应用,由于终端的移动状态和操作屏幕的天然不兼容,使得语音合成成为必须。目前的移动终端设备由于计算能力低下,存储容量小,无法进行十分复杂的计算和大量数据的存储,但在终端(特别是通信终端)场合下,内容往往是服务端(内容提供端)集中生成的,因此在综合带宽等因素情况下,分布式合成语言的方法成为有效且唯一解决方案;2)提出语音合成效果最佳化,终端空闲资源利用最大化,服务器和网络负载最小化思想在大规模移动终端语音应用的场合中,每一个终端设备均在某一原则的指导下,获取最佳效果的语音合成服务。这个原则是尽可能地利用自身的空闲资源,以最大化的释放网络和服务器的负载,使得其它用户可以方便地接入。参见图2,图2给出了专利技术的基本工作原理,C/S计算模式要求参与者有服务器、客户机、数据交换标准和网络协议四个组成部分。下面我们就这四个组成部分分别进行阐述。1.DSS服务器DSS服务器指在DSS方法中,完成语音合成前端任务的执行实体。一台独立的计算机是DSS服务器最常见的形式,但不限于此。DSS服务器接收文本(来自DSS客户机或网络上的Web服务器),经过一系列的处理过程(语音合成前端),将其转换为某种中间数据(相对于TTS系统的最终输出——语音)输出,这种输出将被传输给DSS客户机继续处理。由于需要与DSS客户机和Web服务器交互,网络连接成为必须,并且DSS服务器所接入的网络必须支持HTTP传输协议。DSS服务器的基本结构如图3所示DSS服务器包括以下几个组成部件1)服务器核心引擎(Server Engine)指DSS服务器中,完成文本到某种中间数据转换的功能部件,即实现语音合成前端的功能部件。2)转码器(Transcoder)指DSS服务器中,将待合成的内容转换为文本的功能部件,待合成的内容是文本,也可以是HTML、XML,URL指向内容,最常见的形式是将HTML、XML等转为文本。3)服务器浏览器(Server Browser)指DSS服务器中,负责获取指定URL内容的功能部件。4)分布式语音合成网络应用协议(DSSNAP)指DSS服务器中,负责与DSS客户机进行通信的功能部件。5)服务器浏览器(Server Browser)指DSS服务器中,负责获取指定URL内服务器应用程序开发接口(Server API)提供给第三方开发DSS服务器的应用程序开发接口。DSS服务器接受两种来自DSS客户机的请求,一是内容请求(Content Request),表示DSS客户机直接将带合成内容(文本或其它)发送给DSS服务器;二是URL请求(URL Request),表示DSS客户机将URL发送给DSS服务器,由DSS服务器负责从网络上获取合成内容。DSS服务器获取到合成内容后,将非文本内容送入转码器,得到文本。然后将文本送入核心引擎,得到中间数据。这种中间数据以CSSML(中文语音合成标记语言)的形式存在。有关CSSML的内容,我们将在“中间数据交换标准”一节中进行阐述。在URL请求模式中,如果URL指向一CS本文档来自技高网...

【技术保护点】
一种分布式语音合成方法,它包括语音合成前端处理环节和语音合成后端处理环节,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。

【技术特征摘要】
1.一种分布式语音合成方法,它包括语音合成前端处理环节和语音合成后端处理环节,所述的前端处理环节和语音合成后端处理环节之间通过数据交换标准和协议标准进行通信,共同完成整个TTS处理过程。2.根据权利要求1所述的分布式语音合成方法,其特征在于采用DSS服务器完成前端环节任务,它接收文本,经过一系列的处理过程,将其转换为某种中间数据输出,所输出的中间数据传输给用于完成后端环节任务的DSS客户机继续处理。3.根据权利要求1或2所述的分布式语音合成方法,其特征在于语音合成前端处理环节至少包括文本预处理、语言分析、韵律生成、语音单元挑选、语音合成五个处理模块中的一个或多个,其余的处理模块由语音合成后端处理环节完成。4.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成标记文本层任务,进行文本预处理,所述的DSS客户机进行语言分析、韵律生成、语音单元挑选、语音合成处理,中间交换数据为文本预处理结果。5.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成语言分析层任务,进行文本预处理、语言分析处理,所述的DSS客户机进行韵律生成、语音单元挑选、语音合成处理,中间交换数据为语言分析结果。6.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成韵律分析层任务,进行文本预处理、语言分析、韵律生成处理,所述的DSS客户机进行语音单元挑选、语音合成处理,中间交换数据为韵律分析结果。7.根据权利要求3所述的分布式语音合成方法,其特征在于所述的DSS服务器完成音元属性层任务,进行文本预处理、语言分析、韵律生成、语音单元挑选处理,所述的DSS客户机进行语音合成处理,中间交换数据为音元属性序列。8.根...

【专利技术属性】
技术研发人员:唐浩尹波
申请(专利权)人:安徽中科大讯飞信息科技有限公司
类型:发明
国别省市:34[中国|安徽]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1