实现从文本到语音TTS的音频转码方法、装置及系统制造方法及图纸

技术编号:6798042 阅读:465 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种实现从文本到语音TTS的音频转码的方法、装置及系统。其中,该方法包括:媒体服务器接收来自应用服务器APP的访问请求,并确定媒体服务器支持的编解码类型集;媒体服务器接收APP申请的TTS业务请求,并根据TTS业务类型向TTS服务器申请满足该业务类型的媒体业务数据包;媒体服务器根据编解码类型集与TTS服务器进行协商,以获取协商后的音频编解码类型,并按照音频编解码类型将媒体业务数据包转码后发送至终端。通过本发明专利技术,能够提高终端访问媒体业务数据包数据的成功率。

【技术实现步骤摘要】
实现从文本到语音TTS的音频转码方法、装置及系统
本专利技术涉及通信领域,具体而言,尤其涉及一种实现从文本到语音TTS的音频转码方法、装置及系统。
技术介绍
媒体服务器用于所有与音视频相关的媒体处理,包括视频和音频RTP数据流到视音频文件的相互转换。同时,也负责接收用户通过终端的DTMF输入、播放业务的引导语音、显示动态的引导画面。它具有的SIP协议和MSML/MOML能力使得其能在应用服务器APP的控制下完成整个会话过程的与用户的交互。媒体控制单元(MSCU)是媒体服务器中的一个重要单元,主要完成与其他实体进行能力协商,提供资源本身的管理、维护以及控制其它业务资源单元完成复杂业务的功能。媒体存储传输音频单元(MSTU-audio)是媒体服务器中的业务资源单元,完成海量的音频数据存储,包括实现音频文件播放功能。媒体存储单元上有对外网口,可以直接通过单元上的对外网口收发。媒体存储传输视频单元(MSTU-video)是媒体服务器中的业务资源单元,完成海量的多媒体音视频数据存储,包括实现视频文件播放功能。媒体存储单元上有对外网口,可以直接通过单元上的对外网口收发。现在,媒体服务器播的使用很广。主要可以归纳为音视频播放,收号和会议等功能。从文本到语音(TextToSpeech,简称为TTS)的功能是将输入的文本信息识别出来,转化为语音信息,将语音媒体发送给用户。目前在电信领域,TTS的应用基本是配置一个专门的TTS服务器,通过信令指定TTS将语音发送到用户端来完成一次业务。图1是根据相关技术的实现TTS音频转码的系统结构示意图。如图1所示,该系统的工作流程包括如下步骤:步骤101:终端发起一次呼叫,激活APP的业务。APP向媒体服务器发起业务流程;步骤102:APP通过SIP信令向媒体服务器请求TTS业务;步骤103:媒体服务器通过SIP信令向TTS服务器请求TTS资源,并通过MRCP协议控制TTS服务器完成业务功能;步骤104:TTS服务器向终端发送媒体以上便是目前典型的组网和业务流程。TTS服务器作为媒体服务器的外置设备使用。APP在请求业务的时候只是向媒体服务器发起,媒体服务器判断业务类型,当业务类型为TTS应用时,媒体服务器再向TTS服务器发起请求,申请资源,并控制TTS服务器的行为,TTS服务器在收到信令后自动将媒体发送给远方的终端。以上流程能完成一个基本的TTS业务。不过随着业务的应用的扩展出现了一些问题。比如,TTS服务器的音频能力集同媒体服务器能力集不匹配的问题,造成业务失败。因为APP在同媒体服务器协议SDP的时候,媒体服务器并不知道业务类型是否是TTS,所以会按照自己的能力范围同终端协商音频参数。当APP向媒体服务器下发INFO指令时,媒体服务器才能识别出TTS业务类型,此时媒体服务器通过终端SDP信息向TTS服务器申请资源。如果TTS服务器的音频能力范围不满足媒体服务器同终端协商出的结果,就是造成业务失败。比如:媒体服务器同终端协商出编解码类型为G726格式,但是TTS服务器只支持G711的音频格式。。针对上述现有技术中在TTS服务器的音频能力集无法满足媒体服务器的业务需求的情况下,终端访问媒体业务数据包数据失败的问题,目前还没有有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种实现从文本到语音TTS的音频转码方法、装置及系统,以解决现有技术中在TTS服务器的音频能力集无法满足媒体服务器的业务需求的情况下,终端访问媒体业务数据包数据失败的问题。为了实现上述目的,根据本专利技术的一方面,提供了一种实现从文本到语音TTS的音频转码方法。根据本专利技术的实现TTS音频转码的方法包括:媒体服务器接收来自应用服务器APP的访问请求,并确定媒体服务器支持的编解码类型集;媒体服务器接收APP申请的TTS业务请求,并根据TTS业务类型向TTS服务器申请满足该业务类型的媒体业务数据包;媒体服务器根据编解码类型集与TTS服务器进行协商,以获取协商后的音频编解码类型,并按照音频编解码类型将媒体业务数据包转码后发送至终端。进一步地,媒体服务器根据编解码类型集与TTS服务器进行协商,以获取协商后的音频编解码类型,并按照音频编解码类型将媒体业务数据包转码后发送至终端包括:媒体控制单元MSCU发送会话初始协议SIP信令至TTS服务器,以协商并指定媒体服务器与TTS服务器匹配的音频编解码类型,编码类型集包括音频编解码类型;语音中心交换单元MRU接收TTS服务器返回的媒体业务数据包,并将媒体业务数据包按照协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送并保存至媒体存储传输音频单元MSTU;MSCU控制MSTU将转码后的媒体业务数据包发送至终端。进一步地,在语音中心交换单元MRU接收TTS服务器返回的媒体业务数据包之前,方法还包括:MSCU与TTS服务器建立通信连接;TTS服务器识别文本,并将文本转换为媒体业务数据包。进一步地,在语音中心交换单元MRU接收TTS服务器返回的媒体业务数据包之前,方法还包括:MSCU向MRU下发转码命令;将MRU与TTS服务器接通的端口类型指定为协商后的音频编解码类型。进一步地,MSCU控制MSTU将转码后的媒体业务数据包发送至终端包括:MSCU向MSTU下发打开NAT通道的命令;MSTU将转码后的媒体业务数据包进行NAT后发送至终端。进一步地,在媒体服务器接收来自应用服务器APP的访问请求之前,方法还包括:终端向APP发送多媒体业务数据包请求;APP根据多媒体业务数据包请求向媒体服务器发送访问请求的信令,并将MSTU外口地址作为与终端交互的地址。为了实现上述目的,根据本专利技术的另一个方面,提供了一种实现从文本到语音TTS的音频转码系统。根据本专利技术的实现TTS音频转码的系统包括:终端;TTS服务器;媒体服务器,用于接收来自应用服务器APP的访问请求,以确定媒体服务器支持的编解码类型集,并接收APP申请的TTS业务请求,以根据TTS业务类型向TTS服务器申请满足该业务类型的媒体业务数据包,然后根据编解码类型集与TTS服务器进行协商,以获取协商后的音频编解码类型,并按照音频编解码类型将媒体业务数据包转码后发送至终端。进一步地,媒体服务器包括:媒体控制单元MSCU,用于发送会话初始协议SIP信令至TTS服务器,以协商并指定媒体服务器与TTS服务器匹配的音频编解码类型,编码类型集包括音频编解码类型;语音中心交换单元MRU,用于接收TTS服务器返回的媒体业务数据包,并将媒体业务数据包按照协商的音频编解码类型进行转码,并将转码后的媒体业务数据包发送并保存至媒体存储传输音频单元MSTU;其中,MSCU控制MSTU将转码后的媒体业务数据包发送至终端。进一步地,终端向APP发送多媒体业务数据包请求;APP根据多媒体业务数据包请求向媒体服务器发送访问请求的信令,并将MSTU外口地址作为与终端交互的地址。为了实现上述目的,根据本专利技术的另一个方面,提供了一种实现从文本到语音TTS的音频转码装置。根据本专利技术的实现TTS音频转码的装置包括:第一处理模块,用于接收来自应用服务器APP的访问请求,并确定媒体服务器支持的编解码类型集;第二处理模块,用于接收APP申请的TTS业务请求,并根据TTS业务类型向TT本文档来自技高网
...
实现从文本到语音TTS的音频转码方法、装置及系统

【技术保护点】
1.一种实现从文本到语音TTS的音频转码方法,其特征在于,包括:媒体服务器接收来自应用服务器APP的访问请求,并确定所述媒体服务器支持的编解码类型集;所述媒体服务器接收所述APP申请的从文本到语音TTS业务请求,并根据所述TTS业务类型向TTS服务器申请满足该业务类型的媒体业务数据包;所述媒体服务器根据所述编解码类型集与所述TTS服务器进行协商,以获取协商后的音频编解码类型,并按照所述音频编解码类型将所述媒体业务数据包转码后发送至终端。

【技术特征摘要】
1.一种实现从文本到语音TTS的音频转码方法,其特征在于,包括:媒体服务器接收来自应用服务器APP的访问请求,并确定所述媒体服务器支持的编解码类型集;所述媒体服务器接收所述APP申请的从文本到语音TTS业务请求,并根据TTS业务类型向TTS服务器申请满足该业务类型的媒体业务数据包;所述媒体服务器根据所述编解码类型集与所述TTS服务器进行协商,以获取协商后的音频编解码类型,并按照所述音频编解码类型将所述媒体业务数据包转码后发送至终端。2.根据权利要求1所述的方法,其特征在于,所述媒体服务器根据所述编解码类型集与所述TTS服务器进行协商,以获取协商后的音频编解码类型,并按照所述音频编解码类型将所述媒体业务数据包转码后发送至终端包括:媒体控制单元MSCU发送会话初始协议SIP信令至所述TTS服务器,以协商并指定所述媒体服务器与所述TTS服务器匹配的所述音频编解码类型,所述编解码类型集包括所述音频编解码类型;语音中心交换单元MRU接收所述TTS服务器返回的所述媒体业务数据包,并将所述媒体业务数据包按照协商的所述音频编解码类型进行转码,并将转码后的所述媒体业务数据包发送并保存至媒体存储传输音频单元MSTU;所述MSCU控制所述MSTU将转码后的所述媒体业务数据包发送至所述终端。3.根据权利要求2所述的方法,其特征在于,在语音中心交换单元MRU接收所述TTS服务器返回的所述媒体业务数据包之前,所述方法还包括:所述MSCU与所述TTS服务器建立通信连接;所述TTS服务器识别文本,并将所述文本转换为媒体业务数据包。4.根据权利要求2所述的方法,其特征在于,在语音中心交换单元MRU接收所述TTS服务器返回的所述媒体业务数据包之前,所述方法还包括:所述MSCU向所述MRU下发转码命令;将所述MRU与所述TTS服务器接通的端口类型指定为协商后的所述音频编解码类型。5.根据权利要求2-4中任一项所述的方法,其特征在于,所述MSCU控制所述MSTU将转码后的所述媒体业务数据包发送至所述终端包括:所述MSCU向所述MSTU下发打开NAT通道的命令;所述MSTU将转码后的所述媒体业务数据包进行NAT后发送至所述终端。6.根据权利要求5所述的方法,其特...

【专利技术属性】
技术研发人员:张闽张伟刘澍
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1