当前位置: 首页 > 专利查询>东南大学专利>正文

一种融合通信中智能语音系统及实现方法技术方案

技术编号:7311429 阅读:232 留言:0更新日期:2012-05-03 07:15
本发明专利技术公开了一种融合通信中智能语音系统及实现方法,包括普通微机和用户电话,所述普通微机连接一融合通信系统服务器,所述融合通信系统服务器连接智能语音服务器,所述智能语音服务器连接软电话服务器,所述软电话服务器连接IP-PBX,所述软电话服务器通过所述IP-PBX向所述用户电话进行拨打。本系统中包含语音合成框架和语音识别框架。本发明专利技术实现了相应的语音合成和语音识别功能页面,用户只需从浏览器中登录融合通信系统便可进行验证码发送、消息提醒设置、信息接收策略设置、语音拨号及语音功能选择的相关操作。

【技术实现步骤摘要】

本专利技术涉及一种智能语音技术在融合通信中的应用,具体涉及。
技术介绍
从目前语音技术的研究现状来讲,技术已经有了很大的发展。语音识别和合成技术是实现人机语音通信及建立一个有听和讲能力的口语系统所必需的两项关键技术。它们可以使电脑具有类似于人一样的说话和听懂人说话的能力。 语音识别技术主要包含几个方面语音控制、电子发声、连续语音识别、非连续语音识别和语音学习。目前主要是在支持中英文,实现中英文混合问题上存在一些障碍。同时在识别大量词汇和个别发音方面还很难做到准确。作为语音识别技术新方向的语音学习, 它则要求人模仿标准发音,其面临的困难是如何衡量人模仿的好坏。和语音识别相比,语音合成技术相对来说要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。语音合成技术是计算机“开口说话”的关键,现阶段语音合成的最大进展是已经能够实时地将任意文本转换成连续可懂的自然语句输出,相应技术通常称为文语合成或文语转换(TTS)。TTS使得数据通信和语音通信在终端一级实现交融,人们将有希望在获取Internet信息时,使短消息服务、电子邮件等多数以文本方式提供的信息也用语音的方式输出。随着语音研究的不断进展,已经出项了众多的语音识别开发工具如Microsoft Speech SDK, IBM ViaVoice等。它们都提供了语音识别和合成的二次开发平台,而Speech SDK和ViaVoice两者主要区别有Speech SDK是基于com的,只基于windows平台, 而ViaVoice是基于动态链接库的,只用拷贝就可以了,在unix平台上也有这样的模块; Speech SDK识别结果可以从消息读出,也可以从回调函数读出,而ViaVoice只能从消息读出,在编程上,必须造一个隐藏窗口,从这个窗口中读出结果,比较麻烦;Speech SDK要求识别的音频文件文件名必须以wav为扩展名。但由于微软的Speech SDK是完全免费的,它已经取得了令人满意的识别率,识别速度快,可移植性好,支持多种开发语言等优点,因此它被广泛应用于各个领域。微软的Speech SDK中含有语音应用程序接口(SAPI)、微软连续语音识别引擎 (MCSR)以及串联语音合成引擎(TTS)等等。SAPI中还包括对于底层控制和高度适应性的直接语音管理、训练向导、事件、语法、编译、资源、语音识别管理以及文本到语音管理。语音引擎通过设备驱动接口(DDI)层和SAPI运行库通信,应用程序(Application)则通过应用程序接口(API)层和SAPI交互。通过使用这些API就能进行语音识别和语音合成方面的软件开发。
技术实现思路
本专利技术的目的是提出,通过语音合成框架和语音识别框架在融合通信系统中的整合,实现了相应的语音合成和语音识别功能页为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现一种融合通信中智能语音系统,包括普通微机和用户电话,所述普通微机连接一融合通信系统服务器,所述融合通信系统服务器连接智能语音服务器,所述智能语音服务器识别出语音后, 直接将识别的内容返回给融合系统通信系统服务器,融合通信系统根据识别出的内容再做进一步处理,以实现语音识别功能,从而将该功能呈现给登陆到融合通信系统的普通用户; 所述智能语音服务器连接软电话服务器,所述软电话服务器连接IP-PBX,所述软电话服务器将合成的音频通过注册在所述IP-PBX上的软电话拨打给所述用户电话,以实现语音合成功能。进一步的,本系统中包含语音合成框架和语音识别框架。进一步的,所述语音合成框架包括ActiveMQ消息服务器,所述ActiveMQ消息服务器分别连接语音合成管理器和语音电话管理器,所述语音合成管理器连接语音合成 WebService,所述语音电话管理器连接软电话,所述语音合成框架预留一个Java接口以供融合通信系统开发中的调用。进一步的,一种融合通信中智能语音系统的语音合成框架的实现方法,包括以下步骤步骤1) WEB应用程序传入文本以及拨打的用户电话号码至消息列队TextMessage中; 步骤2)语音合成管理器不断地去查询TextMessage消息列队,如果消息到达其列队, 则返回文本及电话号码;步骤3)语音合成管理器将文本送至语音合成WebService合成PCM格式的语音,并返回合成的PCM文件的URL ;步骤4)语音合成管理器将URL、电话号码送至消息列队CallMessage中; 步骤5)语音电话管理器不断地去查询CallMessage消息列队,如果消息到达,则返回 URL、电话号码;步骤6)语音电话管理器根据接收到的URL,获取PCM文件后将PCM文件,电话号码发送给软电话;步骤7)软电话注册于IP-PBX,软电话根据电话号码将PCM文件播放给用户。进一步的,所述语音识别框架包括一录音管理器,所述录音管理器连接ActiveMQ 消息服务器,所述ActiveMQ消息服务器连接语音识别管理器,所述语音识别管理器连接语音识别 WebService。进一步的,一种融合通信中智能语音系统的语音识别框架的实现方法,包括以下步骤步骤1)录音管理器录音,并保存成.Wav格式的音频文件;步骤2)发送WAV文件、融合通信系统所在主机的IP地址到RecordMessage消息列队; 步骤3)语音管理器不断地去查询RecordMessage消息列队,如果消息到达,返回WAV、 IP到语音识别管理器中;步骤4)语音识别管理器将WAV文件的URL发送至语音识别WebService识别WAV文件并返回识别的文本;步骤5)语音识别管理器将识别的文本发送至消息列队RecognizeJPMessage ; 步骤6)融合通信系统不断查询消息列队RecognizeJPMessage,如果消息到达,则获取识别的文本。本专利技术的原理如下智能语音系统包括语音、软电话服务器,IP-PBX,普通微机, 用户电话。其中,语音服务器和软电话服务器(主要实现软电话功能,软电话注册在IP-PBX 上)运行于服务器的虚机下、融合通信系统运行于普通微机上,服务器、普通微机、IP-PBX通过网线相连。用户可以使用普通微机,通过浏览器登录到融合通信系统的Web页面,通过操作将验证码、消息提醒内容、用户在各种状态下接收到IM和电子邮件的响应可选择性地通过音频拨打给用户,还可以进行语音拨号、语音功能选择。语音合成框架中ActiveMQ、软电话置于Linux操作系统下,语音合成管理器、语音电话管理器、语音合成WebService置于Windows操作系统下。语音合成管理器、语音电话管理器使用C#[开发,软电话使用C开发,语音合成WebService使用ASP. NET Web开发后发布到IIS上。该框架预留一个Java接口(输入合成语音的文本以及拨打的用户电话号码) 以供融合通信系统开发中的调用。语音识别框架中ActiveMQ置于Linux操作系统下,语音识别管理器、语音识别 WebService、录音管理器置于Windows操作系统下。录音管理器使用Java实现,语音识别管理器使用C#实现,语音识别WebService使用ASP. NET Web现实并发布于IIS上。与现有技术相比,本专利技术具有以下有益效果本专利技术实现了本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:裴文江张书强王晓姝杨洋詹金狮朱光辉第伟缪瑞华沈彦真王开
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术