用于交互式声音响应系统的方法和装置制造方法及图纸

技术编号:3563349 阅读:175 留言:0更新日期:2012-04-11 18:40
一种交互式声音响应(IVR)系统,其与计算机网络连接,用于接收来自网络中的节点的流式声音数据,并在IVR信道上播放所接收到的声音数据,所述声音数据代表交替的发音周期和自然寂静周期,所述IVR系统包括:    缓冲器,用于存储从节点接收到的声音数据;    序列控制器,用于识别声音数据的序列,每个序列包括自然寂静之间的发音;以及    播放控制器,用于当在缓冲器中接收到声音数据的序列时,在IVR信道上播放声音数据。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及用于交互式声音响应系统的方法和装置
技术介绍
电话可以用于目录定购、核对航班时间表、查询价格、查看账户余额、通知客户、记录和检索消息、以及其它商业服务。通常,每个电话呼叫涉及以下述内容为代表的服务,即与用户讲话、询问问题、向计算机输入响应、以及从终端屏幕读出信息给用户。这一处理可以通过以播放声音提示并从例如语音识别或从DTMF音调接收用户输入的能力来替代交互式声音响应系统(IVR)来被自动化。交互式声音响应系统通常使用这样的客户服务器配置来实现,即电话接口和声音应用程序在客户机上运行,而诸如文本到语音或声音提示数据库的声音数据提供服务器软件在服务器上运行,局域网络连接这两台机器。当应用程序请求声音数据时,其请求声音服务器开始向客户传输声音数据流。客户将等待,直到在缓冲器中累计了一定量的声音数据,然后开始播放声音数据,以打开电话信道。直到播放操作开始的那一点的任何延迟感觉上就是相对无害的初始延迟。然而,一旦开始播放,必须以恒定的流,例如每秒8千字节,向打开的电话信道馈送声音数据,这一流中的中断的表现则被感觉为质量问题,例如结巴(stutter)或喀哒(click)声。保持电话信道的恒定的声音数据流是声音服务器中的实际问题。如果该流被延迟,则只从留有声音数据的缓冲器继续播放声音数据。当声音缓冲器被完全耗尽时,只有两种替换方法1)以错误来停止整个流和播放操作;或者2)填充时间,直到新的声音数据到来,例如人造的寂静。如果客户端和服务器之间的连接比LAN更遥远,诸如广域网络或因特网,那么问题就增加了。随着VoiceXML应用程序的发展,这种相距遥远的客户端和服务器也正在增长。此外,很可能LAN或另一个网络同时为许多信道处理声音服务器业务。网络也可能处理其它数据业务。这两个因素都增加了声音分组在网络中传送时被延迟的机会。IVR和声音服务器之间的路由器、网关等也会增加整个网络延迟。当前对此问题的一个解决方案就是在客户端使用大缓冲器,从而在缓冲器中保持有足够多的数据以处理从声音服务器接收到的声音数据的最长间隙。然而,在填充缓冲器时,这将引起开始操作时长时间的延迟。
技术实现思路
根据本专利技术的第一个方面,提供了一种交互式声音响应(IVR)系统,其与计算机网络连接,用于接收来自网络中的节点的流式声音数据,并在IVR信道上播放所接收到的声音数据,所述声音数据代表交替的发音周期和自然寂静周期,所述IVR系统包括缓冲器,用于存储从节点接收到的声音数据;序列控制器,用于识别声音数据的序列,每个序列包括自然寂静之间的发音;以及播放控制器,用于当在缓冲器中接收到声音数据的整个序列时,在IVR信道上播放声音数据。以这种方式,如果在声音数据的播放中存在不连续,那么不连续将在自然寂静中发生。序列控制器扫描到来声音是声音还是寂静。将连续两个寂静周期之间的声音数据识别为形成整个发音的序列。每个寂静周期必须长于最小周期,否则将记入一些音素之间的小间隙,而一个单词可能被计为两个发音。在优选实施例中,序列控制器处理声音数据,以区分代表声音的声音数据和代表寂静的声音数据。在第二和第三个实施例中,IVR序列控制器在识别声音或寂静的声音数据中扫描标记,该标记由远程序列控制器引入该声音数据,而该远程序列控制器处理该声音数据以在声音和寂静之间进行区分。在缓冲器中以声音数据分组的形式存储提示,并且序列控制器扫描每个声音分组以确定其为声音还是寂静。在优选实施例中,声音分组足够小,从而可以将单个声音分组计为一个单元的声音或寂静。最好分组大小在10至50毫秒(msec)之间,对两个人彼此交谈的交互式声音而言,20msec为最佳大小。然而,例如,当双方之一为IVR时,分组可以大到一秒。将每个声音分组标记为声音或寂静。标记可以放置在声音分组的首标或声音分组的有效负载部分。声音缓冲器中存储的分组与经网络传送的分组相同,并且在将其放置到声音缓冲器中之前,不由传输控制器将其连续化。标记分组的一种有利方式是,如果是寂静,就使声音分组的有效载荷部分为空。非零值将表示声音。另一个有利方式是,用一个值来标记分组的首标,以识别声音或寂静。合适的是,如果序列控制器识别了缓冲器中要播放的数据序列,那么将使该序列能够被播放。当一个序列是要播放的下一个序列时,其变为当前序列。对于当前序列,序列控制器获取在缓冲器中的开始和结束分组号。在优选实施例中,在IVR中处理从声音提示数据库或TTS引擎发送的声音分组,以识别声音和寂静数据的序列。这使得任何声音服务器都能够向本实施例发送声音数据。然而,IVR处理许多信道的声音数据处理,而其数字信号处理资源是有限的。所以,对于网络服务器而言,代之进行信号处理是有利的。在第二个实施例中,在声音服务器进行对声音数据的处理,并使用标记来标明分组数据中的序列。现在IVR中的序列控制器只在声音数据中扫描标记,这释放了IVR的数字信号处理资源。此外,在第二个实施例中,一旦处理了声音提示,并加标记以标明发音序列,就不需要再次对其进行处理,并且可以将其存储在声音提示数据库中,以备以后检索使用已标记的内容。然而,并不总是需要对声音数据进行数字信号处理。在第三个实施例中,TTS引擎通过扫描文本单词及标点符号之间的空格来识别文本数据中的发音,并在声音提示中嵌入标记,以标明整个发音。所以,对于TTS,不需要使用数字信号处理来在声音数据中扫描寂静周期。发音可以取为单个单词,但是在第三个实施例中,发音是整个语句,因为在这里,更可能发生声音的自然停顿。在替换实施例中,由其它标点符号分离开的短语也可以取为发音。根据本专利技术的第二个方面,提供了一种用于在如权利要求中所描述的IVR系统内播放提示的方法。根据本专利技术的第三个方面,提供了一种计算机程序产品,用于处理一组或多组数据处理任务,所述计算机程序产品包括在计算机可读存储介质上存储的计算机程序指令,当将该计算机程序指令载入计算机中并执行时,使计算机执行权利要求中所描述的步骤。附图说明为了促进对本专利技术上述和其它方面的进一步理解,现在将只利用示例,参考附图描述本专利技术的实施例,其中图1展示了根据现有技术的交互式声音响应系统(IVR)100和声音服务器102的示意图;图2展示了指示声音数据分组在现有技术计算机网络中找到通路所耗费时间的图;图3展示了现有技术中用户与连接到网络提示数据库和网络TTS引擎的IVR的交互作用;图4A、B、C展示了现有技术处理的概述例子;图5A、B、C展示了根据本专利技术优选实施例的处理的概述例子;图6展示了根据本专利技术优选实施例的IVR的示意图;图7展示了根据本专利技术优选实施例的顺序控制器的步骤;图8展示了根据本专利技术优选实施例的缓冲控制器方法的步骤;图9A展示了根据本专利技术优选实施例的缓冲器表;图9B展示了根据本专利技术优选实施例的缓冲寄存器;图10展示了根据本专利技术第二个实施例的声音服务器;以及图11展示了根据本专利技术第三个实施例的文本到语音引擎。具体实施例方式参考图1,其中展示了根据现有技术的交互式声音响应系统(IVR)100和声音服务器102的示意图。电话机104经由电话网络106连接到交互式声音响应系统(IVR)100。IVR 100经由计算机网络108连接到声音服务器102。声音服务器102连接到文本到语音引擎(本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:罗纳德·J·鲍沃特塞缪尔·J·史密斯
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利