客户服务器语音信息传送系统与方法技术方案

技术编号:3047363 阅读:155 留言:0更新日期:2012-04-11 18:40
一种用在诸如因特网的通信网络系统上的语音通信系统和方法,包括内置在移动电子通信装置中的用于识别语音信息和产生第一组相关的语言信息的大量声音识别器;和内置在诸如服务器的数据处理装置中的用于识别所述第一组相关的语言信息并产生第二组相关的语言信息的大量语言识别器,从而更准确地识别以分布式语音识别处理方式的语音信息。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及语音识别信息传送,尤其涉及远程移动电子设备与计算机之间的通过因特网的语音识别通信。传统上已经通过人工操作的键盘实现了从人类向机器的信息传送,其预先假设了具有至少与人类的两只手的手指所能舒适自如地跨过的宽度一样大的尺寸的机器。随着需求信息输入的但比传统的个人计算机更小的电子设备的发展,信息输入开始采用其它形式,如笔指示(pen pointing)、触摸板(touchpads)和声音命令。能够被笔指示和触摸板传送的信息受到设备(如个人数字助理(PDAs)和蜂窝电话)的显示性能的限制。因此重点的研究努力都致力于用于电子设备的语音识别系统。对于机器而言,机器语音识别方法是基于信号的观察到的声学特征和声学特征与话音之间的已知的关系而试图来解码语音信号波形的。这种声学一语音方法是几乎50年来的研究主题,但是还没有在实践上取得大的成功(参考Fundamentalsof Speeh Recognition(语音识别基础),L.Rabiner&B.Hjuang,Prentice-Hall)。存在的大量问题是,例如,在语音识别技术中公知甚至在语音波形图中“通常难以区分微弱的清音(象“f”或“th”)与默声,或者微弱的浊音(象“v”或“m”)与清音或者甚至是默声”,并且依据非常邻近的语音单元的同一性,所谓的声音的共同清晰度(同前所述)有大量的声音的变体存在。在解码后,试图通过应用代表可能与口头输入匹配的一系列组的音素的所谓的音素网格来确定声学一语音方法中的字。网格中的音素的垂直位置是声学与语音单元的匹配品质的量度(“词典的访问”)。但是“对于语音识别的声学一语音方法的真正问题是对于词典的访问阶段难以得到可靠的音素网格”(同前所述);即,由于任何语音中固有的大量的变体几乎不可能准确地标示出发音。在模式识别方法中,给出的语音模式的版本的知识库被集中起来(“训练”),并且通过输入语音模式与知识库中的语音模式相比来确定最佳的匹配而实现识别。该模式有4个步骤(1)应用频谱分析的特征抽取,(2)模式训练以产生对于发音类别的参考模式,(3)模式分类来通过测量两个充分限定的频谱矢量之间的频谱“差距”并校准时间以补偿说出两种模式(动态时间偏差DTW)的速率不同来比较未知的测试模式与类别参考模式,及(4)确定逻辑从而使用相似性得分来选择最佳的匹配。尤其对于步骤(2)和(3)模式识别需要大量的计算,并且用于大量声音类别的模式识别通常是禁止的。因此,由于语音的固有的难以预测的变化(包括同音字、字相似性、口音、音级、重音节、语音模式、背底噪音等),依靠人类话音的信息输入的系统要求相当可观的信号处理能力和查找表数据库,以达到最低限度的语音识别。主计算机和高级工作站开始接近声音识别的可接受的水平,但是即便带有在当前的个人计算机(PC)中可利用的存储器和计算能力,对于这些机器而言语音识别目前被相当地限制于给出的特定语音命令组。对于带有比PC小得多的存储器和处理能力的设备,如PDA、移动电话、玩具、娱乐设备,准确地通常的语音识别目前为止是不可能的。例如,一般的声音起动蜂窝电话通过读出一个名字然后输入相关的号码而允许预先设计程序。当用户随后读出这个名字时,蜂窝电话中的微处理器将试图匹配读出的名字的声音模式和存储的号码。如已经使用当今的声音起动的蜂窝电话的人所知道的那样,有时匹配不准确(由于不一致的发音、背底噪音和缺少处理能力而引发的固有的限制),并且可能仅存储大约25个号码。在PDA设备中,对于设备制造者而言,需要进行广泛的再次设计以实现更限定的声音识别(例如,当前的PDA不能响应于声音输入来搜索数据库)。对于声音输入拼写单词,存在易混淆地设置的问题{A,J,K},{B,C,D,E,G,P,T,V,Z},{Q,U},{I,Y}和{F,S,X}。通常仅基于发音的微小的关键部分而把这些区分出来。由于传统的识别依赖于在整个发音期间的简单积累的失真得分(二进制的“是”或“否”),它没有把重点放在导致差的识别准确度的关键部分。显然,应有一种对该关键部分进行加权的方法,但是这种方法没有得到高的识别准确度,并且还承担有大量的计算负担。总之,准确快速的声音识别必须的存储器和计算还要求增加的耗电量和复杂的操作系统;所有这些都会增加成本。从而,当前的声音识别技术由于其重量、耗电量要求、复杂性和成本而对于手持信息装置并不是切实可行的。当今尤其感兴趣的是移动因特网访问,即经移动电话、PDA和其它手持电子设备对因特网的通信。无线应用协议(WAP)规范意在对无线因特网访问限定一个开放的标准结构和一套无线因特网接入的协议。无线标记语言(WML)被WAP限定为用于移动因特网应用的表示标准。WML是Web(万维网)标记语言超文本标记语言(HTML)的修正的子集,适当地定标来满足当今的移动装置的物理限制和数据性能,例如全球移动系统(GSM)电话。通常万维网站点服务的HTML通过WML网关而相对于手持装置被定标和格式化。第一阶段的WAP服务把现有的Web内容传递到移动装置,但是将来将对于移动用户特殊生成Web内容,传送诸如天气预报、股票报价、银行服务、电子贸易/商务、导航援助等的信息。已经有一些在商业上可用的产品,如诺基亚(Nokia)7110,爱立信(Ericsson)MC218和摩托罗拉(Motorola)Timeport。移动无线因特网访问的需求可望更大增长。爱立信(Ericsson)移动通信公司预测到2004年,将有十亿移动因特网用户。但是有效的移动因特网访问要求新的技术。有提高地面数据速率,诸如通用分组无线服务(GPRS)、用于GSM进展的增强数据速率(EDGE)和第三代通用移动电信系统(3G-UMTS)。尤其UMTS许诺(在2002年)带宽数据速率将达到2MGb/秒(超过当前的GSM电话的9.6Kb速率的200倍)。但是无论传送速率和带宽如何提高,内容被减少和压缩,为有效显示信息而改进显示特征,在移动装置末端的信息输入和传送中的令人苦恼的问题还没有解决。传统的因特网语音通信要求至少是目前的个人计算机(PC)的计算能力和存储器规格,从而利用所谓的互联网语音协议(VoIP)执行将语音数据包传送到因特网服务提供商的服务器。即使在具备这种计算能力和存储器的时候,VoIP也仅允许有限的识别和准确度。而且,传统的基于服务器的语音识别系统(例如Nuance和SpeechWorks公司制造的)仅提供少于每个服务器10个用户的服务。从而对于100000个假定的用户(考虑目前的移动电话用户不是一个特别大的数目),需要10000个服务器,使这种语音识别经济上不切实际。因此问题是需要进行量测。对于PC向服务器因特网的语音通信,通常数据库从服务器下载到PC客户(例如由Conversa公司),但是数据库的大小使这种方法对于移动装置是不可用的。本专利技术是在诸如因特网的通信网络系统上应用的语音识别系统和方法,包括内置在移动电子通信装置中的用于识别语音信息并产生第一组相关的语言信息的大量声音识别器,和内置在诸如服务器的数据处理装置中的用于识别所述第一组相关的语言信息的并产生第二组相关的语言信息从而更准确地以分布式语音识别处理方式识别语音信息的大量语言识别器。附图说明本文档来自技高网...

【技术保护点】
在具有与大量数据处理装置进行相互通信的大量移动电子通信装置的通信网络系统中,一种声音信息识别系统,包括:一个以电学方式设置在各个移动通信装置上的用于识别语音信息并产生第一组相关的语言信息的声音识别器;和一个以电学方式设置在各个数据处 理装置中的用于识别所述第一组相关的语言信息的并产生第二组相关的语言信息的语言识别器。

【技术特征摘要】
【国外来华专利技术】US 2000-3-23 09/5354311.在具有与大量数据处理装置进行相互通信的大量移动电子通信装置的通信网络系统中,一种声音信息识别系统,包括一个以电学方式设置在各个移动通信装置上的用于识别语音信息并产生第一组相关的语言信息的声音识别器;和一个以电学方式设置在各个数据处理装置中的用于识别所述第一组相关的语言信息的并产生第二组相关的语言信息的语言识别器。2.根据权利要求1的声音信息传送系统,其特征在于所述声音识别器包括一个用于参数化声音信息的前端信号处理器;用于存储发出语音的大量参数表示的发出语音数据库存储装置;和耦合于所述前端信号处理器和所述发出语音数据库存储装置的用于响应于预定准则比较声音信息的参数表示与发出语音的所述大量参数表示的并选择声音信息的所述参数表示与发出语音的所述大量参数表示中的至少一个的发音相似性比较器装置。3.根据权利要求2的声音信息传送系统,其特征在于所述所述语言识别器包括一个用于存储字串发音的大量参数表示的词汇数据库存储装置;一个耦合于所述声音识别器和所述词汇数据库存储装置的用于比较所述第一序列的关联与存储在所述词汇数据库存储装置中的聚集的发出语音的所述大量参数表示的并响应于预定准则在聚集的发出语音的所述选择的参数表示与字串发音的所述大量参数表示中至少一个之间选择第二序列的关联的聚集的发音相似性比较器。4.一种与因特网通信的分布式语音信息通信系统,包括与因特网通信的大量移动电子通信装置,每一个包括用于把声音信号转换为电信号的麦克风;一对一耦合于所述麦克风的大量声音识别器,所述大量声音识别器每一个具有由发出语音构成的存储的数据库,用于把电信号转换为发音信息并比较所述发音信息与所述发出语音,选择所述发出语音中的至少一个,聚集所述选择的发出语音,并经因特网传送所述选择的聚集的发出语音;与因特网进行通信的大量数据处理装置,用于经因特网接收所述选择的聚集的发出语音;一对一耦合于所述大量数据处理装置的大量语言识别器,所述大量语言识别器每一个具有由字串发音构成的存储的数据库,用于比较所述聚集的发出语音与所述的字串发音,并选择所述字串发音中...

【专利技术属性】
技术研发人员:詹姆斯帕恩
申请(专利权)人:韦尔博泰克有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1