无线装置的基于用户界面的语音识别制造方法及图纸

技术编号:3669322 阅读:278 留言:0更新日期:2012-04-11 18:40
一种无线通信系统,用远端语音识别服务器系统翻译从移动装置接收的语音输入为符号数据文件,如字符或控制符,这种文件可由移动装置进行处理。翻译处理是从接收的移动装置与语音识别服务器间的语音通信信道建立开始。然后移动装置用户按一种可由语音识别服务器系统检测的方式开始讲话。当检测到用户语音时,语音识别服务器系统翻译该语音为符号数据文件,该文件然后经分别的数据通信信道被传送给用户。当在移动装置接收到该符号数据文件时,该用户浏览和编辑其内容并按其需要进一步利用该文件。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】一般来说,本专利技术涉及数据通信,具体地,是涉及利用基于网络的语音识别资源来增强本机用户界面(user interface)的双向无线通信装置。基于超文本技术的使用已经拓宽了无线通信系统的范畴。双向无线装置,本说明书中也称为移动装置,和无线网络协议已经被设计得允许通过各种无线和有线网络交互地访问远端信息服务(例如,商业数据库、电子邮件、在线购物),这些网络最明显的是因特网和一些专用网。许多移动装置(例如,蜂窝电话)是面向消费者大众市场的装置。因此,在不限制装置功能的情况下,其用户界面应当是简单并容易使用的。当前,对于大多数移动装置的主要数据输入方法是键盘,但当用于输入很长的字符串时,键盘输入方法是相对低效率的。由于尺寸的限制和成本的考虑,对于起草需要大量用户输入的消息(例如,Email消息),这些移动装置的键盘不是一种特别用户友好的界面。这种类型装置的键盘通常具有12至24个之间的键,对于数字输入有足够数量的键,但当涉及对于具有网络功能装置的字符数据输入就显得非常不够。从因特网要求信息的用户一般利用浏览器通过全球网(WWW)进行导航。例如,利用InfoseekTM作为搜索引擎对斯坦福大学要求信息的用户将必需输入以下字符串“http//www.Infoseek.com”后接“Stanford University”列在上面的搜索字符串包括40个字符。用户利用标准台式计算机键盘和浏览器(例如,Netscape或Explorer)输入这种类型的字符串是没有问题的。但是,同样的用户操作移动装置的键盘通过紧凑的键盘和各个键之间密集的间隔输入相同字符串就相当困难了。因特网的通常用途之一是电子邮件。希望发一个具有上述段落尺寸的电子邮件消息的用户将必需输入超过400个字符。利用台式计算机的标准键盘,用户可能用低于2分钟(假设该用户具有平均熟练程度的打字水平)输入那些字符。然而,在移动装置的键盘上输入同样数量的击键可能要用相当长的时间并且变得非常冗长乏味以及容易出错。近来,语音识别(VR)技术的进步和硬件能力的增加使得台式系统的基于语音识别的用户界面的开发成为商业可用的。VR技术提取讲话的单词并翻译这些单词为一种可以容易由数字系统操作和显示的格式。这些开发成果已经试图装备具有VR技术的紧凑的移动装置,但是,这些努力一般都要求昂贵的器件修改,诸如额外的部件(例如,DSP(数字信号处理)芯片)或增加处理和存储能力。一部典型的蜂窝电话具有等效于低于一般台式或便携计算机的百分之一的计算资源。在不修改该装置的部件的情况下,按比例缩小运行VR应用的电话可能仅仅能够识别很少一组预定的讲话单词。近来,对于台式和膝上计算机的语音识别软件(例如,来自Dragonsystem,Inc.的Naturally Speaking;来自Apple Computer的PlainTalkTM,来自IBM的Viavoice 98TM和来自Philips Talk的FreeSpeech 98TM)每个许可证一般都在39美元到数百美元。这个数目代表了装有可比的应用软件的移动装置价格的相当大一部分。在每个移动装置中装入语音识别应用软件并修改其硬件部件以运行该应用程序对手机制造商在他们的装置中加入VR功能起到一种在财务上的阻碍作用。这些修改可能要使该移动装置的最后价格增加可观的成本,可能使通常由大众市场拥有的移动装置的价格超出目标价格范围(例如,150美元)。就硬件资源而言,这些应用程序可以要求对于每种支持的语言的高达60兆字节的存储器。另外,大多数商用语音识别应用软件被设计为针对相对快速的处理器(例如,133MHz奔腾处理器)。因此,对能以最有效的方式使移动装置与数字计算机网进行交互通信的设备和方法存在着很大的需求。在不需要显著改动硬件资源或提高成本的情况下,结合标准移动装置用户界面(例如,电话键盘)的利用语音识别的能力可以极大地改善利用有限资源的具有网络能力的移动装置的可用性和商业生存性。本专利技术涉及一种利用遥控语音识别服务器系统的无线通信系统,该服务器系统翻译从移动装置接收的语音输入到一种可以由移动装置处理的符号数据文件(例如,字符数字或控制字符)。这种翻译处理是通过移动装置与语音识别服务器之间建立的语音通信信道开始的。然后,移动装置的用户以一种用可由语音识别服务器系统检测的方式开始讲话。当检测到该用户的话音时,语音识别服务器系统翻译该话音为符号数据文件,然后该文件通过另外的数据通信信道转移给用户。当在移动装置接收到符号数据文件时,该用户检查并编辑该符号数据文件,并且按需要进一步利用该文件。例如,用户可以利用该符号数据文件填充一个电子邮件中的各个字段或者一个浏览器请求字段。本专利技术可以按各种方式实现,包括按照一种方法、一种设备或一种装置、一种用户界面、一种计算机可读的存储器和一种系统。下面讨论本专利技术的若干实施例。按照一个实施例,本专利技术是一种用于在不具有执行语音识别本地处理的资源和/或软件的移动装置中获得语音识别服务的方法。该方法包括驻留在该移动装置中的本地应用程序建立和协调该目标移动装置与运行语音识别应用程序的远端服务器系统(在本说明书称为语音识别服务器系统)之间的语音信道。当建立了语音信道后,该目标移动装置的用户排队(queuing)开始对该移动装置(例如,蜂窝电话)的麦克风讲话。作为这个交互的结果,在语音识别服务器系统接收到的语音输入被变换为符号数据文件。这个处理可以利用以前存储的用户专用数据文件帮助进行。然后,该符号数据文件被传送回始发的移动装置或者通过另外建立和协调的数据通信信道转移到一个指定的第三方装置。符号数据文件可以被用于与该移动装置上本地应用程序进行交互通信,或者与网络资源(例如,因特网的服务器或专用网)进行交互。连同前面的描述,下面的描述和附图,可以说明本专利技术的其它目的和优点。通过结合附图的下面的详细描述本专利技术将会获得很容易的理解,其中各标记是表示各个结构部件,和其中附图说明图1表示可以实施本专利技术的示意性结构;图2A表示典型的有语音能力的移动装置的显示器和用户界面部件;图2B表示一种示例性有语音能力的移动装置功能性方框图;图3表示按照本专利技术的一个优选实施例的链路服务器装置的功能性方框图4是表示按照本专利技术的一个实施例的语音识别服务器的示例性的各个处理级的示意性图;图5表示说明关于移动装置与语音识别服务器系统之间的各种操作的各个屏幕显示。图6表示根据按本专利技术的一个实施例的移动装置方面的处理流程图;图7表示根据按本专利技术的一个实施例的语音识别服务器方面的处理流程图。在下面的本专利技术的详细描述中,描述了许多具体细节以便对本专利技术有全面的理解。但是,对于本专业的技术人员而言不用这些具体的细节也可以实施本专利技术。在另外的情况下,没有详细地描述各公知的方法、程序、部件和电路,这样作是为了避免不必要地混淆了本专利技术的主要方面。在下面的本专利技术的详细描述是很大方面体现在关于程序、步骤、逻辑方框、处理、和耦合到网络上的类似数据处理装置的其它符号表示。这些处理描述和表示是本专业的技术人员有效传达他们的工作成果给本专业的其他技术人员所使用的手段。本专利技术涉及使一个移动装置能根据联网的语音识别服务器系统接入(access)语音识别服务的各种系统和方法。按照本专利技术的一个实本文档来自技高网...

【技术保护点】
一种用于对具有显示屏幕和用户界面的无线通信装置提供语音识别服务的方法,包括:在运行语音识别应用程序的服务器装置接收从无线通信装置发出的对语音识别服务的请求;检索与来自第一通信路径的请求相关的语音输入信号;利用语音识别应用程序变换 该语音输入信号为符号数据文件;和利用第二通信路径发送符号数据文件到无线通信装置。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:彼得F金
申请(专利权)人:电话通有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1