一种计算机的操作方法技术

技术编号:3047518 阅读:181 留言:0更新日期:2012-04-11 18:40
具有语音识别工具(36)以及第一和第二应用程序(32和34)的一种计算机操作系统。该操作系统(30)从与控制字有关的第一和第二应用程序中接收信息以便控制这些应用程序。信息被说明作为词汇表A(74)和词汇表B(76)。语音识别工具(36)被设计来从第一和第二应用程序中接收信息,并且执行与在输入端(60)上接收到的数字化语音的比较。根据接收到的数字化语音来控制应用程序(32和34)中被选择的一个。(*该技术在2019年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及具有语音识别功能的计算机操作系统。随着计算机和计算设备在全社会的激增,越来越多的注意力转向代替传统键盘的数据输入方法。许多计算机程序具有语音识别功能,这些计算机程序中的大多数都是“应用程序”,也就是说,这些程序的功能和操作是为特定的目的而专门设计的。例如,听写就是一种众所周知的应用程序,该应用程序接受某个用户的语音作为输入并响应用户的语音输入,以类似字处理程序的方式使文本输入到某个文档中。语音识别应用程序的另一个例子也许是控制某个设备的一个项目的控制程序,例如,在免提无线电话中拨电话号码。在这样的一种应用程序中,用户可能说出所要拨的数字,然后例如可能说出命令“发送”,使得蜂窝式无线电话拨出所说的数字。这些都是特定语音识别应用程序的例子。在1990年8月的Computer杂志第23卷第8期第50-60页,由C.Schmandt、M.S.Acherman和D.Hindus所写的“用语音输入强化视窗系统”一文中介绍了用于控制视窗导航任务的一种语音识别应用程序。名为“X Speak”的应用程序是X视窗系统的语音界面,在该应用程序中,单词和视窗相关。说出一个视窗的名字,就能使之移到计算机屏幕的前面,并将光标移入该视窗中。X Speak应用程序假定某些功能一般分配给鼠标。各种命令被描述,例如“create”表示启动一个应用程序,“recall”表示将某个视窗重新放在视窗堆栈的顶端,而“hide”则表示将某个视窗放在视窗堆栈底部。还有重新确定视窗大小和位置的命令等等。该论文的作者承认,使用视窗导航任务应用程序的任何人机接口效率是有限的或不存在的。现有语音识别应用程序的缺点是缺乏灵活性。在典型的语音识别应用程序中,都有和该应用程序相关的可识别单词的词汇表。识别器企图从该词汇表中识别单词。识别不在该词汇表中的单词的技术也可以被提供。词汇表可以被扩充或替换,以便修改对该用户的识别操作的性能。在X Speak应用程序的情况下,该应用程序是和某个操作系统相关的一个工具,有一组可以被识别的专用命令,这组可用的命令被预编程到应用程序中。这样做缺乏灵活性而且不能很好适应现代的多种应用程序个人计算机和类似的设备,在这些设备中新的应用程序经常被装入,而且许多应用程序可以相继运行。希望能有一种更好的语音识别界面,至少能部分地代替数据和命令的键盘输入和鼠标的屏幕导航。微软公司的一个语音应用程序设计界面(SAPI)为那些希望使其应用程序具有语音功能的应用开发人员提供了更大的灵活性,该界面允许通用语音搜索引擎识别不同应用程序的命令。但没有提供到非当前应用程序的语音引导,或没有提供处理多种具有语音功能的应用程序。也没有提供识别用于还没有被激活的或第一次运行的应用程序的命令。希望能有这样的一种语音界面,能够引导语音到多种应用程序或新安装但还没有操作的应用程序。还有一个问题,语音可以包含操作系统命令(例如“使视窗最小化”,“关闭视窗”)和应用程序导向语音命令(例如“开始听写”),以及应用程序导向内容(例如“给jones先生的备忘录”)。需要确定语音的最合适目标,不进行识别就不容易做到。最好设计为语音可以被导向的潜在任务。为此,需要为该任务专用的一个词汇表和语言模型(或其等价物)。附图说明图1表示一典型的个人计算机,具有显示在屏幕上的多个应用程序的图标,适合于实现本专利技术。图2是根据本专利技术的一组计算机程序的一个框图。图3是说明本专利技术一个替换实施例的处理流程图。图4是本专利技术一个实施例的处理流程图,该实施例是图3实施例的替换。图5是一个硬件示意框图,进一步说明图4的实施例。现在描述一种结构,其中具有语音识别能力的多个应用程序有机会指示操作系统,给定的语音输入是否对该单个的应用程序有用。这种结构有一个优点,一个应用程序比操作系统更适合于决定某种语音是否和该应用程序有关。可以更好地确定该语音是否应该被导向操作系统或导向某个特定的应用程序。所示计算机10具有屏幕12,该屏幕上显示各种图标和视窗。所示计算机具有图标14,代表位于计算机10中的一个硬盘驱动器,以及第一应用程序图标16,代表存储在计算机10中的第一应用程序,还有第二应用程序图标18,代表存储在计算机10中的第二应用程序。第一应用程序取名“App A”,第二应用程序取名“AppB”。在屏幕12上显示的还有第一视窗20和第二视窗22。第一视窗20为“焦点上的”意思是指其正在前台并且是当前激活的视窗。第二视窗22为“焦点外的”,意思是指其正在后台。为了便于描述,将考虑这样的例子,其中,第一视窗20是App A的一个输入/输出界面视窗,而第二视窗则是App B的输入/输出用户界面。在典型的现有技术的操作中,视窗20是通过将鼠标移到图标16上并且双击该图标来建立的。同样,第二视窗22也是通过将鼠标移到图标18上并双击该图标来建立的。对某个图标双击导致该图标所代表的应用程序被调用或者“被发射”。此后,单击该图标或其对应的视窗,使得该视窗进入焦点。当然,也可以是多个视窗对应一个应用程序。图1所示有一个话筒40,可以接收语音命令作为语音输入。语音命令可以使得操作在App A或App B中执行。语音输入可以使得文本或其他的信息被输入到由App A或App B建立的文件中。本专利技术将解决这样的问题,确定语音命令或语音输入应该被导向哪一个应用程序。现在看图2,该图给出了一组计算机程序,包括操作系统30,第一应用程序32和第二应用程序34以及音素网络发生器36。这组计算机程序被装入位于计算机10中的微处理器38。通过模-数转换器39连接到该处理器38的是话筒40。另外,连接到微处理器38的还有存储器42,该存储器可以是随机访问存储器,但最好是只读存储器。存在存储器42中的是第一和第二词汇表44和46以及第一和第二语言模型48和50,分别连接第一和第二应用程序32和34。音素网络发生器36最好是一个上下文相关(CD)的音素网络发生器,正如Sreeram Balakrishnan等1997年11月26日递交的共同未决专利申请中所描述的,名称为“用于对语音信息编码的上下文相关网络”,被转让给和本专利申请相同的受让人并在此被引用。另外,音素网络发生器36也可以是上下文无关。现在看微处理器38中程序实现的细节,音素网络发生器36包含输入60,它连接到模-数转换器39。特征提取程序模块62连接输入60,并且(最好是一个维特比解码器的)程序模块64连接特征提取程序模块62。解码器64有一个输出通过操作系统30的应用程序界面(API)35分别连接第一和第二应用程序32和34。第一应用程序32有一个检索功能框33,能够调用第一词汇表44和第一语言模型48。第二应用程序34也有一个检索功能框37,能够调用第二词汇表46和第二语言模型50。每个词汇表具有潜在的需要由相关应用程序识别的字词或字符。每个语言模型具有该应用程序通常用到的字词或字词、字母或字符的组合。可能有(并且的确一般都是这样)对两个应用程序都通用的字词或字符。下面将考虑这样的例子,其中App A是“Netscape”,而App B则是WisdomPenTM。第一词汇表44中有几个对浏览器有用的命令,例如“start”,“open”,“go back”,本文档来自技高网...

【技术保护点】
一种处理器,包括:接收语音命令的输入装置;具有判优器的操作系统;以及在操作系统控制下的至少一个应用程序,并且在程序模块上独立于操作系统,该应用程序包括语音识别器,用于识别语音命令,并且为判优器提供表示语音识别器识别该语音命令的能 力的识别信息。

【技术特征摘要】
US 1998-4-1 09/053,4321.一种处理器,包括接收语音命令的输入装置;具有判优器的操作系统;以及在操作系统控制下的至少一个应用程序,并且在程序模块上独立于操作系统,该应用程序包括语音识别器,用于识别语音命令,并且为判优器提供表示语音识别器识别该语音命令的能力的识别信息。2.权利要求1的处理器,其中至少一个应用程序包含一个词典和语言模型,并且其中,识别信息与该词典和语言模型有关。3.一种具有操作系统和至少一个应用程序的计算机的操作方法,包括输入语音命令;比较被输入的语音命令和与该应用程序有关的语音命令的表示,以便提供识别结果;提供识别结果给操作系统;并且取决于识别结果有选择地允许应用程序根据语音命令执行动作。4.权利要求3的方法,进一步包含,结合操作系统,产生表示语音命令的音素网络,并且将该音素网络递交给应用程序。5.权利要求4的方法,其中的音素网络是上下文相关的音素网络。6.权利要求3的方法,其中,被输入的语音命令同时和与第一和第二应用程序相关的语音命令的表示进行比较,以便提供第一和第二识别结果。7.权利要求6的方法,其中,有选择允许的...

【专利技术属性】
技术研发人员:斯里拉姆巴拉克里什南
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1