多种语音识别软件实例的使用制造技术

技术编号:3044151 阅读:419 留言:0更新日期:2012-04-11 18:40
一种将语音识别软件用于从与一个或一个以上服务器计算机(20)无线通信的手持式通信装置(10)接收请求动作的命令的方法。所述服务器计算机对产生解译的话音命令(50)的所记录话音命令文件(30)执行语音识别(40),如果置信度为高(60),那么所述系统自动地构建应用程序命令(80)或创建文本文件供传输到通信装置(70)。另一选择为,如果所述语音识别的置信度为低,那么将所记录的音频数据文件路由到电信服务雇用的人类抄录员,所述抄录员手动地审阅数字话音文件且构建所述应用程序命令或文本文件(90),一旦创建了所述应用程序命令,便将其传输到所述通信装置。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及使用基于无线服务器的话音识别工具以通过话音命令控制各种无线通{曰装置。
技术介绍
话音控制式系统已存在并使用了许多年。所述系统(通常并入有驻存在受控装置 上的计算机硬件和软件的组合)允许最终用户通过叙述口头命令来控制装置。所述口 头命令随后被转换成可控制电子装置的可执行命令。当今,可在分布在从计算机接口、 汽车、蜂窝式电话到其它手持式装置范围内的各种类型的技术中找到驱动话音控制式装置的话音识别系统。无线通信装置本身特别适合于话音控制。所述无线装置通常将蜂窝式电话、电子 邮件、联系人列表、日历、互联网web浏览、多媒体播放器和许多其它类似的电子应 用程序组合成单个电子包装,所述电子包装小得足以装入口袋或钱包中。与无线装置 的互相作用通常是通过附接到所述无线装置的小键盘来进行。由于所述键盘比标准键 盘小得多,因此经常发生可能是破坏性的错误。此外,所述装置(例如)通常是在驾 驶时使用,因此监视所述装置并手动输入命令不切合实际。最后,所述问题阻碍了将 装置用于其计划的用途。因此,需要能够使用话音控制而非键盘来控制无线装置。现有无线通信装置相依于完全驻存在所述装置上的程序设计。所述系统的能力受 到通常可用于移动话音控制式装置上的减小的存储器和计算功率的极大限制。然而, 语音识别准确度的质量不良,这在很大程度上是因为面对移动用户的环境挑战,例如, 背景噪声、用户口音和成本效率硬件,例如,不能提供高质量音频的麦克风。美国专利第7,027,987(the '987专利)揭示一种话音介接到搜索引擎的方法。然而, 如同所述'987专利的专利技术人在其论文中报告的那样,在试验中仅有60%的时间能够达 到对口语单词的正确识别。参见,Alex Franz和Brian Milch.Searching the Web bv Voice, Proc.l她International Conference on Computational Linguistics, 1213-1217 (2002)。因此,需要一种可执行各种应用程序同时维持对口语单词的极高识别准确度的话音控制式无线通信装置。
技术实现思路
无线通信装置接受来自最终用户的所记录音频数据。所述音频数据可呈请求动作 的命令的形式,所述动作通常在所述装置上手动地执行,例如,发送电子邮件、安排 约会时间、起始电话呼叫、搜索互联网、播放多媒体文件(例如,MP3歌曲)或请求 与新闻有关的信息(例如,体育比分或股票行情)。同样地,所述音频数据可为将被 转换成文本文件且保存为附注、信件或其它文本数据的文本。所述音频数据还原为呈 装置硬件支持的格式的数字话音文件,例如,wav、 mp3、 vnf文件或类似文件。所述 数字话音文件通过受保护或不受保护的无线通信发送到一个或一个以上服务器计算机 供进一步处理。所述服务器计算机通常由为所述通信装置提供电话和电子邮件接入的 相同电信服务来管理。 一旦所述音频数据通过辨识,所述服务器便通过建造应用程序 命令或文本文件来处理所述数据并将所得信息发送到所述无线装置供正确地执行。将所述音频数据运送到服务器供语音识别允许由更强大的语音引擎来处理请求。 然而,这样做并不能改善被解译数据的质量。如由许多研究和失败的系统所证明 (http:〃www.cs.berkelev.edu/%7Emilch/papers/gvs.pdf),如果音频的质量不良,那么最好 的语音识别也不能产生准确的结果。这致使用户停止使用所述系统。因此,本专利技术通过以下方式来克服单词识别准确度的问题不仅利用所述服务器 计算机的功率来执行语音识别,而且本专利技术还评估所述语音识别过程的置信度。如果所述置信度高,那么所述系统自动地建造应用程序命令或创建文本文件供传输到所述 通信装置。另一选择为,如果所述语音识别的置信为低,那么将所记录的音频数据文 件路由到电信服务雇用的人类抄录员,所述抄录员手动地审阅数字话音文件并建造所 述应用程序命令或文本文件。 一旦创建了所述应用程序命令,其便被传输到所述通信 装置。作为本专利技术的结果,已显示通信装置背景中的语音识别在90%以上的时间内是 准确的。附图说明具体实施例方式图1中显示一种用于无线通信装置的话音控制式系统。所述系统包括与一个或一个以上服务器计算机20无线通信的手持式通信装置10。在最低程度上,通信装置IO 具有运行程序(也称为应用程序)的能力。通信装置10还具有音频记录能力,例如, 麦克风,以便可记录来自用户呈话音命令形式的音频数据并将所述命令保存为记录的话音命令文件30。通信装置10的用户存取驻存在装置10上的话音命令应用程序,并向装置的麦克 风口述控制装置IO的命令。装置10记录话音命令并创建记录的话音命令文件30。装 置10可视情况将记录的话音命令文件30存储在内部以供将来使用。然后,通信装置 10将记录的话音命令文件30以无线方式发送到服务器计算机20并等待服务器的响 应。在接收到记录的话音命令文件30后,服务器计算机20执行一系列编程模块以处 理记录的话音命令文件30。最初,服务器计算机20对记录的话音命令文件30执行语 音识别40,从而产生解译的话音命令50。在其中多个服务器运行并行语音识别过程的 情况下,所述系统将基于各种参数(包含但不限于个别服务器的活动)确定哪一服务 器计算机20引导记录的话音命令文件30来进行语音识别。服务器计算机20可视情况 将记录的话音命令文件30存储在内部以供将来使用。服务器计算机20评估语音识别 过程60的置信度以确定所述语音识别的准确度。如果所述置信度处在预定水平或在所 述预定水平以上,那么服务器20将调用机器可读命令70的自动创建以创建应用程序 命令80。另一方面,如果语音识别过程40的置信度低于预定水平,那么服务器20将记录 的话音命令文件30路由到人类抄录员以供手动审阅并创建机器可读命令90。一旦创建了机器可读命令80,服务器计算机20便将应用程序命令80传输到通信 装置10。通信装置10将接收的应用程序命令80引导到合适的应用程序供执行。通信装置IO可为当今可得到的许多类似类型装置中的一者。典型的通信装置10 将能够运行各种应用程序,包含但不限于无线电话通信、无线电子邮件、日历、联系 人列表、无线互联网web浏览和多媒体呈现。所述应用程序是以本机装置硬件可支持 的语言写入,例如C十+、 Symbian、 Java、 Linux和类似语言。另夕卜,装置10还可能能 够运行除装置厂家提供的应用程序以外的应用程序。图2显示在通信装置上运行的话音命令应用程序。用户以各种方式,优选地通过 按下装置上的按钮(其起始应用程序100)来启动应用程序。所述应用程序提示用户 进行音频记录,例如,语言命令,其接收110并以装置支持的格式保存为记录的话音 命令文件130,例如,wav、 mp3或vnf文件。可优选地基于硬件使用其它文件格式。 如果用户正记录话音命令,那么应用程序可视情况呈现可能命令105列表。所述装置随后与服务器计算机建立无线数据连接并将记录的话音命令文件130传 输到所述服务器。所述连接可基于用户以及系统管理员的偏好而为受保护或不受保护 的通信。优选地,所述装置维持与服务器计算机的连接直到服务本文档来自技高网
...

【技术保护点】
一种将语音识别软件用于从无线通信装置接收的所记录音频数据的方法,其包括: 接收从无线通信装置传送的所记录音频数据并将所述音频数据引导到运行语音识别软件的多于一个并行服务器; 从运行语音识别软件的每一服务器接收识别的置信度;及 路由具有最高置信度的识别结果供进一步处理。

【技术特征摘要】
【国外来华专利技术】US 2005-8-9 60/706,8061、一种将语音识别软件用于从无线通信装置接收的所记录音频数据的方法,其包括接收从无线通信装置传送的所记录音频数据并将所述音频数据引导到运行语音识别软件的多于一个并行服务器;从运行语音识别软件的每一服务器接收识别的置信度;及路由具有最高置信度的识别结果供进一步处理。2、 如权利要求1所述的方法,其中运行接收所述相同音频数据的语音识别软件 的并行服务器的数目由系统管理员界定。3、 如权...

【专利技术属性】
技术研发人员:斯蒂芬S伯恩斯米基W科维茨
申请(专利权)人:移动声控有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利