用于提供语音识别的方法和系统技术方案

技术编号:5479969 阅读:188 留言:0更新日期:2012-04-11 18:40
公开了一种用于提供语音识别的方法。基于由用户所提供的数据来从用户获取名字。向用户询问用户的名字。接收来自用户的响应于该询问的第一音频输入。使用名字语法数据库将语音识别应用于第一音频输入,以输出被识别的名字。确定该被识别的名字是否与所获取的名字匹配。如果确定没有匹配,则向用户重新询问用户的名字,以用于第二音频输入。使用具有少于名字语法数据库的条目的信任度数据库将语音识别应用于第二音频输入。

【技术实现步骤摘要】
【国外来华专利技术】用于提供语音识别的方法和系统相关申请本申请要求2006年9月25日所提交的美国专利申请序号11/526,395 (代理人案号COS06005)的优先权,其内容通过引用并入本文中。
技术介绍
对于收集和向用户提供信息二者而言,语音识别在通信系统中起 重要的作用。传统地,交互式话音应答(IVR)系统已经依赖于双音多 频(DTMF)和语音输入的组合来获得并且处理信息。然而,对于需要 输入大量数字、字母和字的复杂事务而言,IVR系统的思想比其概念更 加吸引人。即,对于复杂的数据条目而言,典型的DTMF接口已证明是 无法行得通的缓慢。比如,组织变得总是依赖于基于话音的系统来扩 大DTMF输入。不幸的是,基于话音的系统己经引入了与口语和人类话 语的无穷变化的错综复杂相关的新的、更具有挑战性的问题。因此, 在将口语话语转换为对应的文本字符串或其它等价符号表示的方面 上,实现语音识别技术的IVR系统已经证明是不可接受的不准确。因此,存在用于提供语音识别的改进的方法的需要。附图说明通过示例的方法而不是限制的方法在附图的图中图示本专利技术,并 且其中相同的附图标记指的是类似的元件,并且在附图中图l是图示根据本专利技术实施例的能够提供语音识别来获得名字的 通信系统的示图2是根据本专利技术实施例的示例性交互式话音应答(IVR)单元的示图3是根据本专利技术实施例的语音识别系统的示图;图4A和图4B是根据本专利技术实施例的语音识别过程的流程图; 图5是能够被用于实现本专利技术各种实施例的计算机系统的示图。具体实施例方式描述了一种用于提供语音识别的装置、方法和软件。在下面的描 述中,为了解释的目的,阐明了许多特定细节,以便于提供本专利技术的 详尽理解。然而,对于一个本领域中普通技术人员来说,显然不使用 这些特定细节或使用等价布置也可以实践本专利技术。在其它实例中,为 了避免不必要地混淆本专利技术,以框图的形式示出熟知的结构和设备。虽然针于代名词(例如,名字)的语音识别来描述本专利技术的各种 实施例,但是认为这些实施例对使用等价接口和操作的广义语音识别 具有适用性。图1是图示根据本专利技术实施例的能够提供语音识别来获得名字的通信系统的示图。通信系统100包括利用名字语法数据库103、信任度 数据库105的语音识别系统(或逻辑)101。语音识别系统101利用交 互式话音应答(IVR)单元(或系统)107来操作,其通过电话网络111 从站109接收话音呼叫。电话网络111能够是电路切换系统或分组话 音网络(例如,网际协议话音(VoIP)网络)。分组话音网络111能 够由支持麦克风和扬声器功能的适当的站109—一例如,计算机、工作 站或其它设备(例如,个人数字助理(PDA)等)来访问。除了其它 功能,IVR系统107采集并且向用户提供数据。图2中更加充分地解 释了IVR系统107。由数据存储库113支持数据采集。为了说明的目的,针于表示名字的音频信号的识别来描述语音识 别系统101。用户的名字可论证地是最日常收集的、普遍使用的信息片 段。不幸的是,获得用户的名字对于利用双音多频(DTMF)输入接口 的常规系统来说是一项困难的任务。例如,随着包含在个人的名字中 的字母数量的增加,DTMF接口变得日益地不实用。而且,很多电话设计(特别是蜂窝电话)需要将扬声器和拨号键盘组建在一起,使得 用户可以方便地使用拨号键盘并且接听话音询问。因此,语音识别已 经被引入以补充DTMF接口。传统的语音识别接口高度地取决于语法内容和普通的发音规则来 实现准确的转换结果。然而,对于用户名字(或任意固有名词),因 为这些类型的字通常不具有能够被用以在可能的转换选择中进行区分 的显著的语法内容,所以这些技术证明是不充分的。另外,由于固有 名词包含不成比例的大量非标准发音变化,所以即使有的话,普通的 发音规则也提供极小的有利价值。因此,不仅通过内容的损失也通过 音素本身之间的听觉差别来例示语音的变化性。另外,独立于被转换的言语类型的一组特有的复杂性妨碍了语音 识别技术。例如,由环境背景噪声、麦克风位置以及转换器质量所引 入的声音的变化性增加了转换准确度的损失。此外,从物理和情感状 态、语速、话音质量和强度、社会语言背景、方言以及声道大小和形 状引起的扬声器的变化性也造成识别准确度的损失。返回图1,以下针于图3更充分地描述的语音识别系统101能够支持包括与人类用户的交互的各种应用,诸如,呼叫流程处理、目录 辅助、商务事务(例如,航空票务、股票代理、银行业务、订购等)、 浏览/采集信息等。虽然没有示出,但是IVR系统107能够经由数据网络来访问数据 存储库113,该数据网络能够包括本地区域网络(LAN)、广域网络 (WAN)、蜂窝或卫星网络、因特网等。另外,那些本领域中普通技 术人员将意识到的是,数据存储库113能够被直接链接到或被包括在 IVR系统107内。比如,数据存储库113能够是将个性化信息与用户 名字相关联的任意类型的信息存储(例如,数据库、服务器、计算机 等)。该个性化信息能够包括出生日期、账号(例如,银行、签帐卡、计费代码等)、社会安全号码(SSN)、地址(例如,工作、家庭、网际协议(IP)、介质访问控制(MAC)等)、电话列表(家庭、工作、 蜂窝电话等)、以及例如生物识别码、声印(voice print)等任意其它 形式的唯一可识别数据的任意一个或其组合。在本专利技术的一个实施例中,将数据存储库113配置为允许使用一 个或多个以上所列出的个性化信息形式来反向检索用户的名字。此外, 能够由任意资源,包括第三方供应商,来自动更新并且维持数据存储 库113。虽然将语音识别系统101示作独立的组件,但是可以认为,语音 识别系统101能够与IVR系统107集成。图2是根据本专利技术实施例的示例性交互式话音应答(IVR)系统的 示图。在该示例中,IVR系统107包括电话接口 201、资源管理器203、 以及话音浏览器205。 IVR系统107利用电话接口 201用于通过电话网 络111与一个或多个用户进行通信。在可选实施例中,根据用户的访 问方法来利用其它接口。此外,虽然将IVR系统示作独立的、分布的 实体,但是IVR系统107能够将一些或所有的功能并入单一的网络元 件。如图所示,资源管理器203提供各种语音资源,诸如验证系统207、 自动语音识别器(ASR) 209、和文本到语音(TTS)引擎211。 TTS 引擎211将来自话音浏览器205的文本信息(数字信号)转换为语音 (模拟信号),用于向用户进行回放。TTS引擎211通过前端输入和 后端输出来完成该转变。该输入通过文本标准化、预处理和/或断词将 纯文本转换为其等价的写出字。随后,字被指派标音,并且被划分为 韵律单位,例如,短语、分句和/或句子。使用该标音和韵律安排的组合,前端输入向后端输出传送符号语言表示,以用于合成。基于期望 的自然性或可理解性的级别,后端输出能够通过下面合成过程的任意9一个来生成语音波形连续式、单位选择、双音、域指定、共振峰、音韵(articulatory)、隐藏式马可夫模型(HMM)以及其它类似方法, 以及其任意的混合组合。通过合成过程,后端输出生成向用户传送的 实际声音输出。ASR 209能够有效地作为语音识别系统101,或者本文档来自技高网...

【技术保护点】
一种方法,包括: 基于由用户提供的数据来从所述用户获取名字; 向所述用户询问所述用户的名字; 接收来自所述用户的响应于所述询问的第一音频输入; 使用名字语法数据库将语音识别应用于所述第一音频输入,以输出被识别的名字;  确定所述被识别的名字是否与所述被获取的名字匹配; 如果确定没有匹配,则向所述用户重新询问所述用户的名字; 接收来自所述用户的响应于所述重新询问的第二音频输入;以及 使用具有少于所述名字语法数据库的条目的信任度数据库 将语音识别应用于所述第二语音输入。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:戴维桑内鲁德
申请(专利权)人:维里逊商务网络服务有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1