当前位置: 首页 > 专利查询>苹果公司专利>正文

用于使用上下文信息的语音识别修复的方法和系统技术方案

技术编号:12883005 阅读:55 留言:0更新日期:2016-02-17 15:28
本发明专利技术涉及用于使用上下文信息的语音识别修复的方法和系统。本发明专利技术提供一种语音控制系统,其可识别口述命令和相关联的字词(例如“呼叫在家里的妈妈”)且可致使选定应用程序(例如电话拨号器)执行所述命令以致使例如智能电话等数据处理系统执行基于所述命令的操作(例如查找妈妈在家里的电话号码并拨打所述号码以建立电话呼叫)。所述语音控制系统可使用一组解释器来修复来自语音识别系统的经识别文本,且来自所述组的结果可被合并为最终经修复转录,所述最终经修复转录被提供到所述选定应用程序。

【技术实现步骤摘要】
【专利说明】 相关申请夺叉引用 本申请是申请号为201210369739. 0、申请日为2012年09月28日的中国专利技术专利 申请的分案申请。
本专利技术涉及语音识别系统,且在一个实施例中,涉及用以控制数据处理系统的语 音识别系统。
技术介绍
许多语音识别系统所具有的常见问题是准确性。用户可对着语音识别器说话,且 系统可用识别文本做出响应,但所述识别文本通常可能含有许多错误,因为语音识别器未 能恰当地识别人类用户的话语。 语音识别可用以在电话上调用话音拨号,例如当用户在电话上口述命令"call mom(呼叫妈妈)"时。使用语音来控制数据处理系统可在来自语音识别器系统的转录错误 决定用户口述"callTom(呼叫汤姆)"而非"callmom(呼叫妈妈)"时导致异常系统行为。 转录错误可由硬件缺点(例如不能够经由蓝牙头戴式耳机俘获高质量音频记录)或用户错 误(例如不正确或不完全的发音或背景噪声)造成。一些语音识别系统可采用使用上下文 来改善语音识别系统;美国专利7, 478, 037提供可采用上下文来辅助语音识别过程的语音 识别系统的实例。
技术实现思路
本专利技术的实施例提供一种语音控制系统,其可识别口述命令和相关联字词(例如 "呼叫在家里的妈妈")且可致使选定应用程序(例如电话拨号器)执行所述命令以致使系 统(其可为智能电话)执行基于所述命令和相关联字词的操作(例如,向在家里的妈妈发 出电话呼叫)。在一个实施例中,所述语音控制系统可使用包括常规声学模型和常规语言 模型的语言识别器来根据从人类用户的语音获得的数字化输入产生文本输出。在一个实 施例中,所述语音控制系统可由用户可调用的语音辅助应用程序来启动,且此语音辅助应 用程序可解释并修复来自所述语音识别器的所述文本输出且将经修复的文本输出提供到 一组应用程序中的选定应用程序;所述组应用程序可包括(例如)一个或一个以上应用程 序,例如电话应用程序(用以拨号并建立话音电话呼叫连接)和媒体播放器应用程序(例 如,iTunes)和SMS(短消息服务)"文本消息"应用程序和视频会议(例如,"面对面时间 (FaceTime) ")或聊天应用程序和用以找到或定位例如朋友等个人的应用程序和其它应用 程序。 在一个实施例中,语音辅助应用程序使用一组解释器来解释所述文本输出,所述 解释器中的每一者经设计以解释所述组应用程序所使用的特定类型的文本。举例来说,名 字解释器经设计以解释地址簿或通讯录数据库中的名字(在名字字段中),姓氏解释器经 设计以解释地址簿或通讯录数据库中的姓氏(在姓氏字段中),全名解释器经设计以解释 地址簿或通讯录数据库中的全名,且公司名称解释器经设计以解释地址簿或通讯录数据库 中的公司名称。在一个实施例中,这些解释器可经配置以使用不同算法或过程来解释文本 输出中的每一字词;举例来说,全名解释器可使用模拟匹配(使用编辑距离相似性测量) 算法来将文本输出中的字词与地址簿或通讯录数据库中的字词进行比较,但在一个实施例 中,不使用η码组(n-gram)算法来将文本输出中的字词与地址簿或通讯录数据库中的字词 进行比较,而名字解释器使用η码组算法来将文本输出中的字词与地址簿或通讯录数据库 中的字词进行比较。此外,在一个实施例中,这些解释器可在搜索地址簿或通讯录数据库以 查找匹配时使用不同搜索算法。在一个实施例中,每一解释器还可在解释字词时使用上下 文(例如,所述上下文可包括媒体播放器正在播放歌曲的指示)。在一个实施例中,所述上 下文可包括用户输入历史(例如会话历史(例如,先前识别语音))或所述组应用程序中的 应用程序的状态等。在一个实施例中,所述组中的每一解释器可处理文本输出中的每一字 词以试图确定其是否能修复所述字词,且在一个实施例中,每一解释器自行决定其是否能 修复每一字词;所述解释器产生指示其是否能修复所述字词的得分或置信度。 在一个实施例中,所述组解释器的控制器可通过排列所得的经修复解释(使用每 一解释器的得分或置信度来执行所述排列)且接着合并所述经排列的解释来处理所述组 解释器的结果。在一个实施例中,所述合并设法避免解释的重叠,使得仅使用来自一个解释 器的输出来修复特定字词。 在一个实施例中,所述语音辅助应用程序可基于字词在字词串中的位置来确定来 自语音识别器系统的文本输出中的命令或通过使用语法剖析器来确定所述命令,且所述命 令连同经修复的语音转录可由语音辅助应用程序传递到一组应用程序中的特定应用程序 以供所述特定应用程序使用经修复的语音转录执行所述命令。在此实施例中,语音辅助应 用程序可基于所述命令来选择所述特定应用程序;举例来说,识别文本中的"呼叫"命令致 使语音辅助应用程序通过API将所述"呼叫"命令连同经修复的语音转录传递到电话拨号 器或电话应用程序,而识别文本中的"停止"命令致使语音辅助应用程序通过API将"停止" 命令传递到媒体播放器(例如iTunes)以停止播放当前正在播放的歌曲。在此实例中,提供 到所述组解释器中的媒体播放器解释器的上下文可包括媒体的状态(例如,上下文包括在 语音识别器系统接收到含有识别字词"停止"的语音输入时披头士歌曲"ComeTogether( - 起来)"当前正在播放的状态)。在此实例中,用户不需要在口述命令之前选择特定的所要 应用程序;而是,用户在将语音辅助应用程序作为最前端应用程序(且具有语音输入焦点) 的情况下进行口述且语音辅助应用程序接着自动地(不需要用户直接指定应用程序)基于 所述命令来在所述组应用程序中选择恰当的应用程序,且接着通过API将所述命令传递到 选定应用程序。 在一个方面中,一种机器实施方法包括:从数据处理系统的用户接收语音输入; 在所述数据处理系统中确定所述语音输入的上下文;通过语音识别系统在所述语音输入中 识别文本,所述文本识别产生文本输出;将所述文本输出存储为具有多个标记的剖析数据 结构,所述多个标记各自表示所述文本输出中的字词;用一组解释器处理所述标记中的每 一者,其中每一解释器经设计以修复所述文本输出中的特定类型的错误,搜索一个或一个 以上数据库以识别所述数据库中的一个或一个以上项目与所述标记中的每一者之间的匹 配,且根据所述所识别的匹配和所述上下文确定所述解释器是否能修复所述文本输出中的 标记;合并由所述组解释器产生的选定结果以产生经修复的语音转录,所述经修复的语音 转录表示所述文本输出的经修复版本;以及基于所述经修复的语音转录中的命令而将所述 经修复的语音转录提供到一组应用程序中的选定应用程序,其中所述选定应用程序经配置 以执行所述命令。 在一些实施例中,所述上下文包括先前用户输入历史,且其中所述一个或一个以 上数据库包括通讯录数据库,所述通讯录数据库存储姓名、地址和电话号码中的至少一者。 在一些实施例中,所述上下文包括会话历史,其中所述一个或一个以上数据库包 括媒体数据库,所述媒体数据库存储歌曲、题目和艺术家中的至少一者,且其中所述组解释 器中的解释器在评估可能的匹配时使用至少两个字词的字符串。 在一些实施例中,所述组解释器中的第一解释器使用第一算法来确定是否修复字 词,且所述组解释器中的第二解释器使用第二算法来确定是否修复字词,所述第一算法不 同于所述第二算法。 本文档来自技高网...

【技术保护点】
一种用于转录语音的计算机实现的方法,所述方法包括:在电子设备处:从语音识别系统接收口述用户请求的转录;将所述转录解析为表示所述口述用户请求中的字词的多个标记;使用第一解释器,确定用于所述多个标记中的一个标记的第一替代标记的第一置信度;使用第二解释器,确定用于所述多个标记中的所述一个标记的第二替代标记的第二置信度;以及通过基于所述第一置信度和所述第二置信度将所述多个标记中的所述一个标记替换为所述第一替代标记或者所述第二替代标记,来生成修复的转录。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:陈力
申请(专利权)人:苹果公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1