当前位置: 首页 > 专利查询>微软公司专利>正文

交互式语音识别制造技术

技术编号:8301239 阅读:288 留言:0更新日期:2013-02-07 05:24
一种交互式语音识别。可以获取与第一话语关联的第一多个音频特征。可以根据与所述音频特征关联的音频信号分析,获取与所述第一话语的第一语音到文本转化关联的第一文本结果,所述第一文本结果包至少一个第一单词。可以获取与关联于至少一个第一单词的第一语音到文本转化的至少第一部分相关的第一组音频特征。可以启动显示包括至少一个第一单词的第一文本结果的至少一部分。可接收指示第一语音到文本转化中错误的选择指示,所述错误与至少一个第一单词关联。

【技术实现步骤摘要】
交互式语音识别
技术介绍
电子设备用户逐渐依赖于从因特网获取的信息作为新闻报道、评级、物品描述、公告、事件信息以及用户可能感兴趣的其他各类信息的来源。此外,用户逐渐依赖于自动语音识别系统减轻在针对诸如搜索、请求地图(map)、请求自动拨号电话呼叫和发短信(texting)等应用手动输入文本时遇到的困难
技术实现思路
根据一个一般方面,一种有形地包含在计算机可读存储介质中的计算机程序产品可以包括能够使至少一个数据处理装置获取与第一话语(utterance)关联的音频数据的可执行代码。进一步地,所述至少一个数据处理装置可根据与所述音频数据关联的音频信号分析,通过设备处理器获取与所述第一话语的第一语音到文本转化关联的文本结果,所述文本结果包括多个对应于至少一个单词的可选文本替代。进一步地,所述至少一个数据处理装置可以启动显示包括文本替代中第一个的文本结果的至少一部分。进一步地,所述至少一个数据处理装置可以接收指示文本替代中第二个的选择指示。根据另一方面,可以获取与第一话语关联的第一多个音频特征。可根据与所述音频特征关联的音频信号分析,获取与所述第一话语的第一语音到文本转化关联的第一文本结果,所述第一文本结果包括至少一个第一单词。可获取与关联于至少一个第一单词的第一语音到文本转化的至少第一部分相关的第一组音频特征。可启动显示包括至少一个第一单词的第一文本结果的至少一部分。可接收指示第一语音到文本转化中错误的选择指示,所述错误与至少一个第一单词关联。根据另一方面,一种系统可以包括输入获取组件,所述组件获取与第一话语关联的第一多个音频特征。所述系统还可以包括语音转文本组件,所述组件根据与音频特征关联的音频信号分析,通过设备处理器获取与所述第一话语的第一语音到文本转化关联的第一文本结果,所述第一文本结果包括至少一个第一单词。所述系统还可以包括片段(clip)相关组件,所述组件获取第一多个音频特征的第一相关部分,所述第一相关部分与第一语音到文本转化到至少一个第一单词关联。所述系统还可以包括结果递送组件,所述组件启动输出第一文本结果和第一多个音频特征的第一相关部分。所述系统还可以包括校正请求获取组件,所述组件获取包括有关至少一个第一单词是第一语音到文本转化错误的指示,以及第一多个音频特征的第一相关部分的校正请求。本
技术实现思路
以简单的形式介绍了一系列概念,这些概念将在具体实施方式中进一步描述。本
技术实现思路
不旨在识别所要保护的主题的关键特征或必要特征,不旨在用于限定所要保护的主题的范围。下面的附图和描述将阐述一个或多个实现细节。根据描述、附图以及权利要求,其他特征将变得显而易见。附图说明图I是用于交互式语音识别的系统实例的方框图。图2a_2b是示出图I中系统的实例操作的流程图。图3a_3b是示出图I中系统的实例操作的流程图。图4 a-4c是示出图I中系统的实例操作的流程图。图5描绘与图I中系统的实例交互。图6描绘与图I中系统的实例交互。图7描绘与图I中系统的实例交互。图8描绘与图I中系统的实例交互。图9描绘与图I中系统的实例交互。 图IOa-IOc描绘图I中系统的实例用户接口。具体实施例方式当电子设备用户逐渐依赖于从设备本身或因特网获取的信息时,他们也在逐渐依赖于自动语音识别系统减轻在针对诸如搜索、请求地图、请求自动拨号电话呼叫和发短信等许多应用手动输入文本时遇到的困难。例如,从用户角度来看,用户可能希望对着移动设备说出一个或多个单词并几乎立即通过该移动设备接收到结果。例如,移动设备可以在用户说出(多个)单词时接收语音信号,并且既可以在设备本身上处理语音信号,也可以将语音信号(或从语音信号提取的预处理的音频特征)发送到一个或多个其他设备(例如,后端服务器或“云”)进行处理。识别引擎然后可以识别信号并将相应文本发送到设备。如果所述识别引擎对用户话语的一个或多个单词进行错误分类(例如,返回用户所说的一个或多个单词的同音异义词或近同音异义词),则用户希望避免再次说出他/她之前话语的所有单词,或者避免说出不同的单词或短语以希望该识别能够通过不同的(多个)单词识别出用户的意图,或者避免再次手动输入文本来替代对语音识别的依赖。此处讨论的实例技术可以根据音频片段与对应于由语音信号(例如,音频特征)对应的相关音频数据部分转化而来的各单词或短语的话语部分的关联来提供语音转文字识别。此处讨论的实例技术可以提供带有语音转文本结果显示的用户接口,所述结果包括用于接收与不正确转化(即,错误分类)的单词或短语相关的用户输入的可选文本。根据一个实例实施例,用户可以触摸不正确转化的单词,并且可以接收不包括不正确转化的单词或短语的校正结果显示。根据实例实施例,用户可以触摸不正确转化的单词,并且可以接收包括下面k个最可能的替代转化单词(而非不正确转化的单词)的校正结果显示。根据实例实施例,用户可以触摸不正确转化的单词,并且可以接收显示下面k个最可能的替代转化单词(而非不正确转化的单词)的下拉菜单显示。根据实例实施例,用户可以接收包括源自文本到语音转化的替代单词列表的转化结果显示,所述替代单词用圆括号或方括号之类的分隔符括住。用户可以随后选择正确的替代单词,并且可以接收底层应用的进一步结果(例如,搜索结果、地图结果,发送文本)。根据实例实施例,用户可以利用初始转化和每个校正转化接收转化结果显示,所述转化结果可以包括底层应用的进一步结果(例如,搜索结果、地图结果)。如在此进一步讨论的那样,图I是用于交互式语音识别的系统100的方框图。如图I所示,系统100可以包括交互式语音识别系统102,语音识别系统102包括可以获取与第一话语关联的第一多个音频特征106的输入获取组件104。例如,所述音频特征可以包括与可包括一个或多个单词的人类短语话语关联的音频信号。例如,所述音频特征可以包括与人类字母表字母话语(例如,人拼出一个或多个单词)关联的音频信号。例如,所述音频特征可以包括处理与话语关联的音频信号(例如,从模拟信号到数值化数字形式的处理)所得到的音频数据,所述音频数据还能被压缩以用于保存,或者用于网络上的轻型传输。根据实例实施例,交互式语音识别系统102可以包括能够存储在计算机可读存储介质中的可执行指令,如下所论述。根据一个实例实施例,所述计算机可读存储介质可以包括任何数量的存储设备,以及任何数量的存储介质类型,包括分布式设备。例如,实体存储库(repository) 108可以包括一个或多个数据库,并且可通过数据库接口组件110进行访问。数据处理领域的技术人员将理解,存在许多用于存储此处所 述存储库信息的技术,例如各类数据库配置(例如,SQL SERVERS)和非数据库配置。根据实例实施例,交互式语音识别系统102可以包括存储第一多个音频特征106的存储器112。在此上下文中,“存储器”可以包括被配置为存储数据和/或指令的单个存储器设备或多个存储器设备。进一步地,存储器112可以跨多个分布式存储设备。根据实例实施例,用户接口组件114可以管理用户116和交互式语音识别系统102之间的通信。用户116可以与接收设备118关联,接收设备118可以与显示器120和其他输入/输出设备关联。例如,显示器120可以被配置为通过内部设备总线通信或通过至少一个网络连接与接收设本文档来自技高网
...

【技术保护点】
一种有形地包含在计算机可读存储介质中并包括可执行代码的计算机程序产品,所述可执行代码导致至少一个数据处理装置:获取(302)与第一话语关联的音频数据;根据与所述音频数据关联的音频信号分析,通过设备处理器(128)获取(304)与所述第一话语的第一语音到文本转化(132)关联的文本结果(130),文本结果(130)包括多个对应于至少一个单词的可选文本替代(156);启动(306)显示包括文本替代(156)中第一个的文本结果(130)的至少一部分;以及接收(308)指示文本替代(156)中第二个的选择指示。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:MSB塞加尔MM拉扎
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1