语音输入的字词级纠正制造技术

技术编号:18007020 阅读:81 留言:0更新日期:2018-05-21 07:39
本发明专利技术的各实施例涉及语音输入的字词级纠正。可以在一种计算机实施的方法以及其它实施方式中实施本说明书的主题内容,其中该方法用于纠正转录的文字中的字词,该方法包括从麦克风接收语音音频数据。该方法还包括向转录系统发送语音音频数据。该方法还包括接收转录系统从语音音频数据转录的字词网格。该方法还包括呈现来自字词网格的一个或者多个转录的字词。该方法还包括接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括接收替代字词中的至少一个替代字词的用户选择。该方法还包括用所选替代字词取代呈现的转录的字词中的所选转录的字词。

【技术实现步骤摘要】
语音输入的字词级纠正分案申请说明本申请是申请日为2011年1月5日且分案提交日为2015年7月16日的中国专利技术专利申请201510420200.7的分案申请,进而也是申请日为2011年1月5日的中国专利技术专利申请201180008973.4的再分案申请。鉴于中国专利技术专利申请201510420200.7中的第一次审查意见通知书中包含单一性的驳回意见,根据专利法的相关规定申请人提交了本再分案申请。相关申请的交叉引用本申请要求对通过引用将内容结合于此、于2010年1月5日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第61/292,440号美国临时申请以及于2010年10月27日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第12/913,407号美国申请的优先权。
本说明书涉及纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。
技术介绍
语音输入的转录是一种越来越流行的向计算设备中输入信息的方式。对于移动计算设备(比如移动电话和智能电话)而言甚至更是如此,其中可用于容用户进行用户输入的接口不如桌面型计算机中的用户接口(比如全尺寸键盘)那样易于操纵。例如一些移动计算设备使用最小硬件键盘(例如完全QWERTY键盘的子集)、虚拟/软件键盘(例如触屏键盘)或者甚至十二个键的电话键区(例如ITU-T文字录入)。通常,这些用户输入接口比传统桌面型用户接口更小,并且用户经常使用他们的拇指来键入或者在键入之时看一个键打一个字。这可以至少部分说明越来越多地使用向移动计算设备的语音输入。
技术实现思路
总体上,本文献描述纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。在一些实施方式中,计算设备是无线移动设备(比如移动电话或者智能电话)。计算设备例如从用户接收语音输入并且向与计算设备分离的转录系统发送语音输入。转录系统转录语音输入并且向计算设备提供对应字词网格。计算设备允许用户使用来自字词网格的替代字词和/或短语对转录的文字中的一个或者多个字词进行纠正。在第一方面中,一种用于纠正转录的文字中的字词的计算机实施的方法包括从移动计算设备中的麦克风接收语音音频数据。该方法还包括向转录系统发送来自移动计算设备的语音音频数据。该方法还包括在移动计算设备接收转录系统从语音音频数据转录的字词网格。该方法还包括在移动计算设备的显示器屏幕上呈现来自字词网格的一个或者多个转录的字词。该方法还包括在移动计算设备接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括响应于接收转录的字词的用户选择,在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括在移动计算设备接收替代字词中的至少一个替代字词的用户选择。该方法还包括响应于接收替代字词的用户选择,用所选替代字词取代呈现的转录的字词中的所选转录的字词。实施方式可以包括以下特征中的任何、所有或者零个特征。该方法可以包括:响应于接收转录的字词的用户选择,在显示器屏幕上呈现用于所选转录的字词的去除命令;在移动计算设备接收去除命令的用户选择;并且响应于接收去除命令的用户选择,从呈现的转录的字词去除所选转录的字词。该方法可以包括:在显示器屏幕上呈现来自字词网格的用于呈现的转录的字词的至少一个替代短语;在移动计算设备接收替代短语的用户选择;并且响应于接收替代短语的用户选择,用所选替代短语取代呈现的转录的字词。该方法可以包括:响应于接收去除命令或者替代字词的用户选择,自动基于所选替代字词或者去除的转录的字词从字词网格选择至少一个新的替代短语;并且用新的替代短语取代呈现的替代短语。接收呈现的字词的用户选择和替代字词的用户选择可以包括通过移动计算设备的触屏接口接收呈现的字词的用户选择和替代字词的用户选择。字词网格可以包括与转录的字词和替代字词对应的节点、在节点之间的边,边标识经过字词网格的可能路径,并且每个路径可以具有路径正确的关联概率。该方法可以包括从字词网格中所选转录的字词的开始节点与结束节点之间的一个或者多个替代路径识别用于所选转录的字词的替代字词。该方法可以包括从字词网格中呈现的转录的字词的开始节点与结束节点之间的至少一个替代路径识别用于呈现的转录的字词的替代短语。在第二方面中,一种在计算机可读介质上编码的计算机程序产品,可操作用于使一个或者多个处理器执行用于纠正转录的文字中的字词的操作,操作包括从移动计算设备中的麦克风接收语音音频数据。操作还包括向转录系统发送来自移动计算设备的语音音频数据。操作还包括在移动计算设备接收转录系统从语音音频数据转录的字词网格。操作还包括在移动计算设备的显示器屏幕上呈现来自字词网格的一个或者多个转录的字词。操作还包括在移动计算设备接收呈现的转录的字词中的至少一个转录的字词的用户选择。操作还包括响应于接收转录的字词的用户选择,在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。操作还包括在移动计算设备接收替代字词中的至少一个替代字词的用户选择。操作还包括响应于接收替代字词的用户选择,用所选替代字词取代呈现的转录的字词中的所选转录的字词。实施方式可以包括以下特征中的任何、所有或者零个特征。操作可以包括:响应于接收转录的字词的用户选择,在显示器屏幕上呈现用于所选转录的字词的去除命令;在移动计算设备接收去除命令的用户选择;并且响应于接收去除命令的用户选择,从呈现的转录的字词去除所选转录的字词。操作可以包括:在显示器屏幕上呈现来自字词网格的用于呈现的转录的字词的至少一个替代短语;在移动计算设备接收替代短语的用户选择;并且响应于接收替代短语的用户选择,用所选替代短语取代呈现的转录的字词。操作可以包括:响应于接收去除命令或者替代字词的用户选择,自动基于所选替代字词或者去除的转录的字词从字词网格选择至少一个新的替代短语;并且用新的替代短语取代呈现的替代短语。接收呈现的字词的用户选择和替代字词的用户选择可以包括通过移动计算设备的触屏接口接收呈现的字词的用户选择和替代字词的用户选择。字词网格可以包括与转录的字词和替代字词对应的节点、在节点之间的边,边标识经过字词网格的可能路径,并且每个路径可以具有路径正确的关联概率。操作可以包括从字词网格中所选转录的字词的开始节点与结束节点之间的一个或者多个替代路径识别用于所选转录的字词的替代字词。操作可以包括从字词网格中呈现的转录的字词的开始节点与结束节点之间的至少一个替代路径识别用于呈现的转录的字词的替代短语。在第三方面中,一种用于纠正转录的文字中的字词的计算机实施的系统包括:转录系统,可操作用于接收语音音频数据并且作为响应将语音音频数据转录成字词网格。该系统还包括移动计算设备,移动计算设备包括:麦克风,可操作用于接收语音音频并且生成语音音频数据,网络接口,可操作用于向转录系统发送语音音频数据并且作为响应从转录系统接收字词网格,显示器屏幕,可操作用于呈现来自字词网格的一个或者多个转录的字词,用户接口,可操作用于接收转录的字词中的至少一个转录的字词的用户选择,一个或者多个处理器和存储指令的存储器,指令在由处理器执行时执行以下操作:在显示器屏幕上呈现来自字词网格的用于所选转录的字词的一个或者多个替代本文档来自技高网
...
语音输入的字词级纠正

【技术保护点】
一种计算机实施的方法,包括:从自动化语音识别器获得说话声的第一转录和第二转录,其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果,并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分;提供所述说话声的所述第一转录以用于输出;接收指示对所述说话声的所述第一转录的所述一部分的单个选择的数据;以及响应于接收到指示所述单个选择的所述数据,提供所述说话声的所述第二转录以用于输出。

【技术特征摘要】
2010.01.05 US 61/292,440;2010.10.27 US 12/913,4071.一种计算机实施的方法,包括:从自动化语音识别器获得说话声的第一转录和第二转录,其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果,并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分;提供所述说话声的所述第一转录以用于输出;接收指示对所述说话声的所述第一转录的所述一部分的单个选择的数据;以及响应于接收到指示所述单个选择的所述数据,提供所述说话声的所述第二转录以用于输出。2.根据权利要求1所述的计算机实施的方法,其中所述说话声的所述第一转录包括来自字词网格的一个或者多个字词,并且所述说话声的所述第二转录包括来自所述字词网格的一个或者多个替代字词,所述一个或者多个替代字词对应于所述说话声的所述第一转录的所述一部分。3.根据权利要求2所述的计算机实施的方法,其中所述字词网格包括与所述说话声的所述第一转录的字词和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边,所述边标识经过所述字词网格的可能路径,其中每个路径具有为正确的关联概率。4.根据权利要求1所述的计算机实施的方法,其中所述说话声的所述第一转录对应于来自所述自动化语音识别器的具有最高语音识别置信度分值的识别结果。5.根据权利要求1所述的计算机实施的方法,其中所述说话声的所述第二转录对应于来自所述自动化语音识别器的、包括与所述说话声的所述第一转录的所述一部分对应的一个或者多个替代字词并且具有为正确的最高概率的识别结果。6.根据权利要求1所述的计算机实施的方法,其中获得所述说话声的所述第二转录包括:标识所述说话声的所述第一转录的所述一部分;确定与所述说话声的所述第一转录的所述一部分对应的替代部分是最可能为正确替代部分的所述替代部分;以及获得所述说话声的所述第二转录,所述说话声的所述第二转录包括最可能为正确替代部分的所述替代部分。7.根据权利要求1所述的计算机实施的方法,其中:所述说话声的所述第一转录和所述说话声的所述第二转录被提供用于在计算设备的触摸屏显示器处输出;以及指示对所述说话声的所述第一转录的所述一部分的所述单个选择的所述数据响应于在所述计算设备的所述触摸屏显示器处的用户输入而被接收。8.一种用于纠正转录的文字中的字词的计算机实施的系统,所述系统包括:自动化语音识别器,可操作用于接收语音音频数据并且作为响应将所述语音音频数据转录成字词网格;以及计算设备,包括:麦克风,可操作用于接收语音音频并且生成所述语音音频数据,网络接口,可操作用于向所述自动化语音识别器发送所述语音音频数据并且作为响应从所述自动化语音识别器接收所述字词网格,显示器屏幕,可操作用于呈现来自所述字词网格的一个或者多个转录的字词,用户接口,可操作用于接收对所述转录的字词中的至少一个转录的字词的用户选择,一个或者多个处理器和存储指令的存储器,所述指令在由所述处理器执行时使得所述计算设备执行以下操作:提供所述用户接口,所述用户接口包括(i)用于输出说话声的第一转录的输出区域,以及(ii)与所述说话声的第二转录相关联的控件,其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果,并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分;在所述输出区域处呈现所述说话声的所述第一转录,其中所述说话声的所述第一转录包括来自所述字词网格的一个或者多个字词;接收指示对与所述说话声的所述第二转录相关联的所述控件的选择;以及更新所述输出区域以用所述说话声的所述第二转录取代所述说话声的所述第一转录。9.根据权利要求8所述的系统,其中所述字词网格包括与所述说话声的所述第一转录和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边,所述边标识经过所述字词网格的可能路径,其中每个路径具有为正确的关联概率。10.根据权利要求9所述的系统,其中所述说话声的所述第一转录对应于经过所述字词网格的具有为正确的最高概率的路径。11.根据权利要求9所述的系统,其中所述说话声的所述第二转录对应于经过所述字词网格的具有为正确的次最高概率的路径。12.根据权利要求9所述的系统,其中所述说话声的所述第二转录对应于经过所述字词网格的作为除了经...

【专利技术属性】
技术研发人员:M·J·勒鲍W·J·伯恩J·N·吉科夫B·M·巴林格尔T·克里斯简森
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1