语音输入的字词级纠正制造技术

技术编号：18007020 阅读：81 留言：0更新日期：2018-05-21 07:39

本发明专利技术的各实施例涉及语音输入的字词级纠正。可以在一种计算机实施的方法以及其它实施方式中实施本说明书的主题内容，其中该方法用于纠正转录的文字中的字词，该方法包括从麦克风接收语音音频数据。该方法还包括向转录系统发送语音音频数据。该方法还包括接收转录系统从语音音频数据转录的字词网格。该方法还包括呈现来自字词网格的一个或者多个转录的字词。该方法还包括接收呈现的转录的字词中的至少一个转录的字词的用户选择。该方法还包括呈现来自字词网格的用于所选转录的字词的一个或者多个替代字词。该方法还包括接收替代字词中的至少一个替代字词的用户选择。该方法还包括用所选替代字词取代呈现的转录的字词中的所选转录的字词。

全部详细技术资料下载

【技术实现步骤摘要】
语音输入的字词级纠正分案申请说明本申请是申请日为2011年1月5日且分案提交日为2015年7月16日的中国专利技术专利申请201510420200.7的分案申请，进而也是申请日为2011年1月5日的中国专利技术专利申请201180008973.4的再分案申请。鉴于中国专利技术专利申请201510420200.7中的第一次审查意见通知书中包含单一性的驳回意见，根据专利法的相关规定申请人提交了本再分案申请。相关申请的交叉引用本申请要求对通过引用将内容结合于此、于2010年1月5日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第61/292,440号美国临时申请以及于2010年10月27日提交并且标题为“Word-LevelCorrectionofSpeechInput”的第12/913,407号美国申请的优先权。
本说明书涉及纠正从向计算设备的语音输入转录的文字中的一个或者多个字词。
技术介绍
语音输入的转录是一种越来越流行的向计算设备中输入信息的方式。对于移动计算设备(比如移动电话和智能电话)而言甚至更是如此，其中可用于容用户进行用户输入的接口不如桌面型计算机中的用户接口(比如全尺寸键盘)那样易于操纵。例如一些移动计算设备使用最小硬件键盘(例如完全QWERTY键盘的子集)、虚拟/软件键盘(例如触屏键盘)或者甚至十二个键的电话键区(例如ITU-T文字录入)。通常，这些用户输入接口比传统桌面型用户接口更小，并且用户经常使用他们的拇指来键入或者在键入之时看一个键打一个字。这可以至少部分说明越来越多地使用向移动计算设备的语音输...
语音输入的字词级纠正

【技术保护点】
一种计算机实施的方法，包括：从自动化语音识别器获得说话声的第一转录和第二转录，其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果，并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分；提供所述说话声的所述第一转录以用于输出；接收指示对所述说话声的所述第一转录的所述一部分的单个选择的数据；以及响应于接收到指示所述单个选择的所述数据，提供所述说话声的所述第二转录以用于输出。

【技术特征摘要】
2010.01.05 US 61/292,440;2010.10.27 US 12/913,4071.一种计算机实施的方法，包括：从自动化语音识别器获得说话声的第一转录和第二转录，其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果，并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分；提供所述说话声的所述第一转录以用于输出；接收指示对所述说话声的所述第一转录的所述一部分的单个选择的数据；以及响应于接收到指示所述单个选择的所述数据，提供所述说话声的所述第二转录以用于输出。2.根据权利要求1所述的计算机实施的方法，其中所述说话声的所述第一转录包括来自字词网格的一个或者多个字词，并且所述说话声的所述第二转录包括来自所述字词网格的一个或者多个替代字词，所述一个或者多个替代字词对应于所述说话声的所述第一转录的所述一部分。3.根据权利要求2所述的计算机实施的方法，其中所述字词网格包括与所述说话声的所述第一转录的字词和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边，所述边标识经过所述字词网格的可能路径，其中每个路径具有为正确的关联概率。4.根据权利要求1所述的计算机实施的方法，其中所述说话声的所述第一转录对应于来自所述自动化语音识别器的具有最高语音识别置信度分值的识别结果。5.根据权利要求1所述的计算机实施的方法，其中所述说话声的所述第二转录对应于来自所述自动化语音识别器的、包括与所述说话声的所述第一转录的所述一部分对应的一个或者多个替代字词并且具有为正确的最高概率的识别结果。6.根据权利要求1所述的计算机实施的方法，其中获得所述说话声的所述第二转录包括：标识所述说话声的所述第一转录的所述一部分；确定与所述说话声的所述第一转录的所述一部分对应的替代部分是最可能为正确替代部分的所述替代部分；以及获得所述说话声的所述第二转录，所述说话声的所述第二转录包括最可能为正确替代部分的所述替代部分。7.根据权利要求1所述的计算机实施的方法，其中：所述说话声的所述第一转录和所述说话声的所述第二转录被提供用于在计算设备的触摸屏显示器处输出；以及指示对所述说话声的所述第一转录的所述一部分的所述单个选择的所述数据响应于在所述计算设备的所述触摸屏显示器处的用户输入而被接收。8.一种用于纠正转录的文字中的字词的计算机实施的系统，所述系统包括：自动化语音识别器，可操作用于接收语音音频数据并且作为响应将所述语音音频数据转录成字词网格；以及计算设备，包括：麦克风，可操作用于接收语音音频并且生成所述语音音频数据，网络接口，可操作用于向所述自动化语音识别器发送所述语音音频数据并且作为响应从所述自动化语音识别器接收所述字词网格，显示器屏幕，可操作用于呈现来自所述字词网格的一个或者多个转录的字词，用户接口，可操作用于接收对所述转录的字词中的至少一个转录的字词的用户选择，一个或者多个处理器和存储指令的存储器，所述指令在由所述处理器执行时使得所述计算设备执行以下操作：提供所述用户接口，所述用户接口包括(i)用于输出说话声的第一转录的输出区域，以及(ii)与所述说话声的第二转录相关联的控件，其中所述说话声的所述第二转录代表对所述说话声的所述第一转录的替代识别结果，并且其中所述说话声的所述第一转录的一部分不同于所述说话声的所述第二转录的对应部分；在所述输出区域处呈现所述说话声的所述第一转录，其中所述说话声的所述第一转录包括来自所述字词网格的一个或者多个字词；接收指示对与所述说话声的所述第二转录相关联的所述控件的选择；以及更新所述输出区域以用所述说话声的所述第二转录取代所述说话声的所述第一转录。9.根据权利要求8所述的系统，其中所述字词网格包括与所述说话声的所述第一转录和所述说话声的所述第二转录的字词对应的节点以及在所述节点之间的边，所述边标识经过所述字词网格的可能路径，其中每个路径具有为正确的关联概率。10.根据权利要求9所述的系统，其中所述说话声的所述第一转录对应于经过所述字词网格的具有为正确的最高概率的路径。11.根据权利要求9所述的系统，其中所述说话声的所述第二转录对应于经过所述字词网格的具有为正确的次最高概率的路径。12.根据权利要求9所述的系统，其中所述说话声的所述第二转录对应于经过所述字词网格的作为除了经...

【专利技术属性】
技术研发人员：M·J·勒鲍，W·J·伯恩，J·N·吉科夫，B·M·巴林格尔，T·克里斯简森，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人