Methods, systems and devices for speech recognition, including computer programs coded on computer storage media. One method includes receiving the first audio data corresponding to the utterance; obtaining the first transcription of the first audio data; receiving instructions (i) selecting one or more terms of the first transcription and (ii) replacing one or more data of terms; determining corrections for one or more of the replaced terms classified as one or more of the selected terms; and responding to determining the corrections in the replaced terms. One or more corrections classified as one or more of the selected terms obtain the first part of the first audio data corresponding to one or more terms of the first transcription; and the first part of the first audio data associated with one or more terms of the first transcription is used to train the acoustic model for identifying one or more of the replacement terms. In the example implementation, an improved speech recognition system is provided, which can generate improved transcription of one or more terms from various pronunciations of one or more terms.
【技术实现步骤摘要】
【国外来华专利技术】使用校正的术语的声学模型训练
本说明书涉及语音识别。
技术介绍
设备可以包括用于响应设备的用户的话语的软件。一些话语可以包括给设备指令以呼叫电话号码、发送电话号码、操作应用或在移动设备或因特网上搜索信息。设备可以采用语音到文本或自动语音识别(ASR)处理来识别来自用户的话音(voice)输入。
技术实现思路
在示例实现方式中,提供了一种改进的语音识别系统,其可以从一个或多个术语的各种发音产生一个或多个术语的改进的转录。根据一个示例实现方式,语音识别系统从用户接收一个或多个术语的话语。作为响应,语音识别系统向用户设备提供话语的转录。当提供的转录不正确时,语音识别系统可以接收用户输入以校正转录的一个或多个特定术语。语音识别系统使用用户输入训练声学模型以校正一个或多个特定术语以及对应于的一个或多个特定术语的音频数据。通常,本说明书中描述的主题的一个创新方面可以体现在包括如下动作的方法中:接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中 ...
【技术保护点】
1.一种计算机实现的方法,包括:接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正;响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正,获得对应于第一转录的一个或多个术语的第一音频数据的第一部分;以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。
【技术特征摘要】
【国外来华专利技术】2016.07.29 US 15/224,1041.一种计算机实现的方法,包括:接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正;响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正,获得对应于第一转录的一个或多个术语的第一音频数据的第一部分;以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中的一个或多个。2.如权利要求1所述的方法,还包括:接收对应于话语的第二音频数据,所述第二音频数据包括对应于第一音频数据的第一部分的第二部分;获得第二音频数据的第二转录;从第二音频数据中辨别第二部分;使用训练的声学模型获得第二部分的校正的转录;以及获得将第二转录和校正的转录合并的转录。3.如权利要求1或2所述的方法,还包括:获得响应于将第二转录和校正的转录合并的转录的搜索结果;以及提供搜索结果中的一个或多个。4.如前述权利要求中任一项所述的方法,其中,确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个与替换术语中的一个或多个之间的语音相似性。5.如权利要求4所述的方法,其中,确定所述语音相似性包括计算选择的术语中的一个或多个中的每一个与替换术语中的一个或多个中的每一个之间的语音距离。6.如前述权利要求中任一项所述的方法,其中,确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个当中的连接。7.如前述权利要求中任一项所述的方法,其中,确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个是连续的。8.如前述权利要求中任一项所述的方法,其中,确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正包括确定选择的术语中的一个或多个中的每一个包括阈值数量的字符。9.一种系统,包括:处理器,被配置为施行计算机程序指令;以及用所述计算机程序指令编码的计算机存储介质,当由所述处理器施行所述计算机程序指令时,使所述系统执行操作,所述操作包括:接收对应于话语的第一音频数据;获得第一音频数据的第一转录;接收指示(i)对第一转录的一个或多个术语的选择和(ii)替换术语中的一个或多个的数据;确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正;响应于确定替换术语中的一个或多个被分类为选择的术语中的一个或多个的校正,获得对应于第一转录的一个或多个术语的第一音频数据的第一部分;以及使用与第一转录的一个或多个术语相关联的第一音频数据的第一部分来训练声学模型用于识别替换术语中...
【专利技术属性】
技术研发人员:O卡普拉洛瓦,EA切雷帕诺夫,D奥斯马科夫,M鲍姆尔,G斯科贝尔特森,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。