【技术实现步骤摘要】
【国外来华专利技术】语言模型的跨语种初始化相关申请的交叉引用本申请要求2011 年 4 月 25 日提交的、标题为 CROSS-LINGUALINITIALIZATION 0FLANGUAGE MODELS的美国申请序列N0.13/093, 176的优先权,其公开内容通过引用合并于此。
技术介绍
自动语音识别(“ASR”)引擎将语音转换成文本。在这样做时,ASR引擎通常依赖将每个话语的声音映射至候选词语或短语的声学模型,以及基于词语或短语的历史使用指定这些候选词语或短语中的哪些词语或短语最可能是正确的。为了改进识别准确性,ASR引擎使用不同的声学模型和语言模型来识别与不同上下文相关联的话语。例如,一个语言模型可以用于识别在用户录入文本消息时说出的话语,而不同语言模型可以在用户录入搜索条件时使用。一般而言,每个语言模型通常使用已经由ASR引擎或另一系统随时间收集的词语或短语语料库建立。例如,上下文特定语言模型可以根据先前语音识别结果的日志或者多个用户在相似上下文的先前文本输入的日志进行估计。特定语料库中的词语或短语可以包括已经由用户明确提供的词语或短语,或者已经由ASR引擎识别的候选转录 ...
【技术保护点】
一种由至少一个处理器执行的计算机实现的方法,所述方法包括:从特定于给定语言和目标上下文的现有语料库接收日志语音识别结果;通过将所述日志语音识别结果从所述给定语言机器转译成不同目标语言生成目标语料库;以及使用所述目标语料库估计特定于所述不同目标语言和所述相同目标上下文的语言模型。
【技术特征摘要】
【国外来华专利技术】2011.04.25 US 13/093,1761.一种由至少一个处理器执行的计算机实现的方法,所述方法包括:从特定于给定语言和目标上下文的现有语料库接收日志语音识别结果;通过将所述日志语音识别结果从所述给定语言机器转译成不同目标语言生成目标语料库;以及使用所述目标语料库估计特定于所述不同目标语言和所述相同目标上下文的语言模型。2.根据权利要求1所述的方法,其中估计所述语言模型包括对每个不同词语或短语在所述目标语料库中的每次出现计数。3.根据权利要求2所述的方法,其中估计所述语言模型包括确定每个不同词语或短语在所述目标语料库与所有不同词语或短语在所述目标语料库中出现的相对频率。4.根据权利要求1所述的方法,其中所述目标上下文与特定应用或应用状态、操作系统、地理位置或区域、或者环境或周围特性相关联。5.根据权利要求1所述的方法,其中所述目标上下文是文本消息传输上下文、电子邮件上下文、搜索查询上下文、话音拨号上下文或导航上下文。6.根据权利要求1所述的方法,其中生成所述目标语料库包括过滤所述语音识别结果,然后仅机器转译所过滤的语音识别结果。7.根据权利要求6所述的方法,其中过滤所述语音识别结果包括过滤与低于预定阈值的语音识别置信得分相关联的语音识别结果。8.根据权利要求6所述的方法,其中过滤所述语音识别结果包括过滤表示缩写的语音识别结果。9.根据权利要求1所述的方法,其中生成所述目标语料库包括在接收所述语音识别结果时实时机器转译所述现有语料库的所述语音识别结果。10.根据权利要求1所述的方法,其中生成所述目标语料库进一步包括将机器转译的语音识别结果以及特定于所述目标语言和所述目标上下文的现有部分语料库包括在所述目标语料库中。11.一种系统,包括:计算机可读存储介质,可操作用于存储目标语料库;机器转译引擎,可操作用于将特定于给定语言和目标上下文的现有语料库的日志语音识别结果从所述给定语言转译成不同目标语言,其中所述转译的结果作为所述目标语料库存...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。