在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符制造技术

技术编号：11685068 阅读：169 留言：0更新日期：2015-07-06 16:58

描述了用于汉语语音识别输入的用户消歧的计算机实现的方法。从用户接收用于自动语音识别的汉语语音输入。也从用户接收描述语音输入中的一个或多个字符的自发字符描述提示。然后基于字符描述提示来执行语音输入的自动语音识别以确定对应于语音输入的一个或多个汉语语言字符。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符本申请要求通过引用被并入本文的2012年8月29日提交的美国临时专利申请61/694，450的优先权。
本专利技术涉及汉语中的自动语音识别，且具体地涉及基于自发用户字符描述提示的汉语字符的消歧。
技术介绍
自动语音识别(ASR)系统确定语音输入的语义意义。通常，输入语音被处理成一序列数字语音特征帧。每个语音特征帧可被考虑为代表在短的语音时间窗期间存在的语音信号的各种特征的多维矢量。例如，可从语音信号的短时傅立叶变换频谱的倒谱特征(MFCC)—一给定频带的短时功率或分量一一以及相应的第一和第二阶导数(“ δ ”和“ S-δ ”)得到每个语音帧的多维矢量。在连续识别系统中，可变数量的语音帧被组织为代表后面是停顿的一段时间的语音的“发音”，这在现实生活中不严谨地对应于说出的句子或短语。ASR系统比较多个输入语音帧以查找最好地匹配语音特征特性的统计模型，并接着确定与统计模型相关的相应的代表性文本或语义意义。现代统计模型是状态序列模型，例如使用高斯分布的混合来模仿语音声音(通常是音素)的隐马尔可夫模型(HMM)。这些统计模型常常代表被称为PEL(语音要素)的特定上下文中的音素，例如具有已知的左上下文和/或右上下文的三音子或音素。状态序列模型可按比例增加以将词表示为声音建模的音素的连接序列、或将短语或句子表示为词的连接序列。当统计模型被一起组织为词、短语和句子时，额外的语言相关的信息也一般合并到以语言建模的形式的模型中。与最佳匹配模型结构相关的词或短语被称为识别候选项或假设。系统可产生单个最佳识...
在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符

【技术保护点】
一种使用至少一个硬件实现的计算机处理器用于汉语语音识别输入的用户消歧的计算机实现的方法，所述方法包括：从用户接收汉语语音输入用于自动语音识别；从所述用户接收描述在所述语音输入中的一个或多个字符的自发字符描述提示；以及基于字符描述提示，使用所述语音输入的自动语音识别来确定对应于所述语音输入的一个或多个汉语语言字符。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：李伟，徐然，任晓琳，
申请(专利权)人：纽昂斯通讯公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人