【技术实现步骤摘要】
本专利技术涉及用来识别输入的口述短语的交互语音识别方法,交互 语音识别系统,以及计算机可读介质。
技术介绍
随着由语音操作的应用系统的迅速普及,对可靠的语音识别系统 的需求变得越来越重要。语音识别系统的难题在于不同的说话者性别、年龄、口音、说话 者词汇、噪声水平和不同的环境。通常,语音识别系统首先将数字化的语音信号转换为一组有用的特征,如频率或固定速率(典型为每10-20毫秒一次)的能量水平。进 一步,人类语音通常包括单音素(single phone)的序列。语音上相似 的音素被分组成音位(phoneme),音位可区分不同的发声(utterance)。 在语音识别中,语言的音位是通过隐藏马尔可夫模型(HMM)建模的, 借此隐藏马尔可夫模型的每个状态是通过概率密度函数描述的。隐藏 马尔可夫模型适合于语音识别,因为语音信号可被看作是10-20毫秒范 围内的短时间静止信号。通过组合多个隐藏马尔可夫模型,可识别最 可能的词。语音识别中遇到的主要问题之一是输入词随时间的变化。例如, 在各种语言中,元音是以不同速度发出的。另一个问题是词的拼写相 似或语音相似,这可以仅通过考虑先前输入的词的上下文或者通过请 求用户进行补充输入来解决。许多论文和许多专利中都讨论并提出了语音识别系统。在 US2006/0074661中,提供了一种导航设备,其对用户的自由发言进行 语音识别,其中从字典数据库中搜索包括在被识别语音的内容中的关 键词,然后将这些词显示为兴趣点(Point of Interest)搜索的关键 词。大多数错误出现在误识别的词的第一个音符中。该提出的设备使得可以通过 ...
【技术保护点】
一种通过语音识别系统交互地识别口述短语的方法,包括以下步骤: a)将类别n的至少一个参考项目列表从数据库加载到列表存储器中, b)确定类别n的至少一个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目匹配, c)通过类别n的至少一个匹配参考项目来扩展类别n-1的至少一个路径,以形成类别n的至少一个路径, d)确定所述列表存储器的存储容量是否足以为类别n的每个路径加载类别n+1的各个参考项目列表, e)如果不足,则基于补充用户输入来消除类别n的至少一个路径, f)卸载类别n的所述至少一个参考项目列表,以及 g)为类别n的每个路径加载类别n+1的参考项目列表。
【技术特征摘要】
EP 2006-11-30 06024859.81.一种通过语音识别系统交互地识别口述短语的方法,包括以下步骤a)将类别n的至少一个参考项目列表从数据库加载到列表存储器中,b)确定类别n的至少一个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目匹配,c)通过类别n的至少一个匹配参考项目来扩展类别n-1的至少一个路径,以形成类别n的至少一个路径,d)确定所述列表存储器的存储容量是否足以为类别n的每个路径加载类别n+1的各个参考项目列表,e)如果不足,则基于补充用户输入来消除类别n的至少一个路径,f)卸载类别n的所述至少一个参考项目列表,以及g)为类别n的每个路径加载类别n+1的参考项目列表。2. 如权利要求l所述的方法,其中有N个不同的类别,并且类别 n的路径含有间隔N到n中的不同类别的匹配参考项目的串接。3. 如权利要求1和2所述的方法,其中步骤e)包括基于补充用 户输入来消除类别m的匹配参考项目和消除含有类别m的被消除的匹 配参考项目的类别n的所有路径。4. 如权利要求1至3中的任一项所述的方法,其中当在步骤d) 中确定所述列表存储器的存储容量不足以为类别n的每个路径加载类 别n+l的各个参考项目列表时,基于补充用户输入来消除类别m以外 的类别的匹配参考项目,并且消除含有m以外的级别的被消除的匹配 参考项目的类别n的所有路径。5. 如权利要求1至4中的任一项所述的方法,其中如果在步骤d) 中确定所述列表存储器的存储容量不足以为类别n的每个路径加载类 别n+l的各个参考项目列表,则选择具有最高可能性成为唯一地指定数据库的条目的路径的类别n的相应路径,并且为类别n的被选路径 的匹配参考项目加载相应的参考项目列表。6. 如权利要求1至5中的任一项所述的方法,其中具有最高可能 性成为唯一地指定数据库的条目的路径的类别n的相应路径,是基于 当前车辆位置、当前或先前目的地或媒体文件当中的至少一个参数来 确定的。7. 如权利要求1至6中的任一项所述的方法,包括如果对于类别 n-l的一路径,类别n的参考项目列表中没有相应项目匹配所述口述短 语中的项目,则消除类别n-l的所述路径的步骤。8. 如权利要求1至7中的任一项所述的方法,包括确定对于类别 n的一个剩余路径,是否仅有一个可能的项目存在于类别n-l的路径的 参考项目列表中,并使用由所述路径指定的数据库条目来启动应用程 序的步骤。9. 如权利要求1至8中的任一项所述的方法,包括如果已经处理 完所有类别N并且余下最低类别的多于一个的路径,则请求补充输入 的步骤。10. 如权利要求1至9中的任一项所述的方法,其中如果余下最低 类别的一个路径,则使用由所述路径指定的数据库条目来启动应用程 序。11. 如权利要求1至10中的任一项所述的方法,其中路径指向 表示媒体库条目的数据库条目,或导航路线引导服务的目的地,或用 于操作插件式计算机的命令,或用于对装置进行控制的命令,或外部 在线数据库的条目。12. 如权利要求1至11中的任一项所述的方法,其中所述口述短语的项目可由所述语音识别系统以任意顺序接收。13. 如权利要求1至12中的任一项所述的方法,其中所述口述短语的项目必须由所述语音识别系统以预定顺序接收。14. 如权利要求1至13中的任一项所述的方法,其中如果所述口 述短语的项目和加载的列表的相应参考项目具有等于或高于阈值标准 的语音相似性,则确定所述参考项目与所述项目匹配。15. 如权利要求1至14中的任一项所述的方法,其中甚至是在所 述列表存储器的容量足够时, 一旦出现匹配参考项目的语音相似性, 所述语音识别系统就中断口述短语的输入。16. 如权利要求1至15中的任一项所述的方法,包括可视地或声 学地输出潜在地匹配所述口述短语的项目的参考项目列表以允许用户 通过从所述列表中选择哪个匹配的参考项目将被考虑以保持给定类别 的路径,来提供补充输入的步骤。17. 如权利要求16所述的方法,其中参考项目在输出列表上的顺 序基于它们与所述口述短语的项目匹配的可能性。18. 如权利要求16所述的方法,其中在声学地提供补充输入以将 一个...
【专利技术属性】
技术研发人员:L柯尼希,R扎姆,A戈森贝格尔,
申请(专利权)人:哈曼贝克自动系统股份有限公司,
类型:发明
国别省市:DE[德国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。