交互语音识别系统技术方案

技术编号:3044699 阅读:191 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及用于识别输入的口述短语的交互语音识别方法,交互语音识别系统,以及计算机可读介质。为了改善系统的存储器管理并增强例如道路交通的安全性,以及将用户交互减少至最低水平,本发明专利技术提出通过在每次迭代中考虑加载参考项目列表的可用存储器,来逐类别地迭代地分析输入的口述短语。更具体地,将特定类别的参考项目迭代地与口述短语的项目进行匹配,并且如果发现一个或多个匹配项目,则系统确定在下一迭代中为每个匹配参考项目加载参考项目列表的存储器是否足够。如果不够,则向用户请求补充输入。

【技术实现步骤摘要】

本专利技术涉及用来识别输入的口述短语的交互语音识别方法,交互 语音识别系统,以及计算机可读介质。
技术介绍
随着由语音操作的应用系统的迅速普及,对可靠的语音识别系统 的需求变得越来越重要。语音识别系统的难题在于不同的说话者性别、年龄、口音、说话 者词汇、噪声水平和不同的环境。通常,语音识别系统首先将数字化的语音信号转换为一组有用的特征,如频率或固定速率(典型为每10-20毫秒一次)的能量水平。进 一步,人类语音通常包括单音素(single phone)的序列。语音上相似 的音素被分组成音位(phoneme),音位可区分不同的发声(utterance)。 在语音识别中,语言的音位是通过隐藏马尔可夫模型(HMM)建模的, 借此隐藏马尔可夫模型的每个状态是通过概率密度函数描述的。隐藏 马尔可夫模型适合于语音识别,因为语音信号可被看作是10-20毫秒范 围内的短时间静止信号。通过组合多个隐藏马尔可夫模型,可识别最 可能的词。语音识别中遇到的主要问题之一是输入词随时间的变化。例如, 在各种语言中,元音是以不同速度发出的。另一个问题是词的拼写相 似或语音相似,这可以仅通过考虑先前输入的词的上下文或者通过请 求用户进行补充输入来解决。许多论文和许多专利中都讨论并提出了语音识别系统。在 US2006/0074661中,提供了一种导航设备,其对用户的自由发言进行 语音识别,其中从字典数据库中搜索包括在被识别语音的内容中的关 键词,然后将这些词显示为兴趣点(Point of Interest)搜索的关键 词。大多数错误出现在误识别的词的第一个音符中。该提出的设备使得可以通过用户操作来校正关键词的误识别。如果需要校正关键词, 则显示这些词并且请求用户从显示的词中选择正确的关键词。在例如基于车辆的导航设备中,由于在语音输入的情况中有误识 别的可能性,所以识别结果需要通过语音输出或触摸面板上显示的键 盘或导航设备中设置的遥控装置来确认。在传统语音识别系统中,整 个口述短语被声学地输出,或者被可视地输出在用户必须从中选择的 显示器上。因此,整个口述的地址必须通过语音再次输入,并且系统 试图再一次识别该地址或者用户必须读取显示器上的整个地址并确认 正确的地址。如果有一个词没有被识别,则整个口述输入的重复,通常会需要 进一步的用户交互以便正确地检测整个口述短语。然而,甚至是在操 作触摸面板上的软键盘或操作遥控装置的方法中,许多动作仍必须重 复地执行以校正误识别,并且这在诸如汽车的环境中可能是麻烦和危 险的。进一步,该方法丧失了免手操作的简单操作和便利性,而这些 是语音识别的优点。而且,由于需要更多存储容量来存储大量地址、媒体库等而导致 的成本增加的问题,在当前的语音识别系统中还没有得到满意的解决。解决这些缺点将极大地有益于提高用户友好性和减小由于智能存 储管理而导致的语音识别系统的成本。
技术实现思路
因此,需要改进系统的存储管理。联系到该需要,将系统存储器 的成本保持在最低也会是合乎需要的。为了增强例如道路交通方面的 安全性,进一步的需要是将用户交互减小至最低水平。这些需要中的至少一个是通过独立权利要求的主题解决的。有利 实施例由从属权利要求界定。本专利技术的一个方面是将参考项目(term)与输入的口述短语的项目 进行匹配。取决于存储容量,形成匹配的参考项目的各种可选的串接 (concatenation)。例如,只要有足够的存储容量可用于为每个先前匹 配的参考项目加载各个参考项目列表,就可以保持这些串接。如果然 后将会超出存储容量,则可以请求用户进行补充输入以减小所存储的匹配参考项目的串接的数目,并随之减小存储器中为了加载与剩余的 匹配参考项目/串接相对应的列表而所需的空间。本专利技术的一个优点是可提供节省资源的语音识别系统。进一步, 在超出存储容量的情况下,语音识别系统可仅需要用户对初始输入的 口述短语的单个项目进行补充输入,而无需请求完全重复口述短语。 系统对补充用户输入的请求可以例如考虑语音和拼写相似性这二者。语音识别系统的下面的实施例可以例如在基于车辆的环境中的导 航系统中或在移动装置(如个人数字助理、手持装置、移动电话等) 中实现。根据本专利技术的一个实施例,提供了通过语音识别系统交互地识别口述短语的语音识别方法。根据该方法,类别n的至少一个参考项目 列表从数据库加载到列表存储器中。随即,可以确定类别n的至少一 个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目 匹配。如果至少一个参考项目可与口述短语的项目匹配,则类别n-l 的至少一个路径可通过类别n的该至少一个匹配参考项目而得到扩展 以形成类别n的至少一个路径。对于最高类别,路径在最初被建立并 在随后的类别得到扩展。因此,可以确定列表存储器的存储容量是否足以为类别n的每个 路径加载类别n+l的各个参考项目列表。如果确定存储容量不够,则 可以基于补充用户输入来消除类别n的至少一个路径。然后,可以卸 载类别n的该至少一个参考项目列表,并且可以为类别n的每个路径 加载类别n+l的各个参考项目列表。在本专利技术的另一实施例中,可以有N个不同的类别,并且级别n 的路径含有间隔N到n中的不同类别的匹配参考项目的串接。应该注 意N和n都是整数。根据另一实施例,基于补充用户输入来消除类别n的至少一个路 径可包括,基于补充用户输入来消除类别m的匹配参考项目和消除含 有类别m的被消除的匹配参考项目的类别n的所有路径。这可能是有 利的,如果先前级别的匹配参考项目具有语音相似性并且在声学地澄 清方面难以区分的话。进一步,根据本专利技术的另一实施例,在确定列表存储器的存储容量不足以为类别n的每个路径加载类别n+l的各个参考项目列表后, 可以基于补充用户输入来消除类别m以外的类别的匹配参考项目,并 且可以消除含有m以外的级别的被消除的匹配参考项目的类别n的所 有路径。根据本专利技术的另一实施例,在确定列表存储器的存储容量不足以 为类别n的每个路径加载类别n+l的各个参考项目列表后,可选择具 有最高可能性成为唯一地指定数据库的条目(entry)的路径的类别n 的相应路径,并且可为类别n的被选路径的匹配参考项目加载相应的 参考项目列表。进一步,根据本专利技术的另一实施例,具有最高可能性成为唯一地 指定数据库的条目的路径的类别n的相应路径,可基于当前车辆位置、 当前或先前目的地或媒体文件当中的至少一个参数来确定。在本专利技术的另一实施例中,如果对于类别n-l的一路径,级别n 的参考项目列表中没有相应项目匹配口述短语的项目,则可消除类别 n-l的该路径。进一步,根据本专利技术的另一实施例,可以确定对于级别n的一个 剩余路径,是否仅有一个可能的项目存在于级别n-l的路径的参考项目 列表中,并使用由该路径指定的数据库条目来启动应用程序。根据另一实施例,如果所有类别N都被处理完(passed)并且余 下最低类别的多于一个的路径,则可以请求补充输入。根据本专利技术的另一实施例,如果余下最低类别的一个路径,则可 使用由该路径指定的数据库条目来启动应用程序。在本专利技术的另一实施例中,路径可指向表示媒体库条目的数据 库条目,或导航路线引导服务的目的地,或用于操作插件式计算机 (board computer)的命令,或用于对装置进行控制的命令本文档来自技高网
...

【技术保护点】
一种通过语音识别系统交互地识别口述短语的方法,包括以下步骤:    a)将类别n的至少一个参考项目列表从数据库加载到列表存储器中,    b)确定类别n的至少一个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目匹配,    c)通过类别n的至少一个匹配参考项目来扩展类别n-1的至少一个路径,以形成类别n的至少一个路径,    d)确定所述列表存储器的存储容量是否足以为类别n的每个路径加载类别n+1的各个参考项目列表,    e)如果不足,则基于补充用户输入来消除类别n的至少一个路径,    f)卸载类别n的所述至少一个参考项目列表,以及    g)为类别n的每个路径加载类别n+1的参考项目列表。

【技术特征摘要】
EP 2006-11-30 06024859.81.一种通过语音识别系统交互地识别口述短语的方法,包括以下步骤a)将类别n的至少一个参考项目列表从数据库加载到列表存储器中,b)确定类别n的至少一个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目匹配,c)通过类别n的至少一个匹配参考项目来扩展类别n-1的至少一个路径,以形成类别n的至少一个路径,d)确定所述列表存储器的存储容量是否足以为类别n的每个路径加载类别n+1的各个参考项目列表,e)如果不足,则基于补充用户输入来消除类别n的至少一个路径,f)卸载类别n的所述至少一个参考项目列表,以及g)为类别n的每个路径加载类别n+1的参考项目列表。2. 如权利要求l所述的方法,其中有N个不同的类别,并且类别 n的路径含有间隔N到n中的不同类别的匹配参考项目的串接。3. 如权利要求1和2所述的方法,其中步骤e)包括基于补充用 户输入来消除类别m的匹配参考项目和消除含有类别m的被消除的匹 配参考项目的类别n的所有路径。4. 如权利要求1至3中的任一项所述的方法,其中当在步骤d) 中确定所述列表存储器的存储容量不足以为类别n的每个路径加载类 别n+l的各个参考项目列表时,基于补充用户输入来消除类别m以外 的类别的匹配参考项目,并且消除含有m以外的级别的被消除的匹配 参考项目的类别n的所有路径。5. 如权利要求1至4中的任一项所述的方法,其中如果在步骤d) 中确定所述列表存储器的存储容量不足以为类别n的每个路径加载类 别n+l的各个参考项目列表,则选择具有最高可能性成为唯一地指定数据库的条目的路径的类别n的相应路径,并且为类别n的被选路径 的匹配参考项目加载相应的参考项目列表。6. 如权利要求1至5中的任一项所述的方法,其中具有最高可能 性成为唯一地指定数据库的条目的路径的类别n的相应路径,是基于 当前车辆位置、当前或先前目的地或媒体文件当中的至少一个参数来 确定的。7. 如权利要求1至6中的任一项所述的方法,包括如果对于类别 n-l的一路径,类别n的参考项目列表中没有相应项目匹配所述口述短 语中的项目,则消除类别n-l的所述路径的步骤。8. 如权利要求1至7中的任一项所述的方法,包括确定对于类别 n的一个剩余路径,是否仅有一个可能的项目存在于类别n-l的路径的 参考项目列表中,并使用由所述路径指定的数据库条目来启动应用程 序的步骤。9. 如权利要求1至8中的任一项所述的方法,包括如果已经处理 完所有类别N并且余下最低类别的多于一个的路径,则请求补充输入 的步骤。10. 如权利要求1至9中的任一项所述的方法,其中如果余下最低 类别的一个路径,则使用由所述路径指定的数据库条目来启动应用程 序。11. 如权利要求1至10中的任一项所述的方法,其中路径指向 表示媒体库条目的数据库条目,或导航路线引导服务的目的地,或用 于操作插件式计算机的命令,或用于对装置进行控制的命令,或外部 在线数据库的条目。12. 如权利要求1至11中的任一项所述的方法,其中所述口述短语的项目可由所述语音识别系统以任意顺序接收。13. 如权利要求1至12中的任一项所述的方法,其中所述口述短语的项目必须由所述语音识别系统以预定顺序接收。14. 如权利要求1至13中的任一项所述的方法,其中如果所述口 述短语的项目和加载的列表的相应参考项目具有等于或高于阈值标准 的语音相似性,则确定所述参考项目与所述项目匹配。15. 如权利要求1至14中的任一项所述的方法,其中甚至是在所 述列表存储器的容量足够时, 一旦出现匹配参考项目的语音相似性, 所述语音识别系统就中断口述短语的输入。16. 如权利要求1至15中的任一项所述的方法,包括可视地或声 学地输出潜在地匹配所述口述短语的项目的参考项目列表以允许用户 通过从所述列表中选择哪个匹配的参考项目将被考虑以保持给定类别 的路径,来提供补充输入的步骤。17. 如权利要求16所述的方法,其中参考项目在输出列表上的顺 序基于它们与所述口述短语的项目匹配的可能性。18. 如权利要求16所述的方法,其中在声学地提供补充输入以将 一个...

【专利技术属性】
技术研发人员:L柯尼希R扎姆A戈森贝格尔
申请(专利权)人:哈曼贝克自动系统股份有限公司
类型:发明
国别省市:DE[德国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利