交互语音识别系统技术方案

技术编号：3044699 阅读：191 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及用于识别输入的口述短语的交互语音识别方法，交互语音识别系统，以及计算机可读介质。为了改善系统的存储器管理并增强例如道路交通的安全性，以及将用户交互减少至最低水平，本发明专利技术提出通过在每次迭代中考虑加载参考项目列表的可用存储器，来逐类别地迭代地分析输入的口述短语。更具体地，将特定类别的参考项目迭代地与口述短语的项目进行匹配，并且如果发现一个或多个匹配项目，则系统确定在下一迭代中为每个匹配参考项目加载参考项目列表的存储器是否足够。如果不够，则向用户请求补充输入。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及用来识别输入的口述短语的交互语音识别方法，交互语音识别系统，以及计算机可读介质。
技术介绍
随着由语音操作的应用系统的迅速普及，对可靠的语音识别系统的需求变得越来越重要。语音识别系统的难题在于不同的说话者性别、年龄、口音、说话者词汇、噪声水平和不同的环境。通常，语音识别系统首先将数字化的语音信号转换为一组有用的特征，如频率或固定速率(典型为每10-20毫秒一次)的能量水平。进一步，人类语音通常包括单音素(single phone)的序列。语音上相似的音素被分组成音位(phoneme),音位可区分不同的发声(utterance)。在语音识别中，语言的音位是通过隐藏马尔可夫模型(HMM)建模的，借此隐藏马尔可夫模型的每个状态是通过概率密度函数描述的。隐藏马尔可夫模型适合于语音识别，因为语音信号可被看作是10-20毫秒范围内的短时间静止信号。通过组合多个隐藏马尔可夫模型，可识别最可能的词。语音识别中遇到的主要问题之一是输入词随时间的变化。例如，在各种语言中，元音是以不同速度发出的。另一个问题是词的拼写相似或语音相似，这可以仅通过考虑先前输入的词的上下文或者通过请求用户进行补充输入来解决。许多论文和许多专利中都讨论并提出了语音识别系统。在 US2006/0074661中，提供了一种导航设备，其对用户的自由发言进行语音识别，其中从字典数据库中搜索包括在被识别语音的内容中的关键词，然后将这些词显示为兴趣点(Point of Interest)搜索的关键词。大多数错误出现在误识别的词的第一个音符中。该提出的设备使得可以通过...

【技术保护点】
一种通过语音识别系统交互地识别口述短语的方法，包括以下步骤：　　　　ａ）将类别ｎ的至少一个参考项目列表从数据库加载到列表存储器中，　　　　ｂ）确定类别ｎ的至少一个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目匹配，　　　　ｃ）通过类别ｎ的至少一个匹配参考项目来扩展类别ｎ－１的至少一个路径，以形成类别ｎ的至少一个路径，　　　　ｄ）确定所述列表存储器的存储容量是否足以为类别ｎ的每个路径加载类别ｎ＋１的各个参考项目列表，　　　　ｅ）如果不足，则基于补充用户输入来消除类别ｎ的至少一个路径，　　　　ｆ）卸载类别ｎ的所述至少一个参考项目列表，以及　　　　ｇ）为类别ｎ的每个路径加载类别ｎ＋１的参考项目列表。

【技术特征摘要】
EP 2006-11-30 06024859.81.一种通过语音识别系统交互地识别口述短语的方法，包括以下步骤a)将类别n的至少一个参考项目列表从数据库加载到列表存储器中，b)确定类别n的至少一个参考项目是否可与包括多个项目的输入的口述短语的其中一个项目匹配，c)通过类别n的至少一个匹配参考项目来扩展类别n-1的至少一个路径，以形成类别n的至少一个路径，d)确定所述列表存储器的存储容量是否足以为类别n的每个路径加载类别n+1的各个参考项目列表，e)如果不足，则基于补充用户输入来消除类别n的至少一个路径，f)卸载类别n的所述至少一个参考项目列表，以及g)为类别n的每个路径加载类别n+1的参考项目列表。2. 如权利要求l所述的方法，其中有N个不同的类别，并且类别 n的路径含有间隔N到n中的不同类别的匹配参考项目的串接。3. 如权利要求1和2所述的方法，其中步骤e)包括基于补充用户输入来消除类别m的匹配参考项目和消除含有类别m的被消除的匹配参考项目的类别n的所有路径。4. 如权利要求1至3中的任一项所述的方法，其中当在步骤d) 中确定所述列表存储器的存储容量不足以为类别n的每个路径加载类别n+l的各个参考项目列表时，基于补充用户输入来消除类别m以外的类别的匹配参考项目，并且消除含有m以外的级别的被消除的匹配参考项目的类别n的所有路径。5. 如权利要求1至4中的任一项所述的方法，其中如果在步骤d) 中确定所述列表存储器的存储容量不足以为类别n的每个路径加载类别n+l的各个参考项目列表，则选择具有最高可能性成为唯一地指定数据库的条目的路径的类别n的相应路径，并且为类别n的被选路径的匹配参考项目加载相应的参考项目列表。6. 如权利要求1至5中的任一项所述的方法，其中具有最高可能性成为唯一地指定数据库的条目的路径的类别n的相应路径，是基于当前车辆位置、当前或先前目的地或媒体文件当中的至少一个参数来确定的。7. 如权利要求1至6中的任一项所述的方法，包括如果对于类别 n-l的一路径，类别n的参考项目列表中没有相应项目匹配所述口述短语中的项目，则消除类别n-l的所述路径的步骤。8. 如权利要求1至7中的任一项所述的方法，包括确定对于类别 n的一个剩余路径，是否仅有一个可能的项目存在于类别n-l的路径的参考项目列表中，并使用由所述路径指定的数据库条目来启动应用程序的步骤。9. 如权利要求1至8中的任一项所述的方法，包括如果已经处理完所有类别N并且余下最低类别的多于一个的路径，则请求补充输入的步骤。10. 如权利要求1至9中的任一项所述的方法，其中如果余下最低类别的一个路径，则使用由所述路径指定的数据库条目来启动应用程序。11. 如权利要求1至10中的任一项所述的方法，其中路径指向表示媒体库条目的数据库条目，或导航路线引导服务的目的地，或用于操作插件式计算机的命令，或用于对装置进行控制的命令，或外部在线数据库的条目。12. 如权利要求1至11中的任一项所述的方法，其中所述口述短语的项目可由所述语音识别系统以任意顺序接收。13. 如权利要求1至12中的任一项所述的方法，其中所述口述短语的项目必须由所述语音识别系统以预定顺序接收。14. 如权利要求1至13中的任一项所述的方法，其中如果所述口述短语的项目和加载的列表的相应参考项目具有等于或高于阈值标准的语音相似性，则确定所述参考项目与所述项目匹配。15. 如权利要求1至14中的任一项所述的方法，其中甚至是在所述列表存储器的容量足够时，一旦出现匹配参考项目的语音相似性，所述语音识别系统就中断口述短语的输入。16. 如权利要求1至15中的任一项所述的方法，包括可视地或声学地输出潜在地匹配所述口述短语的项目的参考项目列表以允许用户通过从所述列表中选择哪个匹配的参考项目将被考虑以保持给定类别的路径，来提供补充输入的步骤。17. 如权利要求16所述的方法，其中参考项目在输出列表上的顺序基于它们与所述口述短语的项目匹配的可能性。18. 如权利要求16所述的方法，其中在声学地提供补充输入以将一个...

【专利技术属性】
技术研发人员：L柯尼希，R扎姆，A戈森贝格尔，
申请(专利权)人：哈曼贝克自动系统股份有限公司，
类型：发明
国别省市：DE[德国]

全部详细技术资料下载我是这个专利的主人