当前位置: 首页 > 专利查询>王东篱专利>正文

基于有限集语音识别的人机交互方法与装置制造方法及图纸

技术编号:3046497 阅读:218 留言:0更新日期:2012-04-11 18:40
一种基于有限集语音识别的人机交互方法,其特征在于,以预先设定的问句和有限集答句结合计算机语音识别技术来达到人机交互,包括以下步骤:    1.1)计算机装置输出一个提问;    1.2)计算机以声音或显示方式中的至少一种,提示2-20个句子组成的与上述提问关联的有限集目标答句,使用者择其一,对计算机语音输入设备,念出这个回答的读音;    1.3)计算机对输入的使用者语音,与1.2)中的有限集目标答句模板逐个进行失真测度,以比对确定此输入语音为上述有限集目标答句中的某一个;    1.4)在确定这个识别结果之后,计算机程序按所预定上下逻辑关系,发出语意向下连贯的新问题,进入新一轮对话场景,即再重复步骤1.1),1.2)与1.3),而使对话不断向前延续,直至某一训练单元结束。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及人机交互技术,具体涉及计算机语音识别技术和计算机辅助语言学习技术,即一种利用计算机语音识别技术模拟人机对话情景、技巧性利用现有语音识别技术水平,以使用者的真实语音与计算机互动的人机交互方法及装置。
技术介绍
语言知识的学习过程,从语言信息学的角度来看是以语言作为信息载体,进行采集、吸收、处理、储存的过程。在语言的学习中,对话情景,特别是对确定情景下特定问题的准确应答并反复训练的过程,是语言学习(包括母语学习在内)的基本机理,也是最直接有效的学习过程。自动语音识别(Automatic Speech Recognition),简称ASR,即对一位发音者发出的语音进行判别确定的过程,是以计算机实现“声音”到“文字或指令”转换的技术。一个语音识别系统工作时,首先将话筒(MIC)输入的标准语音信号进行放大,带通滤波,A/D变换后,存入RAM区内,这形成该语音的模板。这个过程称为系统的”学习”或”训练”,多个这种存入RAM的模板组成模板库。一个未知的语音信号也经上述各电路,由CPU将此信号的数据存入RAM区内某一特定区,然后将此未知信号与区内各目标模板逐一比对,按某一种识别算法,进行计算测度,再经识别决策,将识别测度失真最小的1个模板输出做为识别结果,或同时按业务逻辑要求,执行某个动作。以计算机语音识别技术为基础,以人机对话方式建构模拟情景对话的学习模式是语言学习机器辅助方法的重要发展方向。这种方式包括对话情景设计、视听输出、人机交互过程、智能判断以及评价和改善建议,通过虚拟现实技术来营造一种接近于真实对话情景的环境与气氛,培养学习者以该语言进行实际会话的能力。这就需要一种模拟自然语言学习机理的最佳技术解决方案,而到目前为止尚未有类似方法与装置能得以实现。
技术实现思路
本专利技术要解决的技术问题是,如何提供一种能模拟真实对话情景的人机交互方法,并利用现有的计算机语音识别技术和计算机硬件,实现一种具有实用意义的语言学习与训练装置。换言之,本专利技术的目的是构造一种实用的语音识别系统,能够解决以下主要问题1)控制噪声对识别过程时的干扰;2)对提问句和识别目标句(答句)的设计,即编制脚本,使之可经济地被实现;3)一个其成本可以支持广泛应用的语音识别系统的硬件方案的实现。总之,一个具有商业价值且实用的语音识别产品,是能全面兼顾以上3者的完整解决方案。本专利技术另一要解决的技术问题是如何提供实现该方法的计算机装置,在该装置中,实现本专利技术所述的人机对话过程。本专利技术上述技术问题这样解决,构造一种基于有限集语音识别的人机交互方法,其特征在于,以预先设定的问句和有限集答句结合计算机语音识别技术来达到人机交互,包括以下步骤1.1)计算机装置输出一个提问;1.2)计算机以声音或显示方式中的至少一种,提示2-20个句子组成的与上述提问关联的有限集目标答句,使用者择其一,对计算机语音输入设备,念出这个回答的读音;1.3)计算机对输入的使用者语音,与1.2)中的有限集目标答句模板逐个进行失真测度,以比对确定此输入语音为上述有限集目标答句中的某一个;1.4)在确定这个识别结果之后,计算机程序按所预定上下逻辑关系,发出语意向下连贯的新问题,进入新一轮对话场景,即再重复步骤1.1),1.2)与1.3),而使对话不断向前延续,直至某一训练单元结束。在上述方法中,所述提问与有限集目标答句的全体为预先编撰的脚本,是一个多路径可选树形结构,其中一个提问句与一组有限集目标答句对应,任一回答句与一个新提问句唯一对应,依此确定人机对话发展的逻辑关系。在上述方法中,所述提问句是指装置自动发出的一个引导性语音,由发出预定的第一个语音作为对话过程的开始,在对话过程之中,由上一轮对话中装置语音识别出的回答句确定下一个新的问句。在上述方法中,预先编撰脚本中对一个问题的2-20个回答句时,使其互相之间的语音数字特征区别足够大以便于语音识别。在上述方法中,在所述步骤1.3)中,根据得到的失真测度,提供对用户发音的评价。在上述方法中,也可设定其中的提问句与答句均为唯一确定对应,人机对话的流程沿一预先设定的固定路径进行;语音识别技术仅用于根据得到的失真测度对使用者的发音质量给予评价。本专利技术技术问题解决的另一方面是构造一种基于有限集语音识别的人机交互装置,包括计算机、插在计算机扩展槽内的语音卡,以及与语音卡连接的耳机及麦克风,所述语音卡包括连接麦克风的语音输入信号处理单元、连接耳机的语音输出单元以及连接在语音输入信号处理单元与语音输出单元之间的语音数字信号处理单元,还包括内含有限目标语音模板库、提问语音资料库、主控程序以及语音识别程序的控制程序,用于执行以下步骤7.1)通过显示器或耳机输出一个提问;7.2)通过耳机或显示器输出提示2-20个有限集目标答句,使用者择一,对麦克风发声念出这个回答的读音;7.3)通过麦克风输入使用者语音,与1.2)中2-20个有限集目标答句的模板进行识别比对,确定此输入语音归属于这2-20个某一个;7.4)在确定这个识别结果之后,计算机程序按所编制的脚本,发出语意向下连贯的新一问题,进入新一轮对话场景,即再重复步骤7.1),7.2)与7.3),而使对话不断向前延续,直至结束某一训练单元结束。在上述装置中,所述麦克风为专业定向麦克风,所述耳机是头戴式附专业定向麦克风的耳机,采用头戴式耳机与定向话筒为一体结构以保证较高的输入语音信噪比。在上述装置中,采用双声道系统分别输出提问句与提示待识别的目标答句,所述双声道系统包括双通道的语音信号输出放大单元,外接的头戴式双声道耳机。在上述装置中,还包括自动侦测外界噪声程序,用于在检测到较大外部噪音时以文字与声音提示使用者使用时离开高噪声环境。实施本专利技术提供的基于有限集语音识别的人机交互方法与装置,将脚本设计、计算机语音识别技术与相关计算机硬件三者有机结合,组成一个人机语音互动系统装置,能重构教学与训练意义上的对话情景,用于语言训练与学习之目的。附图说明图1是实现本专利技术基于有限集语音识别的人机交互方法的流程示意图;图2是实现本专利技术基于有限集语音识别的人机交互方法的语音资料库示例,仅列出二级流程流程示意图;图3是实现本专利技术基于有限集语音识别的人机交互方法的脚本的对话流程树形结构示意图。图4是实施例中人机对话过程示意图;图5是本专利技术基于有限集语音识别的人机交互装置的逻辑结构示意图;图6是图5装置中语音卡的电路原理示意图。具体实施例方式为实现本专利技术,首先要编制出一套对话流程脚本,对话脚本由问句与答句组成,其中,每一问句有多个答句(2-20个)对应,每一答句仅与下级一个新的问句对应,这样的问句与答句的全体构成了一个树形结构的脚本。这些问句与答句包含有拟传授的语言学知识如发音、语法、句型、表达法及词汇等,又设计得贴近真实对话情景,语意连贯。通过设计软件,可以产生以一个问句与一组有限个答句构成对话情景,以计算机装置首先输出问句,使用者选择上述有限个答句之一,发音回答,本专利技术装置对其发音进行识别,判断的范围仅在预先给定的这有限个答句之中。识别出的某答句对应了一个新的问句,所输出的这个新问句与一组新的答句又构成下一对话场景,从而不断人机延续对话过程。本专利技术由于预先设定的小数量答句反向限定使用者的发音选择范围,同时借助预编本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于有限集语音识别的人机交互方法,其特征在于,以预先设定的问句和有限集答句结合计算机语音识别技术来达到人机交互,包括以下步骤1.1)计算机装置输出一个提问;1.2)计算机以声音或显示方式中的至少一种,提示2-20个句子组成的与上述提问关联的有限集目标答句,使用者择其一,对计算机语音输入设备,念出这个回答的读音;1.3)计算机对输入的使用者语音,与1.2)中的有限集目标答句模板逐个进行失真测度,以比对确定此输入语音为上述有限集目标答句中的某一个;1.4)在确定这个识别结果之后,计算机程序按所预定上下逻辑关系,发出语意向下连贯的新问题,进入新一轮对话场景,即再重复步骤1.1),1.2)与1.3),而使对话不断向前延续,直至某一训练单元结束。2.根据权利要求1所述方法,其特征在于,所述提问与有限集目标答句的全体为预先编撰的脚本,是一个多路径可选树形结构,其中一个提问句与一组有限集目标答句对应,任一回答句与一个新提问句唯一对应,依此确定人机对话发展的逻辑关系。3.根据权利要求1或2所述方法,其特征在于,所述提问句是指装置自动发出的一个引导性语音,由发出预定的第一个语音作为对话过程的开始,在对话过程之中,由上一轮对话中装置语音识别出的回答句确定下一个新的问句。4.根据权利要求2所述方法,其特征还在于,预先编撰脚本中对一个问题的2-20个回答句时,使这些回答句互相之间的语音数字特征区别足够大以便于语音识别。5.根据权利要求1-4中任何一项所述方法,其特征还在于,在所述步骤1.3)中,根据得到的失真测度,提供对用户发音的评价。6.根据权利要求1所述方法,其特征在于,可设定其中的提问句与答句均为唯一确定对应,人...

【专利技术属性】
技术研发人员:王东篱
申请(专利权)人:王东篱
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术