一种语音驱动的智能人机交互方法技术

技术编号:14559583 阅读:132 留言:0更新日期:2017-02-05 14:41
本发明专利技术公开了一种语音驱动的智能人机交互方法。其处理流程为:用户在客户端通过语音告诉系统自己的需求;系统接收到语音指令后,利用语音识别技术将语音识别成字符串,进而根据语义库就解析用户输入的语义;系统的对话管理器结合知识库和对话上下文,组织回答语句,并以语音方式回答用户;用户得到应答后根据个人需求继续与系统对话,直到满足用户需求为止。与传统的人机交互途径(如鼠标、键盘、触摸屏等)相比,本发明专利技术的方法解放了人们的双手,使人机交互更符合人类认知和语言习惯,同时也提高了人机交互的趣味性,在网络购物、信息查询等所有需要与计算机和互联网进行交互的领域均具有广阔应用前景。

【技术实现步骤摘要】

本专利技术涉及一种语音驱动的智能人机交互方法,技术应用领域为电子商务与信息查询。
技术介绍
自然语言符合人类认知习惯,是一种最为自然和方便快捷的交流方式。随着语音识别、语音合成、自然语言处理和人工智能等技术的发展,人与计算机之间语音方式的交流成为可能。语音驱动的人机交互方式为人机交互提供了一种新途径,解放了人们的双手,能有效提高人机交互的便捷性和易用性。由于语音识别存在一定误差以及口语交流过程中用户意图往往存在一定模糊性,人机自然语言交互是一种非精确的信息交互。一次人机语音对话一般需要人机之间的多次往复交流,因此人机对话系统需要循环执行语音识别和理解、对话生成、语音合成等各个环节,以完成与用户的沟通。自20世纪90年代以来,出现了三代人机对话系统。第一代系统为信息型,其交互模式比较固定,即系统提供一些信息查询的选项,用户指定查询哪些信息,系统以语音方式将信息返回给用户,主要应用于包裹追踪、简单的金融应用、以及航班状态信息查询等方面。第二代系统为交易型,多面向流程比较固定的应用、采用预先定义的流程进行人机交互,例如银行间移动资金、股票交易。第三代系统为问题解决型,其交互形式从严格的指导对话转向使用更加自然的语言,人机对话方式更为灵活,系统也更为智能化,但目前第三类系统尚处于研究阶段,尚未出现成熟的语音驱动智能人机交互方法及相关系统。
技术实现思路
本专利技术解决的技术问题是:为克服现有技术存在的缺陷,针对当前人机交互方式复杂,智能化程度低的问题,提出了一种语音驱动的基于知识的智能人机交互方法,该方法采用语音的方式,基于主题知识进行智能交互,使得用户能够以一种类似于人与人之间自然流畅的交流方式进行信息查询等操作。本专利技术的技术解决方案为:一种语音驱动的智能人机交互方法,步骤如下:(1)语音输入界面接收用户输入的语音;(2)语音识别模块识别用户语音输入,得到识别结果:字符串S;(3)语义理解模块对字符串S进行分词,并根据文法对分词结果中的每个短语添加语义标签;文法包括语言模型和语义分类器:语言模型定义了所有可能由语音识别器处理的词汇空间,由文法的规则描述或统计文法领域的n元组集合定义;语义分类器将词汇短语映射到语义标签的一个有限集,由训练好的统计分类器实现;(4)对话管理器根据语义理解模块的语义解析结果,结合知识库确定将要执行的操作:①如果用户的语音输入指定了所感兴趣事物的属性,对话管理器将查询后台的领域知识库,确定对话主题的必要属性信息、可选属性信息和属性优先级;如果用户提供的属性信息不足,对话管理器下一步将询问用户缺少的必要属性信息;如果用户提供的属性信息覆盖了对话主题的必要属性信息,对话管理器下一步将让用户确认所感兴趣事物的信息;②如果用户的语音输入为查询某一问题或名词,对话管理器将调用第三方搜索引擎查询、筛选和重新组织相关信息,并在下一步将结果返回给用户;(5)对话管理器根据步骤(4)确定的操作组织回答语句,并调用语音播放引擎向用户播放语句;组织回答语句的过程分为查找语句模板和填充信息两步,在查找语句模板的步骤中,语句模板的类型由上一步所确定的操作类型决定:如果系统需要向用户询问相关信息,需使用询问疑问句,如“请问[事物名称]的[属性名称]是什么?”(中括号内的内容需根据实际情况进行替换);如果系统需要让用户确认信息,使用确认疑问句,如“请问您所要[操作类型](如购买)的[事物名称]是[属性信息列表]吗?”;如果系统需要将结果返回给用户,则使用陈述句,如“[事物名称]是指[对事物的解释]”;如果交互过程中出现语音识别拒识(如因网络或识别引擎等问题造成用户语音输入后未返回识别结果)、超时(如用户未在指定时间内说话)、低可信度(返回的识别结果的可信度参数值低于可信度阈值)等问题,对话管理器将调用这些问题对应的提示语句;以上所有语句的模板均存储在知识库中,对话管理器根据对话主题和查询类型提取语句模板;对话管理器确定语句模板之后,根据语义设置模板中的参数值,从而生成回答语句。(6)用户接收到语音播放引擎的语音提示后,根据提示进一步输入语音进行对话,直到对话管理器确认用户的需要已得到满足,并结束当前会话;(7)将会话所涉及的关键信息存储到用户案例库中,用于提高系统的智能化水平。本专利技术以语音识别(SpeechRecognition,SR)、语音合成(TextToSpeech,TTS)、自然语言处理(NaturalLanguageProcessing,NLP)等技术为基础,通过语音对话方式实现智能化的人机互动交流,为用户使用计算机和互联网提供方便快捷的交互界面。同传统的人机交互途径(如鼠标、键盘、触摸屏等)相比,本专利技术的方法解放了人们的双手,使人机交互更加方便快捷,更符合人们的认知和语言习惯,提高了人机交互的智能化程度和易用性,在网络购物、信息查询等所有需要与计算机和互联网进行交互的领域均具有广阔应用前景。附图说明图1为本专利技术的总体流程图;图2为本专利技术的知识库中主题知识组织结构示意图。具体实施方式下面结合如图1所示的流程图,以通过网络购买电视的应用情景为例,说明本专利技术的具体实施过程:(1)打开系统后,系统会提示“请问有什么可以帮您?”,用户通过根据需要输入语音,本案例中假设用户输入为:“我需要买台电视”;(2)语音识别模块识别用户语音输入,得到字符串S“我需要买台电视”;(3)语义理解模块对字符串S进行分词,得到分词结果:“我/需要/买/台/电视”,提取的关键词为“买”、“电视”;然后,根据文法为分词结果添加语义标签,“买”的语义标签为“BUY”,“电视”的语义标签“TV”;(4)对话管理器根据用户输入的语义上下文和后台领域知识库,确定需要询问用户或者与用户确定的信息。在接收到语义理解模块得到的语义参数(BUY、TV)后,对话管理器发起一个主题为“BUYTV”的会话。首先,通过查询系统知识库(知识库具有可扩展性,可根据需要不断添加相关领域的知识,当前情景所用的知识库是电子商务类别下、家用电器子类下的电视知识库,如图2所示),找到电视知识库中与“BUY”相关的信息,包括电视的价格、尺寸、品牌、类型、服务等属性信息;然后,根据知识节点中属性的优先级(在构建知识库时这些属性被赋予了一定优先级),得到购买电视时首先考虑的是“价格”和“尺寸”参数,即系统需要询问用户要购买的电视“价格”和“尺寸”。(5)对话管理器组织回答语句,并调用语音播放引擎播放回答语句。该案例中系统需要询问用户信息,因此从本文档来自技高网...

【技术保护点】
一种语音驱动的智能人机交互方法,其特征在于,该方法的实现步骤如下:(1)语音输入界面接收用户输入的语音;(2)语音识别模块识别用户输入的语音,得到识别结果:字符串S;(3)语义理解模块对字符串S进行分词,并根据文法对分词结果中的每个短语添加语义标签;(4)对话管理器根据语义理解模块的语义解析结果,结合知识库确定将要执行的操作;(5)对话管理器根据上一步确定的操作组织回答语句,并调用语音播放引擎向用户播放语句;(6)用户接收到语音播放引擎的语音提示后,根据提示进一步输入语音进行对话,直到对话管理器确认用户的需要已得到满足,并结束当前会话;(7)将会话所涉及的关键信息存储到用户案例库中,用于提高系统的智能化水平。

【技术特征摘要】
1.一种语音驱动的智能人机交互方法,其特征在于,该方法的实现步骤如下:
(1)语音输入界面接收用户输入的语音;
(2)语音识别模块识别用户输入的语音,得到识别结果:字符串S;
(3)语义理解模块对字符串S进行分词,并根据文法对分词结果中的每个短语添加语义
标签;
(4)对话管理器根据语义理解模块的语义解析结果,结合知识库确定将要执行的操作;
(5)对话管理器根据上一步确定的操作组织回答语句,并调用语音播放引擎向用户播放
语句;
(6)用户接收到语音播放引擎的语音提示后,根据提示进一步输入语音进行对话,直到
对话管理器确认用户的需要已得到满足,并结束当前会话;
(7)将会话所涉及的关键信息存储到用户案例库中,用于提高系统的智能化水平。
2.根据权利要求1所述的一种语音驱动的智能人机交互方法,其特征在于,所述步骤(3)
中的文法包括语言模型和语义分类器,其中,语言模型定义了所有可能由语音识别器处理的词
汇空间,由文法的规则描述或统计文法领域的n元组集合定义;语义分类器将词汇短语映射到
语义标签的一个有限集,由训练好的统计分类器实现。
3.根据权利要求1所述的一种语音驱动的智能人机交互方法,其特征在于,所述步骤(4)
中,确定将要执行的操作具体...

【专利技术属性】
技术研发人员:朱阿兴刘军志王德生缪亚敏
申请(专利权)人:南京师范大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1