一种基于有限数据的语义理解方法、设备及机器人技术

技术编号:18497389 阅读:33 留言:0更新日期:2018-07-21 20:19
本发明专利技术公开了一种基于有限数据的语义理解方法、设备及机器人,属于语义理解技术领域。本文中公开的基于有限数据的语义理解方法包括:从预先建立的关键词库中查询当前采集到的用户语音中的关键词,根据查询到的关键词确定当前采集到的用户语音的对话状态标记,确定并缓存所述对话状态标记形成的对话语境;根据所缓存对话语境、用户提问的问题和用户个人词库,分析关键词,提取与用户语音中所问的问题中的用户惯用词对应的关键词相关的状态码的;根据对话状态流转确定的对话状态标记及其形成的对话语境、记忆与提取分析的用户惯用词以及采集的用户语音中的问题,结合预先建立的语料库分析确定最终的语义,定位用户语音中所提问题的答案。

A semantic understanding method, device and robot based on limited data

The invention discloses a semantic understanding method, equipment and robot based on limited data, which belongs to the technical field of semantic understanding. In this paper, the semantic understanding methods based on finite data include: query the keyword in the user voice collected from the pre established key word library, determine the dialog status mark of the user voice collected at present, and determine and cache the dialogic language of the dialogue state mark based on the keyword found in the pre established key word library. According to the context of the cached dialogue, the question of the user's questions and the individual word library of the user, the key words related to the key words corresponding to the user's idiomatic words are extracted from the questions of the user's voice. The dialogical status mark determined according to the flow of dialogue state, the dialogical context, the memory and the extraction of its formation The analysis of the user's idiomatic words and the problem of the acquisition of the user's voice, combined with the pre established corpus analysis to determine the final semantics, and locate the answers to the questions raised in the user's voice.

【技术实现步骤摘要】
一种基于有限数据的语义理解方法、设备及机器人
本专利技术涉及语义理解
,具体涉及一种基于有限数据的语义理解方法、设备及机器人。
技术介绍
目前,基于大数据的语义理解技术正搞得热火朝天。尤其是围绕卷积神经网络CNN和循环神经网络RNN的深度学习研究,把聊天机器人推向高潮。但目前的各类聊天机器人,例如,百度小度机器人、苹果公司的siri、微软的小冰等,均有待进一步完善。一些机器人还不能完全达到人机交互顺畅的水平,答非所问或不知所云的尴尬时常令人头疼。因此,亟待一款更具有人性化的聊天机器人,以达到用户的预期效果。
技术实现思路
本文提供一种基于有限数据的语义理解方法、设备及机器人,可以解决现有机器人会话过程的不流畅和准确性低的问题。本文公开了一种基于有限数据的语义理解方法,至少包括:从预先建立的关键词库中查询当前采集到的用户语音中的关键词,利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记,其中,所缓存的对话状态标记用于形成对话语境;利用记忆与提取机制将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词,进行语言逻辑比对,确定用户语音中用户惯用词对应的关键词;利用语料定位机制根据所缓存的对话状态标记及其形成的对话语境、所确定的用户惯用词对应的关键词以及采集的用户语音中的问题,结合预先建立的语料库分析确定最终的语义,定位用户语音中所提问题的最终答案。可选地,上述方法还包括:与任一用户首次交谈时,自动创建该用户的用户个人词库,并从历史累积的用户对话中提取与关键词语义相一致的用户惯用词进行存储,在出现新的用户惯用词时,更新所述用户个人词库。可选地,上述方法中,所述根据查询到的关键词确定当前采集到的用户语音的对话状态标记,并缓存所确定的对话状态标记形成对话语境,包括:根据查询到的关键词进行编码,编码得到用于指示所述对话状态标记的状态码,通过状态码序列临时库缓存编码得到的所有状态码,所缓存的所有状态码构成对话语境。可选地,上述方法中,所述从预先建立的关键词库中查询当前采集到的用户语音中的关键词之前,该方法还包括:采集到预设的唤醒词,进入正常运行状态。可选地,上述方法还包括:预先从采集的用户语音中提取关键词,建立关键词库。可选地,上述方法还包括:在所述语料库中没有问题的答案时,学习新的语料,以更新语料库内容。本文还公开了一种基于有限数据的语义理解设备,至少包括:对话状态流转模块,从预先建立的关键词库中查询当前采集到的用户语音中的关键词,并根据查询到的关键词确定当前采集到的用户语音的对话状态标记,并缓存所确定的对话状态标记形成对话语境;记忆与提取模块,将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词,进行语言逻辑比对,确定采集到的用户语音中用户惯用词对应的关键词;语料定位模块,根据对话状态流转模块确定的对话状态标记及其形成的对话语境、用户惯用词对应的关键词以及采集的用户语音中的问题,结合预先建立的语料库分析确定最终的语义,定位用户语音中所提问题的答案。可选地,上述设备中,所述记忆与提取模块,与任一用户首次交谈时,自动创建该用户的用户个人词库,并从历史累积的用户对话中提取与关键词语义相一致的用户惯用词进行存储,以及在出现新的用户惯用词时,更新所述用户个人词库。可选地,上述设备中,对话状态流转模块,根据查询到的关键词确定当前采集到的用户语音的对话状态标记,并缓存所确定的对话状态标记形成对话语境,包括:所述对话状态流转模块,根据查询到的关键词进行编码,编码得到用于指示所述对话状态标记的状态码,通过状态码序列临时库缓存编码得到的所有状态码,所缓存的所有状态码构成对话语境。可选地,上述设备还包括:唤醒与休眠模块,在采集到预设的唤醒词时,进入正常运行状态,在采集到休眠词时,进入休眠状态。可选地,上述设备还包括:关键词设置与提取模块,预先从采集的用户语音中提取关键词,建立关键词库。可选地,上述设备还包括:学习模块,在语料库中没有问题的答案时,学习新的语料,以更新语料库内容。本文还公开了一种机器人,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的基于有限数据的语义理解方法的所有处理。本文还公开了一种机器人,至少包括如上所述的基于有限数据的语义理解设备。采用本申请技术方案可以使机器人会话过程更加流畅和准确。附图说明图1是本专利技术实施例中基于有限数据的语义理解设备结构示意图;图2是图1所示结构中对话状态流转机制的工作原理示意图;图3是本专利技术实施例的人机对话的一个具体示例过程示意图;图4是图3所示人机对话过程中提取的对话场景树示例图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文将结合具体实施方式对本专利技术技术方案作进一步详细说明。需要说明的是,在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。实施例1本申请专利技术人发现现有的具有人机交互技术(例如聊天机器人)是基于大数据的,其面向用户是不确定的,采用CNN和RNN理论对于解决复杂的语义理解问题目前仍显不足,应用效果缺乏语言的流畅性、准确性、灵活性。基于此发现,本申请专利技术人提出,一种基于有限数据的语义理解设备,主要包括对话状态流转模块、记忆与提取模块和语料定位模块。对话状态流转模块,从预先建立的关键词库中查询当前采集到的用户语音中的关键词,确定并缓存查询到的关键词对应的对话状态标记,其中,所缓存的对话状态标记用于形成对话语境;本实施例中,对话状态流转模块,可以根据查询到的关键词进行编码,编码得到用于指示所述对话状态标记的状态码,再通过状态码序列临时库缓存编码得到的所有状态码,所缓存的所有状态码即可构成对话语境。记忆与提取模块,利用记忆与提取机制根据所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库,关联语境、问题,并与关键词进行语言逻辑比对,确定采集的用户提问的问题中用户惯用词对应的关键词。语料定位模块,根据对话状态流转模块确定的对话状态标记及其形成的对话语境、用户惯用词对应的关键词以及采集的用户语音中的问题,结合预先建立的语料库分析确定最终的语义,定位用户语音中所提问题的最终答案。具体地,语料定位模块可以结合预先建立的语料库综合分析,并通过多次反问用户,以理解用户问题,即理解用户的真正语义,最后定位用户语音中所提问题的最终答案。另外,在上述模块的基础上,基于有限数据的语义理解设备还可以如下一种或几种模块:唤醒与休眠模块,主要在采集到预设的唤醒词时,进入正常运行状态,在采集到休眠词时,进入休眠状态。关键词设置与提取模块,预先从采集的用户语音中提取关键词,建立关键词库。学习模块,在语料库中没有问题的答案时,学习新的语料,以更新语料库内容。下面本实施例提供一种基于有限数据的语义理解设备的具体实例,其可置于对话机器人内,包含上述所有模块,即包括:唤醒与休眠模块、对话状态流转模块、记忆与提取模块、关键词设置与提取模块、语料定位模块和学习模块,如图1所示。1、唤醒与休眠模块,在采集到预设的唤醒词时,进入正常运行状态,在采集到休眠词时,进入休眠状态。此模块可认为是常本文档来自技高网...

【技术保护点】
1.一种基于有限数据的语义理解方法,至少包括:从预先建立的关键词库中查询当前采集到的用户语音中的关键词,利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记,其中,所缓存的对话状态标记用于形成对话语境;利用记忆与提取机制将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词,进行语言逻辑比对,确定用户语音中用户惯用词对应的关键词;利用语料定位机制根据所缓存的对话状态标记及其形成的对话语境、所确定的用户惯用词对应的关键词以及采集的用户语音中的问题,结合预先建立的语料库分析确定最终的语义,定位用户语音中所提问题的最终答案。

【技术特征摘要】
1.一种基于有限数据的语义理解方法,至少包括:从预先建立的关键词库中查询当前采集到的用户语音中的关键词,利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记,其中,所缓存的对话状态标记用于形成对话语境;利用记忆与提取机制将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词,进行语言逻辑比对,确定用户语音中用户惯用词对应的关键词;利用语料定位机制根据所缓存的对话状态标记及其形成的对话语境、所确定的用户惯用词对应的关键词以及采集的用户语音中的问题,结合预先建立的语料库分析确定最终的语义,定位用户语音中所提问题的最终答案。2.如权利要求1所述的方法,其特征在于,所述方法还包括:与任一用户首次交谈时,自动创建该用户的用户个人词库,并从历史累积的用户对话中提取与关键词语义相一致的用户惯用词进行存储,在出现新的用户惯用词时,更新所述用户个人词库。3.如权利要求1所述的方法,其特征在于,所述利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记,包括:根据查询到的关键词进行编码,编码得到用于指示所述对话状态标记的状态码,通过状态码序列临时库缓存编码得到的所有状态码,所缓存的所有状态码构成对话语境。4.如权利要求1、2或3所述的方法,其特征在于,所述从预先建立的关键词库中查询当前采集到的用户语音中的关键词之前,该方法还包括:采集到预设的唤醒词,进入正常运行状态。5.如权利要求4所述的方法,其特征在于,所述方法还包括:预先从采集的用户语音中提取关键词,更新关键词库。6.如权利要求4所述的方法,其特征在于,所述方法还包括:在所述语料库中没有问题的答案时,学习新的语料,以更新语料库内容。7.一种基于有限数据的语义理解设备,至少包括:对话状态流转模块,从预先建立的关键词库中查询当前采集到的用户语音中的关键词,并确定并缓存所查询到的关键词对应的对...

【专利技术属性】
技术研发人员:孔旭影林志红
申请(专利权)人:北京信息职业技术学院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1