一种基于有限数据的语义理解方法、设备及机器人技术

技术编号：18497389 阅读：33 留言：0更新日期：2018-07-21 20:19

本发明专利技术公开了一种基于有限数据的语义理解方法、设备及机器人，属于语义理解技术领域。本文中公开的基于有限数据的语义理解方法包括：从预先建立的关键词库中查询当前采集到的用户语音中的关键词，根据查询到的关键词确定当前采集到的用户语音的对话状态标记，确定并缓存所述对话状态标记形成的对话语境；根据所缓存对话语境、用户提问的问题和用户个人词库，分析关键词，提取与用户语音中所问的问题中的用户惯用词对应的关键词相关的状态码的；根据对话状态流转确定的对话状态标记及其形成的对话语境、记忆与提取分析的用户惯用词以及采集的用户语音中的问题，结合预先建立的语料库分析确定最终的语义，定位用户语音中所提问题的答案。

A semantic understanding method, device and robot based on limited data

The invention discloses a semantic understanding method, equipment and robot based on limited data, which belongs to the technical field of semantic understanding. In this paper, the semantic understanding methods based on finite data include: query the keyword in the user voice collected from the pre established key word library, determine the dialog status mark of the user voice collected at present, and determine and cache the dialogic language of the dialogue state mark based on the keyword found in the pre established key word library. According to the context of the cached dialogue, the question of the user's questions and the individual word library of the user, the key words related to the key words corresponding to the user's idiomatic words are extracted from the questions of the user's voice. The dialogical status mark determined according to the flow of dialogue state, the dialogical context, the memory and the extraction of its formation The analysis of the user's idiomatic words and the problem of the acquisition of the user's voice, combined with the pre established corpus analysis to determine the final semantics, and locate the answers to the questions raised in the user's voice.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于有限数据的语义理解方法、设备及机器人
本专利技术涉及语义理解
，具体涉及一种基于有限数据的语义理解方法、设备及机器人。
技术介绍
目前，基于大数据的语义理解技术正搞得热火朝天。尤其是围绕卷积神经网络CNN和循环神经网络RNN的深度学习研究，把聊天机器人推向高潮。但目前的各类聊天机器人，例如，百度小度机器人、苹果公司的siri、微软的小冰等，均有待进一步完善。一些机器人还不能完全达到人机交互顺畅的水平，答非所问或不知所云的尴尬时常令人头疼。因此，亟待一款更具有人性化的聊天机器人，以达到用户的预期效果。
技术实现思路
本文提供一种基于有限数据的语义理解方法、设备及机器人，可以解决现有机器人会话过程的不流畅和准确性低的问题。本文公开了一种基于有限数据的语义理解方法，至少包括：从预先建立的关键词库中查询当前采集到的用户语音中的关键词，利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记，其中，所缓存的对话状态标记用于形成对话语境；利用记忆与提取机制将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词，进行语言逻辑比对，确定用户语音中用户惯用词对应的关键词；利用语料定位机制根据所缓存的对话状态标记及其形成的对话语境、所确定的用户惯用词对应的关键词以及采集的用户语音中的问题，结合预先建立的语料库分析确定最终的语义，定位用户语音中所提问题的最终答案。可选地，上述方法还包括：与任一用户首次交谈时，自动创建该用户的用户个人词库，并从历史累积的用户对话中提取与关键词语义相一致的用户惯用词进行存储，在出现新的用户惯用...

【技术保护点】
1.一种基于有限数据的语义理解方法，至少包括：从预先建立的关键词库中查询当前采集到的用户语音中的关键词，利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记，其中，所缓存的对话状态标记用于形成对话语境；利用记忆与提取机制将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词，进行语言逻辑比对，确定用户语音中用户惯用词对应的关键词；利用语料定位机制根据所缓存的对话状态标记及其形成的对话语境、所确定的用户惯用词对应的关键词以及采集的用户语音中的问题，结合预先建立的语料库分析确定最终的语义，定位用户语音中所提问题的最终答案。

【技术特征摘要】
1.一种基于有限数据的语义理解方法，至少包括：从预先建立的关键词库中查询当前采集到的用户语音中的关键词，利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记，其中，所缓存的对话状态标记用于形成对话语境；利用记忆与提取机制将所缓存的对话状态标记形成的对话语境、采集到的用户提问的问题和历史累积的用户个人词库与关键词，进行语言逻辑比对，确定用户语音中用户惯用词对应的关键词；利用语料定位机制根据所缓存的对话状态标记及其形成的对话语境、所确定的用户惯用词对应的关键词以及采集的用户语音中的问题，结合预先建立的语料库分析确定最终的语义，定位用户语音中所提问题的最终答案。2.如权利要求1所述的方法，其特征在于，所述方法还包括：与任一用户首次交谈时，自动创建该用户的用户个人词库，并从历史累积的用户对话中提取与关键词语义相一致的用户惯用词进行存储，在出现新的用户惯用词时，更新所述用户个人词库。3.如权利要求1所述的方法，其特征在于，所述利用对话状态流转机制确定并缓存所查询到的关键词对应的对话状态标记，包括：根据查询到的关键词进行编码，编码得到用于指示所述对话状态标记的状态码，通过状态码序列临时库缓存编码得到的所有状态码，所缓存的所有状态码构成对话语境。4.如权利要求1、2或3所述的方法，其特征在于，所述从预先建立的关键词库中查询当前采集到的用户语音中的关键词之前，该方法还包括：采集到预设的唤醒词，进入正常运行状态。5.如权利要求4所述的方法，其特征在于，所述方法还包括：预先从采集的用户语音中提取关键词，更新关键词库。6.如权利要求4所述的方法，其特征在于，所述方法还包括：在所述语料库中没有问题的答案时，学习新的语料，以更新语料库内容。7.一种基于有限数据的语义理解设备，至少包括：对话状态流转模块，从预先建立的关键词库中查询当前采集到的用户语音中的关键词，并确定并缓存所查询到的关键词对应的对...

【专利技术属性】
技术研发人员：孔旭影，林志红，
申请(专利权)人：北京信息职业技术学院，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人