人机接口系统知识库及其构建方法技术方案

技术编号:3921263 阅读:206 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种人机接口系统知识库,其中第一语料库用于存储用户发起对话的语料;第二语料库用于分领域存储返回对话的语料;返回语料提取单元用于根据各领域知识文档提取对应领域的单词语料,并将提取的对应领域的单词语料发送至第二语料库;匹配处理单元用于将用户发起对话的语料与第一语料库中的语料进行匹配,获取匹配的对话发起语料,并将对话发起语料与第二语料库中的语料进行匹配,获取匹配的对话返回语料;反馈单元用于将匹配的对话返回语料反馈给用户。本发明专利技术能实现用户与聊天机器人对话的专一性,将对话话题控制在一个较为专门的领域内,并且两个语料库共同形成知识库,达到形式与内容相分离。本发明专利技术同时提供了一种人机接口系统知识库构建方法。

【技术实现步骤摘要】

本专利技术涉及人机接口技术及自然语言处理领域,特别涉及人机接口系统知识库及其构建方法
技术介绍
Jabberwacky和ALICEB0T等人机接口系统,主要应用于人机对话领域,通常称为 聊天机器人(chatbot),聊天机器人主要旨在想方设法让人与机器进行对话。聊天机器人实 现与用户对话的方法是将用户的输入与聊天机器人存储的知识库进行规则匹配,再把匹配 结果立即返回给用户。由于聊天机器人知识库的匹配语句相当广泛,没有对对话领域进行 划分,因此返回给用户的对话内容也相当广泛,很容易将用户的注意力转移到其他主题。 因此,有必要提供一种改进的来克服现有技术 的缺陷。
技术实现思路
本专利技术的目的是提供一种,能限定用户与聊天 机器人的对话领域,。 为了实现上述目的,本专利技术提供了一种人机接口系统知识库包括第一语料库、第 二语料库、返回语料提取单元、匹配处理单元以及反馈单元。所述第一语料库用于存储用 户发起对话的语料;所述第二语料库用于分领域存储返回对话的语料;所述返回语料提取 单元与所述第二语料库连接,用于根据各领域知识文档提取对应领域的单词语料,并将所 述提取的对应领域的单词语料发送至所述第二语料库;所述匹配处理单元与所述第一语料 库和所述第二语料库连接,用于将用户发起对话的语料与所述第一语料库中的语料进行匹 配,获取匹配的对话发起语料,并将所述对话发起语料与所述第二语料库中的语料进行匹 配,获取匹配的对话返回语料;所述反馈单元与所述匹配处理单元连接,用于将所述匹配的 对话返回语料反馈给用户。 在本专利技术的一个实施例中,所述人机接口系统知识库还包括对话语料收集单元, 所述对话语料收集单元与所述第一语料库连接,用于对用户进行对话实验,收集实验的对 话发起语料,对使用频率高于规定阀值频率的对话发起语料进行形式化归纳,发送形式化 归纳后的对话发起语料至所述第一语料库。 在本专利技术的另一实施例中,所述返回语料提取单元包括第一级返回语料提取单元和第二级返回语料提取单元。所述第一级返回语料提取单元用于根据各领域知识文档提取对应领域的句子;所述第二级返回语料提取单元与所述第一级返回语料提取单元和所述第二语料库连接,用于根据所述第一级返回语料提取单元提取的对应领域的句子提取对应领域的单词语料,并对所述提取的对应领域的单词语料进行形式化分类,发送形式化分类后的单词语料至所述第二语料库,所述形式化分类后的单词语料为返回对话的语料。 在本专利技术的再一实施例中,所述形式化分类的类别为"名目"、"行为和动作"、"修4饰"、"方位与时间"以及"纯语法",所述第二语料库分类保存所述对应领域的形式化分类后 的单词语料。 在本专利技术的又一实施例中,所述人机接口系统知识库还包括自然语言生成系统, 所述自然语言生成系统与所述匹配处理单元以及所述反馈单元连接,用于将所述匹配的对 话返回语料转换成自然语言,并将所述转换的结果反馈给用户。 —种人机接口系统知识库构建方法,包括如下步骤存储用户发起对话的语料; 根据各领域知识文档提取对应领域的单词语料;分类存储提取的对应领域的单词语料,将 所述对应领域的单词语料作为返回对话的语料;将用户发起对话的语料与所述存储的用户 发起对话的语料进行匹配,获取匹配的对话发起语料,并将所述对话发起语料与所述存储 的返回对话语料进行匹配,获取匹配的对话返回语料;将所述匹配的对话返回语料反馈给 用户。 在本专利技术的一个实施例中,所述人机接口系统知识库构建方法还包括对用户进 行对话实验,收集实验的对话发起语料,对使用频率高于规定阀值频率的对话发起语料进 行形式化归纳。所述存储用户发起对话的语料的步骤具体为存储形式化归纳后的对话发 起语料。 在本专利技术的另一实施例中,所述根据各领域知识文档提取对应领域的单词语料的 步骤具体为根据各领域知识文档提取对应领域的句子;根据提取的对应领域的句子提取 对应领域的单词语料;对提取的对应领域的单词语料进行形式化分类,所述形式化分类后 的单词语料为返回对话的语料。 在本专利技术的再一实施例中,所述对提取的对应领域的单词语料进行形式化分类的 步骤具体为根据"名目"、"行为和动作"、"修饰"、"方位与时间"以及"纯语法"类别对提取 的对应领域的单词语料进行形式化分类。所述存储提取的对应领域的单词语料的步骤具体 为分类保存所述对应领域的形式化分类后的单词语料。 在本专利技术的又一实施例中,所述将所述匹配的对话返回语料反馈给用户的步骤具 体为将所述匹配的对话返回语料转换成自然语言;将所述转换的结果反馈给用户。 与现有技术相比,本专利技术人机接口系统知识库的第二语料库是分领域的,所以用 户与聊天机器人对话时具有专一性,能将对话话题控制在一个较为专门的领域内,从而尽 可能地将领域内的专业知识点通过对话的形式传递给用户。 另外,本专利技术人机接口系统知识库通过第一语料库建立知识的形式,通过第二语料库建立知识的内容,两个语料库共同形成知识库,达到形式与内容相分离。 通过以下的描述并结合附图,本专利技术将变得更加清晰,这些附图用于解释本专利技术的实施例。附图说明 图1为本专利技术人机接口系统知识库的结构框图。 图2为本专利技术人机接口系统知识库构建方法的流程图。具体实施例方式现在参考附图描述本专利技术的实施例,附图中类似的元件标号代表类似的元件。5 本实施例人机接口系统知识库包括第一语料库20、对话语料收集单元10、第二语 料库30、返回语料提取单元40、匹配处理单元50、反馈单元70以及自然语言生成系统60。 所述第一语料库20,用于存储用户发起对话的语料; 所述对话语料收集单元10,与所述第一语料库20连接,用于通过聊天工具例如聊天机器人平台、常问问题(FAQ,Frequently asked question)、用户问巻等形式对用户进行对话实验,收集实验的对话发起语料,对使用频率高于规定阀值频率的对话发起语料进行形式化归纳,发送形式化归纳后的对话发起语料至所述第一语料库20。其中,对用户进行实验时,试验的人数越多,保留的对话语料越多,后面匹配的成功率就越高。 所述第二语料库30,用于分领域存储返回对话的语料。 所述返回语料提取单元40,与所述第二语料库30连接,用于根据各领域知识文 档提取对应领域的单词语料,并将所述提取的对应领域的单词语料发送至所述第二语料库30 ; 其中,所述返回语料提取单元40包括第一级返回语料提取单元和第二级返回语 料提取单元。第一级返回语料提取单元用于根据各领域知识文档提取对应领域的句子;第 二级返回语料提取单元与所述第一级返回语料提取单元和所述第二语料库30连接,用于 根据所述第一级返回语料提取单元提取的对应领域的句子提取对应领域的单词语料,并对 所述提取的对应领域的单词语料进行形式化分类,发送形式化分类后的单词语料至所述第 二语料库30,所述形式化分类后的单词语料为返回对话的语料。其中,所述形式化分类是给 提取的对应领域的单词语料添加附加信息头字符。 由上可知,所述返回语料提取单元40将各领域知识文档的成篇描述化整为零变 成对话的句子,再化整为零,将句子中符合上述分类的单词语料提取出来,并且进行形式化 分类,然后发送到所述第二语料库30中存储。 其中,所述形式化分类的类别为"名目"、"行为和动作"、"修本文档来自技高网...

【技术保护点】
一种人机接口系统知识库,包括:第一语料库,用于存储用户发起对话的语料;第二语料库,用于分领域存储返回对话的语料;返回语料提取单元,与所述第二语料库连接,用于根据各领域知识文档提取对应领域的单词语料,并将所述提取的对应领域的单词语料发送至所述第二语料库;匹配处理单元,与所述第一语料库和所述第二语料库连接,用于将用户发起对话的语料与所述第一语料库中的语料进行匹配,获取匹配的对话发起语料,并将所述对话发起语料与所述第二语料库中的语料进行匹配,获取匹配的对话返回语料;以及反馈单元,与所述匹配处理单元连接,用于将所述匹配的对话返回语料反馈给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:毛雪涛
申请(专利权)人:武汉理工大学
类型:发明
国别省市:83[中国|武汉]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1