基于Lucene和文法网络的聊天机器人及其实现方法技术

技术编号:20221731 阅读:35 留言:0更新日期:2019-01-28 20:15
本发明专利技术公开了基于Lucene和文法网络的聊天机器人的实现方法,含步骤:A.通过lucene在硬盘中构建实体变量的索引文件以及真实用户聊天问答语料索引文件、通过arngo数据库在硬盘上构建实体、实体关系;B.选择ABNF文法规范和解析器构建对应的问答模板;C.在ABNF解析器添加lucene检索实体的叶子节点、arango查询关系的叶子节点、lucene检索语料的叶子节点;D.进行语句匹配按照定义的规则,匹配指定的叶子节点;E.选择最优的回答。本发明专利技术通过添加lucene检索实体的叶子节点和arango查询关系的叶子节点,可构建特定领域的文法网络,解决精确、快速识别封闭域的聊天问题,通过添加lucene检索语料的叶子节点,解决真实用户开放域聊天问题。

【技术实现步骤摘要】
基于Lucene和文法网络的聊天机器人及其实现方法
本专利技术涉及人工智能
,特别涉及基于Lucene和文法网络的聊天机器人及其实现方法。
技术介绍
随着人工智能与自然语言处理的兴起,聊天机器人作为自然语言处理中自动问答下的一个重要方向,主要研究模拟人类对话或聊天的问题,当前,主要的技术手段是面向特定领域的规则匹配和面向开放域的基于检索、机器学习等。市面上商业化的聊天机器人,主要是通过规则化(正则匹配或文法网络)的方法实现的,这种聊天机器人的设计,是通过人工构造模板和规则,用以设定特定场景、编写特定的对话问答,来匹配用户问题,来生成答案,给出回答的。无论是正则匹配还是文法网络,对于它们构建有限规则外的开放性问句,由于人类日常通用随意语言不规则、句式成分缺失等,难以构建规则,都无法识别,也就是说不能处理开放域的聊天问答,只能实现特定领域的问答。同时对于句式单一、实体丰富的聊天场景,实体数据达百万、千万级,规则上万,规则匹配慢,这显然是不合理的。规则化的方案通过构建场景模板等用于自动问答,匹配方式虽然能够给出精确回答,但人类语言、聊天句式、聊天场景等千千万万、不可计数,不可能、也不本文档来自技高网...

【技术保护点】
1.基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,包括以下步骤:A.通过lucene在硬盘中构建实体变量的索引文件以及真实用户聊天问答语料索引文件、通过arngo数据库在硬盘上构建实体、实体关系;B.选择ABNF文法规范和解析器构建对应的问答模板,用以解析聊天问句;C.在ABNF解析器添加lucene检索实体的叶子节点、arango查询关系的叶子节点、lucene检索语料的叶子节点;D.按照定义的规则,匹配指定的叶子节点;E.选择最优的回答。

【技术特征摘要】
1.基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,包括以下步骤:A.通过lucene在硬盘中构建实体变量的索引文件以及真实用户聊天问答语料索引文件、通过arngo数据库在硬盘上构建实体、实体关系;B.选择ABNF文法规范和解析器构建对应的问答模板,用以解析聊天问句;C.在ABNF解析器添加lucene检索实体的叶子节点、arango查询关系的叶子节点、lucene检索语料的叶子节点;D.按照定义的规则,匹配指定的叶子节点;E.选择最优的回答。2.根据权利要求1所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤C中的lucene检索实体的叶子节点是通过Lucene全文检索引擎,使用精确、高并发的Lucene检索功能,实现短文本聊天问句中的所有实体的匹配,所述实体变量的索引文件采用的是String格式。3.根据权利要求2所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤D中按照定义的规则,匹配到lucene检索实体的叶子节点时,将采用任意字符组合的方式切词再通过lucene检索实体的叶子节点检索索引文件中存在的实体,从而得到实体。4.根据权利要求3所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤D中按照定义的规则,匹配到arango查询关系的叶子节点时,是同匹配到lucene检索实体的叶子节点时得到的所述实体一同通过任意字符切分分词后,再检索arango数据库获取实体对应关系的实体,再抽取后面的实体,从而得到新的实体。5.根据权利要求1所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤C中的lucene检索语料的叶子节点是通过收集,处理、清洗用户真实数据并将用户聊天问答集合起来采用Lucene的Text格式存储。6.根据权利要求5所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,当在所述步骤D中按照定义的规则,匹配到lucene检索语料的叶子节点时,是使整个句子模糊匹配Lucene中所有语料问句,使用levenshtein算法,提取出匹配程度最高的问句并抽取回答。7...

【专利技术属性】
技术研发人员:刘楚雄
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1