一种基于检索和生产混合问答的流程系统技术方案

技术编号:18445157 阅读:27 留言:0更新日期:2018-07-14 10:28
本发明专利技术公开了一种基于检索和生产混合问答的流程系统,包括分类器、候选集、数据库和模型筛选。本发明专利技术的有益效果是:分类器能够感知问题的上下文,能够对问题的分类具有极高的准确率,分类器使用基于深度学习的分类模型和正则表达式识别相结合的方法进行问题的分类,能够提取问题中的重要属性调用相应的api进行实时查询,候选集检索系统的问题匹配过程中建立倒排索引进行原语句检索和同义词的查询扩展检索,能够搜索出来与问题最相近的句子,解决了检索系统搜索不精确的问题,对话模型使用seq2seq模型进行对话回复的生成,并在其中加入了Attention机制,同时也在解码端加入了BeamSearch机制,生成的句子更加具有逻辑性和结构性,增加了回复的多样性。

A process system based on retrieval and production QA

The invention discloses a process system based on retrieval and production mixed question answering, including classifiers, candidate sets, databases and model selection. The beneficial effect of this invention is that the classifier can perceive the context of the problem, and can have a high accuracy rate to the classification of the problem. The classifier uses the method of combining the classification model based on the depth learning and the regular expression recognition to classify the problem, and can extract the important attribute of the problem and call the corresponding API. In the process of real-time query, in the problem matching process of candidate set retrieval system, the inverted index is set up to retrieve the original language and the query expansion of the synonyms. It can search the most similar sentences with the problem, and solve the problem of the retrieval system search inaccuracy. The dialogue model uses the seq2seq model to generate the dialogue reply. In addition, the Attention mechanism is added, and the BeamSearch mechanism is added to the decoder. The sentences generated are more logical and structural, and the diversity of the response is increased.

【技术实现步骤摘要】
一种基于检索和生产混合问答的流程系统
本专利技术涉及一种流程系统,具体为一种基于检索和生产混合问答的流程系统,属于信息检索处理

技术介绍
近些年来,问答机器人由于其广泛的应用场景和巨大的商业价值,受到越来越多的广大科技型公司和科研机构的重视,因此也出现了很多优秀的产品,如微软的小冰,apple的Siri,google的谷歌助手。不像其他的传统电子app,人们不需要输入固定的命令语言(比如:“提交”、“购买”),而可以使用人类语言与app进行交流。问答系统一直以来被认为是人工智能领域最难的问题之一。但是随着最近几年来各种问答社区和社交网站的出现,对话语料的数量出现了爆炸性的增长,并且硬件的发展使得计算机的计算力大大提高,这一切都为问答系统的发展提供了新的机遇。问答系统可以分为基于垂直领域和开放领域两种,开放领域主要是闲聊类,垂直领域主要是助手类,当前建立对话机器人的主流技术主要是基于检索模型和生成模型两种。在检索模型中,系统会根据所给的问题从Question-Answer数据库中找寻与该问题语义最相近的问句,然后返回该问句对应的答案,该方法的主要问题有两个:第一个是数据库中Question-Answer对数量有限,有可能检索不到用户提出的问题的答案。第二个问题是Question-Answer对是固定的,可能无法根据用户提出的问题得到完全对应的答案。在生成模型中,对话系统会首先理解用户提出的问题,然后逐字的生成对应于该问题的答案。目前主流的方法是深度学习中Seq2Seq模型,该模型先用encoder端将问句编码为一个向量表示,再由decoder端将该向量表示解码为一个回复,该模型的主要问题是有可能生成的答案很容易是通用的、单调的回复(例如:“我不知道”、“好的”等),这样的回复包含的信息较少,没有实质性的意义。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于检索和生产混合问答的流程系统。本专利技术通过以下技术方案来实现上述目的:一种基于检索和生产混合问答的流程系统,包括分类器,对一个query进行分类。候选集,对于未能进行分类的问题,在检索系统找寻与该问题最接近的问题,筛选出来的候选句子集。数据库,用于储存各种问题问句,便于找寻与所提问题语义最相近的问句模型筛选,调用生成系统生成对应答案给出回复。其中,所述分类器将所提问题分为“天气”、“新闻”、“笑话”、“航班/高铁”,“附近(地理位置)”和“其他”六种类型,所述候选集使用基于循环神经网络的自编码模型来得到每个句子的向量表达,所述候选集使用BM25评分方法进行问题与数据库内的句子进行相似度计算,所述模型筛选使用了基于Seq2Seq的模型进行生成系统的搭建。一种基于检索和生产混合问答的流程系统,主要包括以下步骤:步骤A,使用了基于卷积神经网络(CNN)的分类模型和基于正则表达式两种方法来构建query分类器。步骤B,在建立检索系统时,选择了key-value内存数据库redis进行倒排索引搭建和问答语料存储,使用python实现了普通检索、扩展查询、BM25模型的相似度评价等功能,并使用Tensorflow训练了自编码模型来解决检索时句子的语义识别问题。步骤C,选择开源框架Tensorflow进行对话模型以建立对话生成系统,Tensorflow是google开发的人工智能框架平台,可用于图像和自然语言处理等多项深度学习领域。优选的,为了能够对问题的分类具有极高的准确率,所述分类器能够感知问题的上下文,通过与问题的上下文结合。优选的,为了能够提取问题中的重要属性进行实时查询,所述分类器使用基于深度学习的分类模型和正则表达式识别相结合的方法进行问题的分类。优选的,为了解决检索系统搜索不精确的问题,所述候选集检索系统的问题匹配过程中建立倒排索引进行原语句检索和同义词的查询扩展检索。优选的,为了使生成的句子更加具有逻辑性和结构性,所述步骤C中,对话模型使用seq2seq模型进行对话回复的生成,并在其中加入了Attention机制,同时也在解码端加入了BeamSearch机制。本专利技术的有益效果是:该基于检索和生产混合问答的流程系统设计合理,分类器能够感知问题的上下文,通过与问题的上下文结合,能够对问题的分类具有极高的准确率,分类器使用基于深度学习的分类模型和正则表达式识别相结合的方法进行问题的分类,能够提取问题中的重要属性调用相应的api进行实时查询,具有较强的实时性,候选集检索系统的问题匹配过程中建立倒排索引进行原语句检索和同义词的查询扩展检索,能够搜索出来与问题最相近的句子,解决了检索系统搜索不精确的问题,步骤C中,对话模型使用seq2seq模型进行对话回复的生成,并在其中加入了Attention机制,同时也在解码端加入了BeamSearch机制,加入了Attention机制和BeamSearch的Seq2Seq模型生成的句子更加具有逻辑性和结构性,增加了回复的多样性。附图说明图1为本专利技术结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,一种基于检索和生产混合问答的流程系统,包括分类器,对一个query进行分类。候选集,对于未能进行分类的问题,在检索系统找寻与该问题最接近的问题,筛选出来的候选句子集。数据库,用于储存各种问题问句,便于找寻与所提问题语义最相近的问句模型筛选,调用生成系统生成对应答案给出回复。其中,所述分类器将所提问题分为“天气”、“新闻”、“笑话”、“航班/高铁”,“附近(地理位置)”和“其他”六种类型,所述候选集使用基于循环神经网络的自编码模型来得到每个句子的向量表达,所述候选集使用BM25评分方法进行问题与数据库内的句子进行相似度计算,所述模型筛选使用了基于Seq2Seq的模型进行生成系统的搭建。一种基于检索和生产混合问答的流程系统,主要包括以下步骤:步骤A,使用了基于卷积神经网络(CNN)的分类模型和基于正则表达式两种方法来构建query分类器。步骤B,在建立检索系统时,选择了key-value内存数据库redis进行倒排索引搭建和问答语料存储,使用python实现了普通检索、扩展查询、BM25模型的相似度评价等功能,并使用Tensorflow训练了自编码模型来解决检索时句子的语义识别问题。步骤C,选择开源框架Tensorflow进行对话模型以建立对话生成系统,Tensorflow是google开发的人工智能框架平台,可用于图像和自然语言处理等多项深度学习领域。所述分类器能够感知问题的上下文,通过与问题的上下文结合,能够对问题的分类具有极高的准确率,所述分类器使用基于深度学习的分类模型和正则表达式识别相结合的方法进行问题的分类,能够提取问题中的重要属性调用相应的api进行实时查询,具有较强的实时性,所述候选集检索系统的问题匹配过程中建立倒排索引进行原语句检索和同义词的查询扩展检索,能够搜索出来与问题最相近的句子,解决了检索系统搜索不精确的问题,所述步骤C中,对话模型使用s本文档来自技高网
...

【技术保护点】
1.一种基于检索和生产混合问答的流程系统,其特征在于:包括分类器,对一个query进行分类;候选集,对于未能进行分类的问题,在检索系统找寻与该问题最接近的问题,筛选出来的候选句子集;数据库,用于储存各种问题问句,便于找寻与所提问题语义最相近的问句;模型筛选,调用生成系统生成对应答案给出回复;其中,所述分类器将所提问题分为“天气”、“新闻”、“笑话”、“航班/高铁”,“附近”和“其他”六种类型,所述候选集使用基于循环神经网络的自编码模型来得到每个句子的向量表达,所述候选集使用BM25评分方法进行问题与数据库内的句子进行相似度计算,所述模型筛选使用了基于Seq2Seq的模型进行生成系统的搭建。

【技术特征摘要】
1.一种基于检索和生产混合问答的流程系统,其特征在于:包括分类器,对一个query进行分类;候选集,对于未能进行分类的问题,在检索系统找寻与该问题最接近的问题,筛选出来的候选句子集;数据库,用于储存各种问题问句,便于找寻与所提问题语义最相近的问句;模型筛选,调用生成系统生成对应答案给出回复;其中,所述分类器将所提问题分为“天气”、“新闻”、“笑话”、“航班/高铁”,“附近”和“其他”六种类型,所述候选集使用基于循环神经网络的自编码模型来得到每个句子的向量表达,所述候选集使用BM25评分方法进行问题与数据库内的句子进行相似度计算,所述模型筛选使用了基于Seq2Seq的模型进行生成系统的搭建。2.根据权利要求1所述的一种基于检索和生产混合问答的流程系统,其特征在于,所述流程系统包括以下步骤:步骤A,使用了基于卷积神经网络的分类模型和基于正则表达式两种方法来构建query分类器;步骤B,在建立检索系统时,选择了key-value内存数据库redis进行倒排索引搭建和问答语料存储,使用p...

【专利技术属性】
技术研发人员:王春辉
申请(专利权)人:逸途北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1