The invention discloses a process system based on retrieval and production mixed question answering, including classifiers, candidate sets, databases and model selection. The beneficial effect of this invention is that the classifier can perceive the context of the problem, and can have a high accuracy rate to the classification of the problem. The classifier uses the method of combining the classification model based on the depth learning and the regular expression recognition to classify the problem, and can extract the important attribute of the problem and call the corresponding API. In the process of real-time query, in the problem matching process of candidate set retrieval system, the inverted index is set up to retrieve the original language and the query expansion of the synonyms. It can search the most similar sentences with the problem, and solve the problem of the retrieval system search inaccuracy. The dialogue model uses the seq2seq model to generate the dialogue reply. In addition, the Attention mechanism is added, and the BeamSearch mechanism is added to the decoder. The sentences generated are more logical and structural, and the diversity of the response is increased.
【技术实现步骤摘要】
一种基于检索和生产混合问答的流程系统
本专利技术涉及一种流程系统,具体为一种基于检索和生产混合问答的流程系统,属于信息检索处理
技术介绍
近些年来,问答机器人由于其广泛的应用场景和巨大的商业价值,受到越来越多的广大科技型公司和科研机构的重视,因此也出现了很多优秀的产品,如微软的小冰,apple的Siri,google的谷歌助手。不像其他的传统电子app,人们不需要输入固定的命令语言(比如:“提交”、“购买”),而可以使用人类语言与app进行交流。问答系统一直以来被认为是人工智能领域最难的问题之一。但是随着最近几年来各种问答社区和社交网站的出现,对话语料的数量出现了爆炸性的增长,并且硬件的发展使得计算机的计算力大大提高,这一切都为问答系统的发展提供了新的机遇。问答系统可以分为基于垂直领域和开放领域两种,开放领域主要是闲聊类,垂直领域主要是助手类,当前建立对话机器人的主流技术主要是基于检索模型和生成模型两种。在检索模型中,系统会根据所给的问题从Question-Answer数据库中找寻与该问题语义最相近的问句,然后返回该问句对应的答案,该方法的主要问题有两个:第一个是数据库中Question-Answer对数量有限,有可能检索不到用户提出的问题的答案。第二个问题是Question-Answer对是固定的,可能无法根据用户提出的问题得到完全对应的答案。在生成模型中,对话系统会首先理解用户提出的问题,然后逐字的生成对应于该问题的答案。目前主流的方法是深度学习中Seq2Seq模型,该模型先用encoder端将问句编码为一个向量表示,再由decoder端将该 ...
【技术保护点】
1.一种基于检索和生产混合问答的流程系统,其特征在于:包括分类器,对一个query进行分类;候选集,对于未能进行分类的问题,在检索系统找寻与该问题最接近的问题,筛选出来的候选句子集;数据库,用于储存各种问题问句,便于找寻与所提问题语义最相近的问句;模型筛选,调用生成系统生成对应答案给出回复;其中,所述分类器将所提问题分为“天气”、“新闻”、“笑话”、“航班/高铁”,“附近”和“其他”六种类型,所述候选集使用基于循环神经网络的自编码模型来得到每个句子的向量表达,所述候选集使用BM25评分方法进行问题与数据库内的句子进行相似度计算,所述模型筛选使用了基于Seq2Seq的模型进行生成系统的搭建。
【技术特征摘要】
1.一种基于检索和生产混合问答的流程系统,其特征在于:包括分类器,对一个query进行分类;候选集,对于未能进行分类的问题,在检索系统找寻与该问题最接近的问题,筛选出来的候选句子集;数据库,用于储存各种问题问句,便于找寻与所提问题语义最相近的问句;模型筛选,调用生成系统生成对应答案给出回复;其中,所述分类器将所提问题分为“天气”、“新闻”、“笑话”、“航班/高铁”,“附近”和“其他”六种类型,所述候选集使用基于循环神经网络的自编码模型来得到每个句子的向量表达,所述候选集使用BM25评分方法进行问题与数据库内的句子进行相似度计算,所述模型筛选使用了基于Seq2Seq的模型进行生成系统的搭建。2.根据权利要求1所述的一种基于检索和生产混合问答的流程系统,其特征在于,所述流程系统包括以下步骤:步骤A,使用了基于卷积神经网络的分类模型和基于正则表达式两种方法来构建query分类器;步骤B,在建立检索系统时,选择了key-value内存数据库redis进行倒排索引搭建和问答语料存储,使用p...
【专利技术属性】
技术研发人员:王春辉,
申请(专利权)人:逸途北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。