一种问题的应答方法及装置制造方法及图纸

技术编号:18894597 阅读:38 留言:0更新日期:2018-09-08 11:00
本发明专利技术实施例公开了一种问题的应答方法,包括:获取目标问题信息,根据目标问题信息确定候选问答对,计算候选问答对中的答案信息的置信度;其中,置信度用于指示候选问答对中的问题信息属于应答数据库或干扰数据库的概率,置信度与候选问答对中的问题信息属于应答数据库的概率正相关,判断置信度是否小于第一预设阈值,当置信度小于第一预设阈值时,则输出无法回答。这样,在根据匹配度从知识库中确定候选问答对后,再计算每个答案信息的置信度,置信度越高,则可以输出该答案信息,若置信度较低,则可以输出无法回答,以免误导用户,提高了应答的准确性。

A method and device for answering questions

The embodiment of the present invention discloses a method for answering a question, which includes: acquiring target question information, determining candidate question-answer pairs according to target question information, calculating confidence of answer information of candidate question-answer pairs, wherein confidence is used to indicate that the question information of candidate question-answer pairs belongs to a response database or an interference database. The probability and confidence are positively correlated with the probability that the question information in the candidate question and answer pairs belongs to the answering database. The output can not be answered when the confidence is less than the first preset threshold. In this way, after the candidate question and answer pairs are determined from the knowledge base according to the matching degree, the confidence level of each answer information is calculated. The higher the confidence level, the answer information can be output. If the confidence level is low, the answer can not be output, so as to avoid misleading the user and improve the accuracy of the response.

【技术实现步骤摘要】
一种问题的应答方法及装置
本专利技术涉及智能处理领域,尤其涉及一种问题的应答方法及装置。
技术介绍
自动问答系统(或简称问答系统)是指对于用户用自然语言提出的问题,能够直接给出答案的系统。按照问题的范围,问答系统可以分为开放领域(opendomain)和特定领域(closedomain)。顾名思义,开放领域问答系统对于问题的范围不做限制,希望能回答所有世界知识的问题,例如百度知道、YahooAnswers都是这样的系统。而特定领域系统则专注于回答特定领域的问题,如医疗行业、或者某个特定公司等,例如IBMWatson、StackOverflow都是这样的系统。问答系统实现方法,包括基于信息检索、基于结构化知识库、基于深度神经网络模型等等。无论那种方法,问答系统都是基于一个知识库构建的。知识库可以是各种形式的,如结构化的数据库、非结构化的文本语料库等。对于非结构化知识库,基于信息检索的问答系统是目前主流实现方式,常用的问答网站(如:百度知道、YahooAnswers、Quora、StackOverflow),都是基于信息检索的问答系统。问答系统的评价指标主要为其回答问题的准确性,这也是目前大多数关于问答系统的研究和应用关注的重点。但在实际应用中,无论开放领域还是特定领域,任何一个问答系统的知识库都是有限的,所以问答系统能够回答的问题的范围也是一定是有限的。对于问答系统不能回答的问题,本文称之为未知问题(unknownquestion)。现有技术中提供了一种基于信息检索的问答系统。该系统中应用于知识库为非结构化的文本语料库的情况。通常,在社区问答系统中,知识库是由很多“问题-答案”对组成,其中问题和答案均为自然语言。使用搜索引擎索引整个知识库,每个“问题-答案”对(简称“问答对”)作为一个“文档”索引。具体方式为:对于用户输入的问题,对其进行分析和处理后,作为查询词检索知识库,并得到候选文档(问答对)列表。基于候选问答对列表进行答案的选择或融合,形成最终答案,并返回给用户。但是,在基于信息检索的问答系统中,当无法准确匹配到知识库中的问答对时,通常无法保证答案的准确性。例如,假设问答系统的知识库包含如下三个问题:1、问题:“2008年夏季奥运会的举办地是?”,答案:“北京”;2、问题:“哪个城市承办了2012年奥运?”,答案:“伦敦”;3、“2014年冬季奥运会在哪里举行?”,答案:“索契”。当用户输入的问题为“2016年夏季奥运会的举办地在?”时,搜索引擎会检索该问题库,并计算用户问题与知识库中问题的匹配度,然后判断得到知识库中的第一个问题与用户问题的匹配度最高,从而给出相应的答案:“北京”。但这显然是错误的答案(正确答案为“里约”,不在知识库中)。基于该问答系统的知识库的情况,最合适的回答应该为“无法回答该问题”,即认为该用户问题为未知问题。这样做的原因在于,“无法回答”在这时是一个正确的信息反馈,优于将一个错误的答案返回给用户。总之,基于信息检索的问答系统没有有效的识别未知问题的机制。原则上,它只能找到知识库中与用户问题相对最匹配的问题,并将相应的答案返回给用户。这时,对于超出问答系统知识库范围的问题,它往往会给用户错误的答案,从而对用户造成误导,甚至损失。
技术实现思路
本专利技术实施例提供了一种问题的应答方法,能够识别出用户所提出的问题是否为未知问题,提高应答的准确性。本专利技术实施例第一方面提供一种问题的应答方法,包括:获取用户输入的目标问题信息,再通过搜索引擎从知识库中根据目标问题信息确定候选问答对,计算每个候选问答对中的答案信息的置信度,其中,置信度用于指示候选问答对中的问题信息属于应答数据库或干扰数据库的概率,并且,置信度与候选问答对中的问题信息属于所述应答数据库的概率正相关,应答数据库中存储的是标准问答对,干扰数据库中存储的是干扰问题信息,再判断每个答案信息的置信度是否小于第一预设阈值,若否,则输出所对应的答案信息;若是,则输出无法回答。这样,在根据匹配度从知识库中确定候选问答对后,再计算每个答案信息的置信度,置信度越高,则表示所对应的问题信息属于储存标准问答对的应答知识库的概率越高,从而表示该答案信息的正确性越高,因此可以输出该答案信息,若置信度较低,则表示所对应的问题信息属于干扰数据库的概率较高,从而确定该目标问题为未知问题,因此可以输出无法回答,以免误导用户,提高了应答的准确性。一种可能的实现方式中,判断所述置信度是否小于第一预设阈值还可以为:判断置信度与匹配度的融合值是否小于第一预设阈值,其中,匹配度为所述目标问题信息与应答数据库中所存储的问题信息的匹配度,置信度和匹配度分别与所述融合值正相关。由于匹配度也可以作为问题准确性的判断依据,因此,可以结合答案信息的置信度以及问题信息的匹配度进行融合计算,比如通过乘积进行计算融合值,当一个答案的置信度为0.8,该答案所对应的问题的匹配度为0.9时,那么其融合值为0.72,再根据该融合值来确定是否输出该答案信息。另一种可能的实现方式中,在获取目标问题信息之前,还可以先建立虚拟模型生成器,通过生成器从应答数据库选取M个问题集合,并根据M个问题集合训练生成N个干扰问题;将N个干扰问题保存在干扰数据库中。其中,M和N均为大于或等于1的正整数,M和N的取值可以相同,也可以不相同。另一种可能的实现方式中,还可以先建立虚拟模型判别器,通过判别器从所述应答数据库中选取K个问题集合和从所述干扰数据库中选取L个问题集合,以所述K个问题集合作为正例样本,以所述L个问题集合作为负例样本;其中,K和L均为大于或等于1的正整数,K和L的取值可以相同,也可以不相同。判别器根据所述正例样本和所述负例样本对所述生成器进行模型训练,通过训练后的判别器的模型对生成器所生成的每个干扰问题的归属率进行判别,并将判别结果发送给所述生成器;其中所述归属率用于指示问题属于应答数据库或者干扰数据库的概率。在对用户的问题进行应答之前,还可以在设备处理离线状态时通过生成器和判别器的对抗性训练来增加设备应答用户的问题的能力。对抗性训练指的是通过生成器不断生成与应答知识库中的问题相似的问题信息作为干扰问题,通过判别器来判别生成器所生成的问题的归属的概率,即通过判别器判别生成器生成的问题属于应答数据库的概率或者属于干扰数据库的概率,再将判别结果发送给生成器,生成器从而根据该判别结果生成新的干扰问题,从而使得生成器的能力提高,能够生成与应答数据库中的更相似的干扰问题,而判别器继续获取新的干扰问题作为负例样本,从而提高了判别器的判别能力,以此循环训练,从而提高了设备计算答案的置信度,进而提高了设备应答用户的问题的准确性。本专利技术实施例第二方面提供一种问题的应答装置,包括:获取单元,用于获取目标问题信息;确定单元,用于根据所述目标问题信息确定候选问答对;计算单元,用于计算所述候选问答对中的答案信息的置信度;其中,所述置信度用于指示所述候选问答对中的问题信息属于应答数据库或干扰数据库的概率,所述置信度与所述候选问答对中的问题信息属于所述应答数据库的概率正相关,所述应答数据库为存储标准问答对的数据库,所述干扰数据库为存储所训练出的干扰问题信息的数据库;判断单元,用于判断所述置信度是否小于第一预设阈值;输出单元,本文档来自技高网
...

【技术保护点】
1.一种问题的应答方法,其特征在于,所述应答方法包括:获取目标问题信息;根据所述目标问题信息确定候选问答对;计算所述候选问答对中的答案信息的置信度;其中,所述置信度用于指示所述候选问答对中的问题信息属于应答数据库或干扰数据库的概率,所述置信度与所述候选问答对中的问题信息属于所述应答数据库的概率正相关,所述应答数据库为存储标准问答对的数据库,所述干扰数据库为存储所训练出的干扰问题信息的数据库;判断所述置信度是否小于第一预设阈值;当所述置信度小于所述第一预设阈值时,输出无法回答。

【技术特征摘要】
1.一种问题的应答方法,其特征在于,所述应答方法包括:获取目标问题信息;根据所述目标问题信息确定候选问答对;计算所述候选问答对中的答案信息的置信度;其中,所述置信度用于指示所述候选问答对中的问题信息属于应答数据库或干扰数据库的概率,所述置信度与所述候选问答对中的问题信息属于所述应答数据库的概率正相关,所述应答数据库为存储标准问答对的数据库,所述干扰数据库为存储所训练出的干扰问题信息的数据库;判断所述置信度是否小于第一预设阈值;当所述置信度小于所述第一预设阈值时,输出无法回答。2.根据权利要求1所述的应答方法,其特征在于,所述判断所述置信度是否小于第一预设阈值,包括:判断所述置信度与匹配度的融合值是否小于所述第一预设阈值,其中,所述匹配度为所述目标问题信息与所述应答数据库中所存储的问题信息的匹配度,所述置信度和所述匹配度分别与所述融合值正相关。3.根据权利要求1或2所述的应答方法,其特征在于,在所述获取目标问题信息之前,所述应答方法还包括:将所述应答数据库中的M个问题集合输入至生成器,以使得所述生成器进行模型训练,并根据训练后的模型生成N个干扰问题;获取所述生成器所生成的N个干扰问题,并将所述N个干扰问题保存在所述干扰数据库中。4.根据权利要求3所述的应答方法,其特征在于,在所述获取目标问题信息之前,所述应答方法还包括:将所述应答数据库中的K个问题集合和所述干扰数据库中的L个问题集合输入至判别器,以使得所述判别器以所述K个问题集合作为正例样本,以所述L个问题集合作为负例样本进行模型训练;将所述生成器所生成的干扰问题输入至所述判别器,以使得所述判别器对所述干扰问题进行归属率判别,其中,所述归属率用于指示问题属于应答数据库或者干扰数据库的概率;获取所述判别器对所述干扰问题的判别结果;将所述判别结果输入至所述生成器,以使得所述生成器根据所述判别器所判别的干扰问题以及所述判别结果进行模型训练,并根据训练后的模型生成新的干扰问题;获取所述生成器所生成的新的干扰问题,并将所述新的干扰问题保存在所述干扰数据库中。5.根据权利要求4所述的应答方法,其特征在于,所述应答方法还包括:将所述应答数据库中随机的K个问题集合和所述干扰数据库中随机的L个问题集合输入至所述判别器,以使得所述判别器以所述K个问题集合作为正例样本,以所述L个问题集合作为负例样本进行模型训练;其中,所述L个问题集合中包含所述新生成的干扰问题。6.根据权利要求5所述的应答方法,其特征在于,所述应答方法还包括:当所述判别器根据所获取的所有正例样本和负例样本进行问题的归属率的判别所得到的判别结果的变化量小于第二预设阈值时,则停止向所述判别器输入从所述应答数据库以及所述干扰数据库中选取的问题集合,并停止向所述所述生成器输入所述判别器的判别结果。7.一种问题的应答装置,其特征在于,所述应答装置包括:获取单元,用于获取目标问题信息;确定单元,用于根据所述目...

【专利技术属性】
技术研发人员:蒋欣李航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1