The embodiment of the present invention discloses a method for answering a question, which includes: acquiring target question information, determining candidate question-answer pairs according to target question information, calculating confidence of answer information of candidate question-answer pairs, wherein confidence is used to indicate that the question information of candidate question-answer pairs belongs to a response database or an interference database. The probability and confidence are positively correlated with the probability that the question information in the candidate question and answer pairs belongs to the answering database. The output can not be answered when the confidence is less than the first preset threshold. In this way, after the candidate question and answer pairs are determined from the knowledge base according to the matching degree, the confidence level of each answer information is calculated. The higher the confidence level, the answer information can be output. If the confidence level is low, the answer can not be output, so as to avoid misleading the user and improve the accuracy of the response.
【技术实现步骤摘要】
一种问题的应答方法及装置
本专利技术涉及智能处理领域,尤其涉及一种问题的应答方法及装置。
技术介绍
自动问答系统(或简称问答系统)是指对于用户用自然语言提出的问题,能够直接给出答案的系统。按照问题的范围,问答系统可以分为开放领域(opendomain)和特定领域(closedomain)。顾名思义,开放领域问答系统对于问题的范围不做限制,希望能回答所有世界知识的问题,例如百度知道、YahooAnswers都是这样的系统。而特定领域系统则专注于回答特定领域的问题,如医疗行业、或者某个特定公司等,例如IBMWatson、StackOverflow都是这样的系统。问答系统实现方法,包括基于信息检索、基于结构化知识库、基于深度神经网络模型等等。无论那种方法,问答系统都是基于一个知识库构建的。知识库可以是各种形式的,如结构化的数据库、非结构化的文本语料库等。对于非结构化知识库,基于信息检索的问答系统是目前主流实现方式,常用的问答网站(如:百度知道、YahooAnswers、Quora、StackOverflow),都是基于信息检索的问答系统。问答系统的评价指标主要为其回答问题的准确性,这也是目前大多数关于问答系统的研究和应用关注的重点。但在实际应用中,无论开放领域还是特定领域,任何一个问答系统的知识库都是有限的,所以问答系统能够回答的问题的范围也是一定是有限的。对于问答系统不能回答的问题,本文称之为未知问题(unknownquestion)。现有技术中提供了一种基于信息检索的问答系统。该系统中应用于知识库为非结构化的文本语料库的情况。通常,在社区问答系统中,知识库是 ...
【技术保护点】
1.一种问题的应答方法,其特征在于,所述应答方法包括:获取目标问题信息;根据所述目标问题信息确定候选问答对;计算所述候选问答对中的答案信息的置信度;其中,所述置信度用于指示所述候选问答对中的问题信息属于应答数据库或干扰数据库的概率,所述置信度与所述候选问答对中的问题信息属于所述应答数据库的概率正相关,所述应答数据库为存储标准问答对的数据库,所述干扰数据库为存储所训练出的干扰问题信息的数据库;判断所述置信度是否小于第一预设阈值;当所述置信度小于所述第一预设阈值时,输出无法回答。
【技术特征摘要】
1.一种问题的应答方法,其特征在于,所述应答方法包括:获取目标问题信息;根据所述目标问题信息确定候选问答对;计算所述候选问答对中的答案信息的置信度;其中,所述置信度用于指示所述候选问答对中的问题信息属于应答数据库或干扰数据库的概率,所述置信度与所述候选问答对中的问题信息属于所述应答数据库的概率正相关,所述应答数据库为存储标准问答对的数据库,所述干扰数据库为存储所训练出的干扰问题信息的数据库;判断所述置信度是否小于第一预设阈值;当所述置信度小于所述第一预设阈值时,输出无法回答。2.根据权利要求1所述的应答方法,其特征在于,所述判断所述置信度是否小于第一预设阈值,包括:判断所述置信度与匹配度的融合值是否小于所述第一预设阈值,其中,所述匹配度为所述目标问题信息与所述应答数据库中所存储的问题信息的匹配度,所述置信度和所述匹配度分别与所述融合值正相关。3.根据权利要求1或2所述的应答方法,其特征在于,在所述获取目标问题信息之前,所述应答方法还包括:将所述应答数据库中的M个问题集合输入至生成器,以使得所述生成器进行模型训练,并根据训练后的模型生成N个干扰问题;获取所述生成器所生成的N个干扰问题,并将所述N个干扰问题保存在所述干扰数据库中。4.根据权利要求3所述的应答方法,其特征在于,在所述获取目标问题信息之前,所述应答方法还包括:将所述应答数据库中的K个问题集合和所述干扰数据库中的L个问题集合输入至判别器,以使得所述判别器以所述K个问题集合作为正例样本,以所述L个问题集合作为负例样本进行模型训练;将所述生成器所生成的干扰问题输入至所述判别器,以使得所述判别器对所述干扰问题进行归属率判别,其中,所述归属率用于指示问题属于应答数据库或者干扰数据库的概率;获取所述判别器对所述干扰问题的判别结果;将所述判别结果输入至所述生成器,以使得所述生成器根据所述判别器所判别的干扰问题以及所述判别结果进行模型训练,并根据训练后的模型生成新的干扰问题;获取所述生成器所生成的新的干扰问题,并将所述新的干扰问题保存在所述干扰数据库中。5.根据权利要求4所述的应答方法,其特征在于,所述应答方法还包括:将所述应答数据库中随机的K个问题集合和所述干扰数据库中随机的L个问题集合输入至所述判别器,以使得所述判别器以所述K个问题集合作为正例样本,以所述L个问题集合作为负例样本进行模型训练;其中,所述L个问题集合中包含所述新生成的干扰问题。6.根据权利要求5所述的应答方法,其特征在于,所述应答方法还包括:当所述判别器根据所获取的所有正例样本和负例样本进行问题的归属率的判别所得到的判别结果的变化量小于第二预设阈值时,则停止向所述判别器输入从所述应答数据库以及所述干扰数据库中选取的问题集合,并停止向所述所述生成器输入所述判别器的判别结果。7.一种问题的应答装置,其特征在于,所述应答装置包括:获取单元,用于获取目标问题信息;确定单元,用于根据所述目...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。