一种确定应答信息的方法和装置制造方法及图纸

技术编号:24206509 阅读:58 留言:0更新日期:2020-05-20 14:53
本申请实施例公开了一种确定应答信息方法和装置,属于互联网技术领域。所述方法包括:获取提问信息;通过ES检索系统获取到提问信息对应的K个第一候选相似问;将提问信息和K个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的提问信息对应的第二候选相似问;在与提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定提问信息对应的预测真实相似问;在预先存储的相似问和应答信息的对应关系中,获取预测真实相似问对应的应答信息,作为提问信息对应的应答信息。采用本申请,可以提高应答信息确定的效率。

A method and device for determining response information

【技术实现步骤摘要】
一种确定应答信息的方法和装置
本申请涉及互联网
,特别涉及一种确定应答信息的方法和装置。
技术介绍
随着自然语言处理(NLP,naturallanguageprocessing)技术的发展,常见问题解答(FAQ,frequentlyaskedquestions)问答系统得以在各行各业的客服工作中被广泛使用。例如,在手机银行的客服业务中,用户在手机银行中输入需要咨询的问题后,手机银行会通过FAQ问答系统检索该问题的答案,返回给用户,该过程无需人工客服参与,节省了大量人力,同时提高了用户咨询效率。当前的FAQ问答系统,通常采用弹性搜索(ES,elasticsearch)检索系统实现。ES检索系统通常会使用到FAQ知识库,在该FAQ知识库中需要存储有相似问和对应的答案。其中,相似问是由不同表达方式、不同语言组织形式组成的一类问题的表述,实质都是指同一个问题。例如,这件衣服多少钱、这件衣服的价钱是多少、多少钱可以买到这件衣服,这三个问题实质都是在问这件衣服的价钱,则这三个问题互为相似问。在使用ES检索系统实现FAQ问答系统时,通常包括如下步骤:获取到用户输入的问题,对问题进行分词处理,得到多个关键词。然后,根据关键词在FAQ知识库中检索出该问题对应的候选相似问。此处,在FAQ知识库中包含上述检索的关键词的相似问均可以作为该问题的候选相似问。再然后,ES检索系统可以对候选相似问进行打分,并按照分数由高到低的顺序对候选相似问进行排序。之后,将排在前k的候选相似问作为该问题的相似问,并检索该问题的各相似问对应的答案,返回给用户。在实现本申请的过程中,专利技术人发现相关技术至少存在以下问题:上述方法中,根据关键词检索到的不同相似问可能并非指同一问题,那么,返回给用户的答案中可能会有存在多个答案,用户需要自己在这些答案中找到自己需要的正确答案,可见,用户得到需要的正确答案的过程繁琐,需要人工参与,效率较低。
技术实现思路
为了解决相关技术中确定答案的效率较低的问题,本申请实施例提供了一种确定应答信息的方法和装置。所述技术方案如下:第一方面、提供了一种确定应答信息的方法,该方法包括:获取提问信息;通过ES检索系统获取到所述提问信息对应的K个第一候选相似问,其中,K为预设正整数,所述K个第一候选相似问为所述ES检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的K个相似问;将所述提问信息和所述K个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。本申请实施例所示的方案中,用户可以通过终端向用于检索应答信息的服务器发送提问信息。服务器通过ES检索系统检到K个候选相似问。ES检索系统在检索候选相似问时,可以采用现有的检索逻辑,根据提问信息对ES检索库中相似问进行评分,将评分最高的K个第一候选相似问返回给服务器。服务器可以再将K个第一候选相似问和提问信息作为一组输入,输入到每个训练后的目标分类器模型中。每个目标分类器模型输出一个第二候选相似问,第二候选相似问为K个第一候选相似问中的一个候选相似问。然后,服务器可以根据综合ES检索系统检索到的与提问信息的相似程度最高的第一候选相似问,以及多个目标分类器模型各自输出的第二候选相似问,来确定出提问信息对应的预测真实相似问。例如,可以统计出上述与提问信息的相似程度最高的第一候选相似问和第二候选相似问中,每种相同的候选相似问的数目。将最大数目对应的候选相似问,确定提问信息对应的预测真实相似问。最后,可以在存储的相似问和应答信息的对应关系中,查询该预测真实相似问对应的应答信息,作为提问信息对应的应答信息。通过本申请实施例提供的方法,根据分类器模型输出的第二候选相似问,以及K个第一候选相似问中与提问信息的相似程度最高的第一候选相似问,综合决策得到一个预测真实相似问,并该预测真实相似问对应的应答信息返回给用户。这样,无需用户自己在多个应答信息中自己选择,可以提高用户获取应答信息的效率。在一种可能的实现方式中,所述方法还包括:建立训练样本库,其中,所述训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同;在所述训练样本库中获取训练相似问作为训练提问信息,通过ES检索系统在所述训练样本库中获取到所述训练提问信息对应的H个训练候选相似问,其中,H为预设正整数,所述H个训练候选相似问为所述ES检索系统检索到的训练候选相似问中,与所述训练提问信息的相似程度最高的H个训练候选相似问;将所述H个训练候选相似问中所述训练提问信息对应的真实相似问作为单组正例样本,在除所述单组正例样本以外的训练候选相似问中,选取出负例样本;将所述负例样本分为M组,将每组负例样本、所述单组正例样本和训练提问信息作为一组样本输入,其中,M为预设正整数;基于M组样本输入,分别对M个待训练的目标分类器模型进行训练,得到训练后的M个目标分类器模型。本申请实施例所示的方案中,目标分类器模型可以为词袋(bow,bagofwords)模型,卷积神经网络(cnn,convolutionalneuralnetworks)模型,深度神经网络(dnn,deepneuralnetworks)模型等,不同的目标分类器模型可以为不同类型的模型。在使用这些目标分类器模型之前,需要对其进行训练,得到训练后的目标分类器模型。在一种可能的实现方式中,所述方法还包括:建立测试样本库,其中,所述测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;在所述测试样本库中获取多个测试相似问作为测试提问信息;对于每个测试提问信息,通过ES检索系统在所述测试样本库中获取到所述测试提问信息对应的K个第一测试相似问,将所述测试提问信息和所述K个第一测试相似问作为输入测试集,输入训练后的M个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二测试相似问;对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定所述目标分类器模型的准确度;根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型。本申请实施例所示的方案中,在对目标分类器模型进行训练后,为了获知训练后的目标分类器模型的准确度,可以对训练后的目标分类器模型进行测试,以确定出每个训练后的目标分类器模型的准确度。在一种可能的实现方式中,所述根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:根据每个目标分类器模型的准确度,确定所述训练后的M个目本文档来自技高网
...

【技术保护点】
1.一种确定应答信息的方法,其特征在于,所述方法包括:/n获取提问信息;/n通过ES检索系统获取到所述提问信息对应的K个第一候选相似问,其中,K为预设正整数,所述K个第一候选相似问为所述ES检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的K个相似问;/n将所述提问信息和所述K个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;/n在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;/n在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。/n

【技术特征摘要】
1.一种确定应答信息的方法,其特征在于,所述方法包括:
获取提问信息;
通过ES检索系统获取到所述提问信息对应的K个第一候选相似问,其中,K为预设正整数,所述K个第一候选相似问为所述ES检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的K个相似问;
将所述提问信息和所述K个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;
在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;
在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立训练样本库,其中,所述训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同;
在所述训练样本库中获取训练相似问作为训练提问信息,通过ES检索系统在所述训练样本库中获取到所述训练提问信息对应的H个训练候选相似问,其中,H为预设正整数,所述H个训练候选相似问为所述ES检索系统检索到的训练候选相似问中,与所述训练提问信息的相似程度最高的H个训练候选相似问;
将所述H个训练候选相似问中所述训练提问信息对应的真实相似问作为单组正例样本,在除所述单组正例样本以外的训练候选相似问中,选取出负例样本;
将所述负例样本分为M组,将每组负例样本、所述单组正例样本和训练提问信息作为一组样本输入,其中,M为预设正整数;
基于M组样本输入,分别对M个待训练的目标分类器模型进行训练,得到训练后的M个目标分类器模型。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
建立测试样本库,其中,所述测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;
在所述测试样本库中获取多个测试相似问作为测试提问信息;
对于每个测试提问信息,通过ES检索系统在所述测试样本库中获取到所述测试提问信息对应的K个第一测试相似问,将所述测试提问信息和所述K个第一测试相似问作为输入测试集,输入训练后的M个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二测试相似问;
对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定所述目标分类器模型的准确度;
根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型。


4.根据权利要求3所述的方法,其特征在于,所述根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:
根据每个目标分类器模型的准确度,确定所述训练后的M个目标分类器模型的准确度均值,将准确度大于所述准确度均值的目标分类器模型,作为待使用的目标分类器模型。


5.根据权利要求3所述的方法,其特征在于,所述根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:
根据每个目标分类器模型的准确度,确定所述训练后的M个目标分类器模型的准确度均值和准确度标准差;
计算所述准确度均值和所述准确度标准差之间的差值绝对值,将准确度大于所述差值绝对值的目标分类器模型,作为待使用的目标分类器模型。


6.根据权利要求3-5中任一项所述的方法,其特征在于,所述方法还包括:
根据与所述各测试提问信息的相似程度最高的第一候选相似问,是否为所述测试提问信息对应的真实相似问,确定所述ES检索系统的准确度;
根据待使用的目标分类器模型的准确度和所述ES检索系统的准确度,确定每个待使用的目标分类器模型的决策权重,与所述ES检索系统的决策权重;
所述在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的所述提问信息对应的第二候选相似问中,确定所述提问信息对应的预测真实相似问,包括:
确定出各第二候选相似问和与所述提问信息的相似程度最高的第一候选相似问中相同的候选相似问,对于每个相同的目标候选相似问,确定所述目标候选相似问对应的目标分类器模型或者ES检索系统的决策权重之和;
将所述决策权重之和最大的目标候选相似问,确定为所述提问信息对应的预测真实相似问。


7.一种确定应答信息的装置,其特征在于,所述装置包括:
获取模块,用于获取提问信息;

【专利技术属性】
技术研发人员:蒋圭峰孙非凡王昭升袁建勇
申请(专利权)人:西安华为技术有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1