【技术实现步骤摘要】
一种确定应答信息的方法和装置
本申请涉及互联网
,特别涉及一种确定应答信息的方法和装置。
技术介绍
随着自然语言处理(NLP,naturallanguageprocessing)技术的发展,常见问题解答(FAQ,frequentlyaskedquestions)问答系统得以在各行各业的客服工作中被广泛使用。例如,在手机银行的客服业务中,用户在手机银行中输入需要咨询的问题后,手机银行会通过FAQ问答系统检索该问题的答案,返回给用户,该过程无需人工客服参与,节省了大量人力,同时提高了用户咨询效率。当前的FAQ问答系统,通常采用弹性搜索(ES,elasticsearch)检索系统实现。ES检索系统通常会使用到FAQ知识库,在该FAQ知识库中需要存储有相似问和对应的答案。其中,相似问是由不同表达方式、不同语言组织形式组成的一类问题的表述,实质都是指同一个问题。例如,这件衣服多少钱、这件衣服的价钱是多少、多少钱可以买到这件衣服,这三个问题实质都是在问这件衣服的价钱,则这三个问题互为相似问。在使用ES检索系统实现FAQ问答系统时,通常包括如下步骤:获取到用户输入的问题,对问题进行分词处理,得到多个关键词。然后,根据关键词在FAQ知识库中检索出该问题对应的候选相似问。此处,在FAQ知识库中包含上述检索的关键词的相似问均可以作为该问题的候选相似问。再然后,ES检索系统可以对候选相似问进行打分,并按照分数由高到低的顺序对候选相似问进行排序。之后,将排在前k的候选相似问作为该问题的相似问,并检索该问题的各相似问对应的答案, ...
【技术保护点】
1.一种确定应答信息的方法,其特征在于,所述方法包括:/n获取提问信息;/n通过ES检索系统获取到所述提问信息对应的K个第一候选相似问,其中,K为预设正整数,所述K个第一候选相似问为所述ES检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的K个相似问;/n将所述提问信息和所述K个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;/n在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;/n在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。/n
【技术特征摘要】 【专利技术属性】
1.一种确定应答信息的方法,其特征在于,所述方法包括:
获取提问信息;
通过ES检索系统获取到所述提问信息对应的K个第一候选相似问,其中,K为预设正整数,所述K个第一候选相似问为所述ES检索系统检索到的候选相似问中,与所述提问信息的相似程度最高的K个相似问;
将所述提问信息和所述K个第一候选相似问作为输入数据集,输入训练后的多个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二候选相似问;
在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的第二候选相似问中,确定所述提问信息对应的预测真实相似问;
在预先存储的相似问和应答信息的对应关系中,获取所述预测真实相似问对应的应答信息,作为所述提问信息对应的应答信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立训练样本库,其中,所述训练样本库中包括有多组训练相似问,每组中各训练相似问对应的应答信息相同;
在所述训练样本库中获取训练相似问作为训练提问信息,通过ES检索系统在所述训练样本库中获取到所述训练提问信息对应的H个训练候选相似问,其中,H为预设正整数,所述H个训练候选相似问为所述ES检索系统检索到的训练候选相似问中,与所述训练提问信息的相似程度最高的H个训练候选相似问;
将所述H个训练候选相似问中所述训练提问信息对应的真实相似问作为单组正例样本,在除所述单组正例样本以外的训练候选相似问中,选取出负例样本;
将所述负例样本分为M组,将每组负例样本、所述单组正例样本和训练提问信息作为一组样本输入,其中,M为预设正整数;
基于M组样本输入,分别对M个待训练的目标分类器模型进行训练,得到训练后的M个目标分类器模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
建立测试样本库,其中,所述测试样本库中包括有多组测试相似问,每组中的各测试各相似问对应的应答信息相同;
在所述测试样本库中获取多个测试相似问作为测试提问信息;
对于每个测试提问信息,通过ES检索系统在所述测试样本库中获取到所述测试提问信息对应的K个第一测试相似问,将所述测试提问信息和所述K个第一测试相似问作为输入测试集,输入训练后的M个目标分类器模型中,得到每个目标分类器模型输出的所述提问信息对应的第二测试相似问;
对于每个目标分类器模型,根据各第二测试相似问是否为测试提问信息对应的真实相似问,确定所述目标分类器模型的准确度;
根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型。
4.根据权利要求3所述的方法,其特征在于,所述根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:
根据每个目标分类器模型的准确度,确定所述训练后的M个目标分类器模型的准确度均值,将准确度大于所述准确度均值的目标分类器模型,作为待使用的目标分类器模型。
5.根据权利要求3所述的方法,其特征在于,所述根据每个目标分类器模型的准确度,在所述训练后的M个目标分类器模型中,确定出多个待使用的目标分类器模型,包括:
根据每个目标分类器模型的准确度,确定所述训练后的M个目标分类器模型的准确度均值和准确度标准差;
计算所述准确度均值和所述准确度标准差之间的差值绝对值,将准确度大于所述差值绝对值的目标分类器模型,作为待使用的目标分类器模型。
6.根据权利要求3-5中任一项所述的方法,其特征在于,所述方法还包括:
根据与所述各测试提问信息的相似程度最高的第一候选相似问,是否为所述测试提问信息对应的真实相似问,确定所述ES检索系统的准确度;
根据待使用的目标分类器模型的准确度和所述ES检索系统的准确度,确定每个待使用的目标分类器模型的决策权重,与所述ES检索系统的决策权重;
所述在与所述提问信息的相似程度最高的第一候选相似问,以及每个目标分类器模型输出的所述提问信息对应的第二候选相似问中,确定所述提问信息对应的预测真实相似问,包括:
确定出各第二候选相似问和与所述提问信息的相似程度最高的第一候选相似问中相同的候选相似问,对于每个相同的目标候选相似问,确定所述目标候选相似问对应的目标分类器模型或者ES检索系统的决策权重之和;
将所述决策权重之和最大的目标候选相似问,确定为所述提问信息对应的预测真实相似问。
7.一种确定应答信息的装置,其特征在于,所述装置包括:
获取模块,用于获取提问信息;
技术研发人员:蒋圭峰,孙非凡,王昭升,袁建勇,
申请(专利权)人:西安华为技术有限公司,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。