【技术实现步骤摘要】
检索式问答方法、模型训练方法、服务器及存储介质
本说明书涉及自然语言处理
,尤其涉及一种检索式问答方法、模型训练方法、服务器、电子设备以及计算机可读存储介质。
技术介绍
问答系统是信息检索的一种高级形式,能够理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图,进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。问答系统处理的对象主要包括用户的问题以及答案。根据问题所属的知识领域、答案来源或答案的反馈机制可以将问答系统划分成多种类型。其中,面向常用问题集(FAQ)的检索式问答具体是指根据用户的问题去常用问题集的知识库找到最合适的答案并反馈给用户。因此,如何找到最合适的答案是面向FAQ的检索式问答系统需要解决的关键问题。
技术实现思路
有鉴于此,本说明书的实施例提出了一种检索式问答方法,该方法可以包括:对接收的第一文本进行分词,得到至少一个第一词语;确定所述至少一个第一词语的词权重;根据所述至少一个第一词语从知识库召回预定数量的候选问题-答案对;针对每个候选问题-答案对,分别将所述候选问题-答案对中的问题作为第二文本,确定所述第二文本包含的至少一个第二词语及其词权重;并根据所述至少一个第一词语、所述至少一个第二词语及其词权重确定所述第一文本和所述第二文本的匹配度;以及根据确定的所述第一文本和所述候选问题-答案对中每个第二文本 ...
【技术保护点】
1.一种检索式问答方法,包括:/n对接收的第一文本进行分词,得到至少一个第一词语;/n确定所述至少一个第一词语的词权重;/n根据所述至少一个第一词语从知识库召回预定数量的候选问题-答案对;/n针对每个候选问题-答案对,分别将所述候选问题-答案对中的问题作为第二文本,确定所述第二文本包含的至少一个第二词语及其词权重;并根据所述至少一个第一词语、所述至少一个第二词语及其词权重确定所述第一文本和所述第二文本的匹配度;以及/n根据确定的所述第一文本和所述候选问题-答案对中每个第二文本的匹配度返回至少一个候选问题-答案对中的答案。/n
【技术特征摘要】
1.一种检索式问答方法,包括:
对接收的第一文本进行分词,得到至少一个第一词语;
确定所述至少一个第一词语的词权重;
根据所述至少一个第一词语从知识库召回预定数量的候选问题-答案对;
针对每个候选问题-答案对,分别将所述候选问题-答案对中的问题作为第二文本,确定所述第二文本包含的至少一个第二词语及其词权重;并根据所述至少一个第一词语、所述至少一个第二词语及其词权重确定所述第一文本和所述第二文本的匹配度;以及
根据确定的所述第一文本和所述候选问题-答案对中每个第二文本的匹配度返回至少一个候选问题-答案对中的答案。
2.根据权利要求1所述的方法,其中,所述确定所述至少一个第一词语的词权重包括:分别将所述至少一个第一词语输入经过训练的词权重模型,得到所述至少一个第一词语的词权重。
3.根据权利要求1所述的方法,其中,所述确定所述第二文本包含的至少一个第二词语及其词权重包括:
从所述知识库获取所述第二文本包含的至少一个第二词语及其词权重;
或,
对所述第二文本进行分词,得到所述至少一个第二词语,并分别将所述至少一个第二词语输入经过训练的词权重模型,得到所述至少一个第二词语的词权重。
4.根据权利要求1所述的方法,其中,所述根据所述至少一个第一词语、所述至少一个第二词语及其词权重确定所述第一文本和所述候选问题-答案对中每个问题的匹配度包括:
根据所述至少一个第一词语的词权重和所述至少一个第二词语的词权重确定所述第一文本和第二文本的词权重相关矩阵,其中,所述词权重相关矩阵中的每个元素Bij代表所述第一文本中第i个词语和所述第二文本中第j个词语的词权重相关系数;
确定所述第一文本和第二文本的注意力权值矩阵,其中,所述注意力权值矩阵中的每个元素Aij代表所述第一文本中第i个词语对所述第二文本中第j个词语的匹配度;
使用所述词权重相关矩阵对所述注意力权值矩阵进行更新;以及
将所述更新后的注意力权值矩阵、第一文本以及第二文本输入基于注意力机制的相似度匹配模型,确定所述第一文本和所述第二文本的匹配度。
5.根据权利要求4所述的方法,其中,所述第一文本中第i个词语和所述第二文本中第j个词语的词权重相关系数为所述第一文本中第i个词语和所述第二文本中第j个词语的词权重的乘积。
6.根据权利要求4所述的方法,其中,所述使用所述词权重相关矩阵对所述注意力权值矩阵进行更新包括:
针对所述注意力权值矩阵中的每个元素,将所述元素与所述词权重相关矩阵中的对应元素进行相乘,并使用得到的乘积替换所述元素;或,
针对上述注意力权值矩阵中的每个元素,求所述元素与所述词权重相关矩阵中的对应元素的平均值,并使用得到的平均值替换所述元素;或,
针对上述注意力权值矩阵中的每个元素,求所述元素与所述词权重相关矩阵中的对应元素的加权平均值,并使用得到的加权平均值替换所述元素。
7.根据权利要求1所述的方法,其中,所述根据确定的所述第一文本和所述候选问题-答案对中每个第二文本的匹配度返回至少一个候选问题-答案对中的答案包括:将所述第一文本和每个候选问题-答案对中问题的匹配度、所述第一文本和所述候选问题-答案对输入排序模型,接收所述排序模型输出的排序值,根据所述排序值返回排序在前的至少一个候选问题-答案对中的答案。
8.一种检索式问答服务器,包括:
第一词语获取模块,用于对接收的第一文本进行分词,得到至少一个第一词语,并确定所述至少一个第一词语的词权重;
召回模块,用于根据所述至少一个第一词语从知识库召回预定数量的候选问题-答案对;
相似度匹配模块,用于针对每个候选问题-答案对,分别将所述候选问题-答案对中的问题作为第二文本,确定所述第二文本包含的至少一个第二词语及其词权重;并根据所述至少一个第一词语、所述至少一个第二词语及其词权重确定所述第一文本和所述第二文本的匹配度;以及...
【专利技术属性】
技术研发人员:陈晓军,崔恒斌,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。