一种基于问答系统的问答匹配方法及系统技术方案

技术编号：39057578 阅读：14 留言：0更新日期：2023-10-12 19:50

本发明专利技术属于信息检索技术领域，提供一种基于问答系统的问答匹配方法及系统，该方法包括：建立问答知识库，根据业务领域的场景参数，确定问答对；采用召回策略，从所建立的问答知识库召回与各问题相似的问答对，以得到问答对候选集，从中选定指定数量的正样本和负样本以建立原始训练数据集；构建问答匹配模型，采用随机mask机制训练问答匹配模型；接收待回复问题，召回与待回复问题相对应的候选集，使用训练好的问答匹配模型对所召回的候选集进行排序计算，并从中选取最匹配的答案。本发明专利技术采用随机mask机制训练问答匹配模型，使问答匹配模型可学习到多种多样特征，在知识库新增问答时，无需重新训练，即可得到精准排序。即可得到精准排序。即可得到精准排序。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于问答系统的问答匹配方法及系统

[0001]本专利技术涉及信息检索
，尤其涉及一种基于问答系统的问答匹配方法及系统。

技术介绍

[0002]随着互联网业务的迅速增长，市场对于智能问答的需求日渐高涨。智能问答以一问一答的形式，精确定位用户的提问，通过与用户交互，为用户提供个性化的信息服务。常用的问答系统，大部分是以实现FAQ问答为主的。FAQ包括客户常见的问题。基于FAQ进行检索，主要能够检索到常见的典型问题，基于文本匹配策略的检索式问答系统（FAQ）排序方法，通常是给定标准问题库，系统根据用户输入的一条query从标准问题库中召回n个候选，通过文本匹配模型计算query和每个候选的相似度得分，最后根据得分排序输出top
‑
k个候选。此外，传统FAQ问答一般基于分类和匹配两种模式，分类的优点是模型训练速度快，准确率高，比如知识库有100个FAQ，则类别为100类。由于类别固定，当新增一个类别时，模型永远无法回答新类别的问题，在这种情况下重新训练模型，或者使用相似度匹配模型来解决新增类别时无法精确识别的问题。
[0003]现有面向FAQ问答系统的模型训练中，主要存在以下两个问题：采用相似问题匹配或问题答案匹配的方式，仅判断用户提出的query与知识库中问题之间的相似度排序，或判断用户query和答案之间的匹配排序，特征比较单一；对于知识库中新增问答的情况，现有模型通常需要针对新增的问答样本重新训练模型，训练成本较高，且比较费时。
[0004]因此，有必要提供一种基于问答系统的...

【技术保护点】

【技术特征摘要】
1.一种基于问答系统的问答匹配方法，其特征在于，包括以下步骤：建立问答知识库，根据业务领域的场景参数，确定问答对，每一个问答对包括问题集和对应答案，同一个答案对应有多个不同的问题；采用召回策略，从所建立的所述问答知识库召回与各问题相似的问答对，以得到问答对候选集；根据所得到的所述问答对候选集，从中选定指定数量的正样本和负样本以建立原始训练数据集，所述正样本表征当前查询问题和召回问题所对应的答案一致，所述负样本表征当前查询问题和召回问题所对应的答案有差异；构建问答匹配模型，采用随机mask机制训练问答匹配模型，在模型训练时，从原始训练数据集中分别选取不同数量的样本数据，并进行召回问题、答案类别的mask处理后训练问答匹配模型；接收待回复问题，召回与待回复问题相对应的候选集，使用训练好的问答匹配模型对所召回的候选集进行排序计算，并从中选取最匹配的答案。2.根据权利要求1所述的问答匹配方法，其特征在于，还包括以下步骤：从原始训练数据集中随机选取指定比例a的样本数据，从剩余比例b中选取第一数量的样本数据和第二数量的样本数据，对第一数量的样本数据的召回问题进行mask处理，对第二数量的样本数据的答案类别进行mask处理，得到最终的训练数据集，以用于训练问答匹配模型；所述指定比例a与所述剩余比例b之和等于1，所述指定比例a大于等于所述剩余比例b，且所述指定比例a在40%～60%的范围内；所述第一数量大于第二数量。3.根据权利要求2所述的问答匹配方法，其特征在于，还包括：所述指定比例a在45%～55%的范围内；所述第一数量为剩余比例b的样本数据的60%～80%，所述第二数量为剩余比例b的样本数据的20%～40%。4.根据权利要求2所述的问答匹配方法，其特征在于，还包括：通过对训练数据集的数据划分优化，对损失函数Loss进行了优化，优化后的损失函数Loss为：，其中，x
h
表示训练数据集中第h个样本数据的实际label；y
h
为模型的预测结果；H表示60%的数据、即不遮蔽任何数据的总数据量；为第h个样本数据的交叉熵；h表示训练数据集中第h个样本数据，h为正整数，h为1、2、...、H；x
m
表示第m个样本数据的实际label；y
m
为模型的预测结果；M表示32%的数据、即遮蔽了知识库的问题的总数据量；
为第m个样本数据的交叉熵；m表示训练数据集中第m个样本数据，m为正整数，m为1、2、...、M；x
k
表示训练数据集中第k个样本数据的实际label；y
k
表示模型的预测结果；K表示8%的数据、即遮蔽了知识库的标签的总数据量；为第k个样本数据的交叉熵；k表示训练数据集中第k个样本数据，k为正整数，k为1、2、...、K。5.根据权利要求1所述的问答匹配方法，其特征在于，还包括以下步骤：对问答知识库建立召回索引，对于每一个问题Q
i
召回多个问题Q
j
，查找答案A
j
，以组成问答对，在召回结果里面选定z个正样本数据，f个负样本数据，以建立原始训练数据集，得到正负样本集：，其中，Q
i
表示第i个问题，即当前问题，i为正整数，且为1、2、...、N，N表示问题个数；Q
...

【专利技术属性】
技术研发人员：储兵兵，韩哲，徐振敬，
申请(专利权)人：联通在线信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人