一种基于问答系统的问答匹配方法及系统技术方案

技术编号:39057578 阅读:14 留言:0更新日期:2023-10-12 19:50
本发明专利技术属于信息检索技术领域,提供一种基于问答系统的问答匹配方法及系统,该方法包括:建立问答知识库,根据业务领域的场景参数,确定问答对;采用召回策略,从所建立的问答知识库召回与各问题相似的问答对,以得到问答对候选集,从中选定指定数量的正样本和负样本以建立原始训练数据集;构建问答匹配模型,采用随机mask机制训练问答匹配模型;接收待回复问题,召回与待回复问题相对应的候选集,使用训练好的问答匹配模型对所召回的候选集进行排序计算,并从中选取最匹配的答案。本发明专利技术采用随机mask机制训练问答匹配模型,使问答匹配模型可学习到多种多样特征,在知识库新增问答时,无需重新训练,即可得到精准排序。即可得到精准排序。即可得到精准排序。

【技术实现步骤摘要】
一种基于问答系统的问答匹配方法及系统


[0001]本专利技术涉及信息检索
,尤其涉及一种基于问答系统的问答匹配方法及系统。

技术介绍

[0002]随着互联网业务的迅速增长,市场对于智能问答的需求日渐高涨。智能问答以一问一答的形式,精确定位用户的提问,通过与用户交互,为用户提供个性化的信息服务。常用的问答系统,大部分是以实现FAQ问答为主的。FAQ包括客户常见的问题。基于FAQ进行检索,主要能够检索到常见的典型问题,基于文本匹配策略的检索式问答系统(FAQ)排序方法,通常是给定标准问题库,系统根据用户输入的一条query从标准问题库中召回n个候选,通过文本匹配模型计算query和每个候选的相似度得分,最后根据得分排序输出top

k个候选。此外,传统FAQ问答一般基于分类和匹配两种模式,分类的优点是模型训练速度快,准确率高,比如知识库有100个FAQ,则类别为100类。由于类别固定,当新增一个类别时,模型永远无法回答新类别的问题,在这种情况下重新训练模型,或者使用相似度匹配模型来解决新增类别时无法精确识别的问题。
[0003]现有面向FAQ问答系统的模型训练中,主要存在以下两个问题:采用相似问题匹配或问题答案匹配的方式,仅判断用户提出的query与知识库中问题之间的相似度排序,或判断用户query和答案之间的匹配排序,特征比较单一;对于知识库中新增问答的情况,现有模型通常需要针对新增的问答样本重新训练模型,训练成本较高,且比较费时。
[0004]因此,有必要提供一种基于问答系统的问答匹配方法,以解决上述问题。

技术实现思路

[0005]本专利技术意在提供一种基于问答系统的问答匹配方法及系统,以解决现有技术中现有方法仅判断用户提出的query与知识库中问题之间的相似度排序,或判断用户query和答案之间的匹配排序,特征比较单一;对于知识库中新增问答的情况,现有模型通常需要针对新增的问答样本重新训练模型,训练成本较高,且比较费时等的技术问题,本专利技术要解决的技术问题通过以下技术方案来实现。
[0006]第一方面,本专利技术提出一种基于问答系统的问答匹配方法,包括以下步骤:建立问答知识库,根据业务领域的场景参数,确定问答对,每一个问答对包括问题集和对应答案,其中,同一个答案对应有多个不同的问题;采用召回策略,从所建立的问答知识库召回与各问题相似的问答对,以得到问答对候选集;根据所得到的问答对候选集,从中选定指定数量的正样本和负样本以建立原始训练数据集,所述正样本表征当前查询问题和召回问题所对应的答案一致,所述负样本表征当前查询问题和召回问题所对应的答案有差异;构建问答匹配模型,采用随机mask机制训练问答匹配模型,具体在模型训练时,从原始训练数据集中分别随机选取不同数量的样本数据并进行召回问题、答案类别的mask处理后训练问答匹配
模型;接收待回复问题,召回与待回复问题相对应的候选集,使用训练好的问答匹配模型对所召回的候选集进行排序计算,并从中选取最匹配的答案。
[0007]所述问答匹配方法可以进一步包括以下步骤:从原始训练数据集中随机选取指定比例a的样本数据,分别从剩余比例b中选取第一数量的样本数据和第二数量的样本数据,对第一数量的样本数据的召回问题进行mask处理,对第二数量的样本数据的答案类别进行mask处理,得到最终的训练数据集,以用于训练问答匹配模型;指定比例a与剩余比例b之和等于1,指定比例a大于等于剩余比例b,且指定比例a可以在40%~60%的范围内;第一数量大于第二数量。
[0008]所述指定比例a可以在45%~55%的范围内;第一数量可以为剩余比例b的样本数据的60%~80%,第二数量可以为剩余比例b的样本数据的20%~40%。
[0009]通过对训练数据集的数据划分优化,对损失函数Loss进行了优化,优化后的损失函数Loss为:,其中, x
h
表示训练数据集中第h个样本数据的实际label;y
h
为模型的预测结果;H表示60%的数据、即不遮蔽任何数据的总数据量;为第h个样本数据的交叉熵;h表示训练数据集中第h个样本数据,h为正整数,h为1、2、...、H; x
m
表示第m个样本数据的实际label; y
m
为模型的预测结果;M表示32%的数据、即遮蔽了知识库的问题的总数据量;为第m个样本数据的交叉熵;m表示训练数据集中第m个样本数据,m为正整数,m为1、2、...、M; x
k
表示训练数据集中第k个样本数据的实际label;y
k
表示模型的预测结果;K表示8%的数据、即遮蔽了知识库的标签的总数据量;为第k个样本数据的交叉熵;k表示训练数据集中第k个样本数据,k为正整数,k为1、2、...、K。
[0010]所述问答匹配方法可以进一步包括以下步骤:对问答知识库建立召回索引,对于每一个问题 Q
i
召回多个问题Q
j
,查找答案A
j
,以组成问答对,在召回结果里面选定z个正样本数据, f个负样本数据,以建立原始训练数据集,得到正负样本集:,其中, Q
i
表示第 i个问题,即当前问题, i为正整数,且为1、2、...、N,N表示问题个数; Q
j
表示召回问题,j为正数数,且为1、2、...、f+z; A
j
表示召回问题对应的答案;label表示正样本数据和负样本数据的标签值,正样本数据表示当前问题Q
i
和召回问题 Q
j
两者对应的答案一致,其标签值label=1;负样本数据表示当前问题 Q
i
和召回问题 Q
j
两者对应的答案有差异,其标签值label=0;z表示正样本数据的数量;f表示负样本数据的数量。
[0011]所述采用召回策略,从所建立的问答知识库中召回与各问题相似的问答对,包括:使用文本召回策略、向量召回策略或者语义召回策略,从所建立的问答知识库中召回与当
前问题相似的多个问题以及相应答案。
[0012]所述问答匹配方法可以进一步包括以下步骤:基于所生成的问答对候选集,构建预测样本集,其中,Q
query
是指用户的待回复问题; Q
j
表示召回问题,j表示从1到N,N表示召回问题个数,且(f+z)<N;A
j
表示召回问题Q
j
所对应的答案;label表示问答匹配模型的模型预测分值,所述模型预测分值越接近1,则表示结果相似;所述模型预测分值越接近0,则表示结果不相似;使用训练好的问答匹配模型计算预测样本集中所有 label的概率值,并进行降序排列,选取最高概率值对应的答案 A
j
作为最终的答案。
[0013]所述问答匹配方法还包括以下步骤:使用双塔模型或cross模型,建立问答匹配模型。
[0014]第二方面,本专利技术提供一种问答匹本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于问答系统的问答匹配方法,其特征在于,包括以下步骤:建立问答知识库,根据业务领域的场景参数,确定问答对,每一个问答对包括问题集和对应答案,同一个答案对应有多个不同的问题;采用召回策略,从所建立的所述问答知识库召回与各问题相似的问答对,以得到问答对候选集;根据所得到的所述问答对候选集,从中选定指定数量的正样本和负样本以建立原始训练数据集,所述正样本表征当前查询问题和召回问题所对应的答案一致,所述负样本表征当前查询问题和召回问题所对应的答案有差异;构建问答匹配模型,采用随机mask机制训练问答匹配模型,在模型训练时,从原始训练数据集中分别选取不同数量的样本数据,并进行召回问题、答案类别的mask处理后训练问答匹配模型;接收待回复问题,召回与待回复问题相对应的候选集,使用训练好的问答匹配模型对所召回的候选集进行排序计算,并从中选取最匹配的答案。2.根据权利要求1所述的问答匹配方法,其特征在于,还包括以下步骤:从原始训练数据集中随机选取指定比例a的样本数据,从剩余比例b中选取第一数量的样本数据和第二数量的样本数据,对第一数量的样本数据的召回问题进行mask处理,对第二数量的样本数据的答案类别进行mask处理,得到最终的训练数据集,以用于训练问答匹配模型;所述指定比例a与所述剩余比例b之和等于1,所述指定比例a大于等于所述剩余比例b,且所述指定比例a在40%~60%的范围内;所述第一数量大于第二数量。3.根据权利要求2所述的问答匹配方法,其特征在于,还包括:所述指定比例a在45%~55%的范围内;所述第一数量为剩余比例b的样本数据的60%~80%,所述第二数量为剩余比例b的样本数据的20%~40%。4.根据权利要求2所述的问答匹配方法,其特征在于,还包括:通过对训练数据集的数据划分优化,对损失函数Loss进行了优化,优化后的损失函数Loss为:,其中,x
h
表示训练数据集中第h个样本数据的实际label;y
h
为模型的预测结果;H表示60%的数据、即不遮蔽任何数据的总数据量;为第h个样本数据的交叉熵;h表示训练数据集中第h个样本数据,h为正整数,h为1、2、...、H;x
m
表示第m个样本数据的实际label;y
m
为模型的预测结果;M表示32%的数据、即遮蔽了知识库的问题的总数据量;
为第m个样本数据的交叉熵;m表示训练数据集中第m个样本数据,m为正整数,m为1、2、...、M;x
k
表示训练数据集中第k个样本数据的实际label;y
k
表示模型的预测结果;K表示8%的数据、即遮蔽了知识库的标签的总数据量;为第k个样本数据的交叉熵;k表示训练数据集中第k个样本数据,k为正整数,k为1、2、...、K。5.根据权利要求1所述的问答匹配方法,其特征在于,还包括以下步骤:对问答知识库建立召回索引,对于每一个问题Q
i
召回多个问题Q
j
,查找答案A
j
,以组成问答对,在召回结果里面选定z个正样本数据,f个负样本数据,以建立原始训练数据集,得到正负样本集:,其中,Q
i
表示第i个问题,即当前问题,i为正整数,且为1、2、...、N,N表示问题个数;Q
...

【专利技术属性】
技术研发人员:储兵兵韩哲徐振敬
申请(专利权)人:联通在线信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1