一种基于深度学习的FAQ检索式问答构建方法及系统技术方案

技术编号:27814369 阅读:23 留言:0更新日期:2021-03-30 10:02
本发明专利技术提供的一种基于深度学习的FAQ检索式问答构建方法及系统,包括以下步骤:步骤S1,获取用户问题,并整理与所述用户问题相关的文档内容;步骤S2,构建训练集和测试集;步骤S3,在测试集和训练集的基础上,增强数据;步骤S4,模型建立及迭代优化;步骤S5,模型建立完之后,设置问答系统,用户任意问问题,系统会根据神经网络模型预测该问题属于哪一类,进而给出相应的答案;相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征,更精细地描述文本匹配问题。本匹配问题。本匹配问题。

【技术实现步骤摘要】
一种基于深度学习的FAQ检索式问答构建方法及系统


[0001]本专利技术涉及教育
,尤其是一种基于深度学习的FAQ检索式问答构建方法及系统。

技术介绍

[0002]知识库有两种含义:一种是指专家系统设计所应用的规则集合,包含规则所联系的事实及数据,它们的全体构成知识库,这种知识库是与具体的专家系统有关,不存在知识库的共享问题,另一种是指具有咨询性质的知识库,这种知识库是共享的,不是一家所独有的,从今后的发展来看,巨型知识库将会出现,还依赖于硬件及软件条件的发展,下一代计算机所应考虑的重要问题之一是知识库的设计,以知识库为背景的知识库机及共管理系统构设计,知识库的概念来自两个不同的领域,一个是人工智能及其分支

知识工程领域,另一个是传统的数据库领域,由人工智能(AI)和数据库(DB)两项计算机技术的有机结合,促成了知识库系统的产生和发展。
[0003]自从krizhevsky等人提出基于深度学习理论的深度卷积神经网络Alexnet后,识别领域进入了新的纪元。深度卷积神经网络通过卷积运算由浅入深的提取知识的不同层次的特征,并通过学习算法使网络自动的调节卷积核的参数进行学习,在知识分类和识别上已经取得了显著效果。
[0004]但现有根据问题检索知识库和问答知识库,根据检索结果将答复发送给答复反馈模块,答复反馈模块用于将答复通过语言、文字或者照片反馈给用户,解决了现有通过搜索引擎获取医疗知识耗时且信息准确性难判的问题,然而现有知识库的检索存在以下不足:1)、在对知识库内的信息进行采集刷新的过程中,系统无法对收集的信息和知识进行的分类、整理,导致信息和知识不能有序化保存在知识库内,使用较为混乱,导致在检索的过程中,影响检索的速度。2)、通过组织用户对系统答复结果进行审阅修改,并依据其审阅修改不断完善更新知识库,由于系统答复结果繁杂,会耗费了用户大量的精力和时间,同时人工审阅修改降低了知识库的更新速度,不利于其发展。
[0005]如何将深度卷积神经网络技术与知识库相结合,从大量的样本中自动提取出词语之间的关系,发掘传统模型很难发掘的隐含在大量数据中含义不明显的特征,是目前迫切需要解决的一项技术问题。

技术实现思路

[0006]本专利技术提供一种基于深度学习的FAQ检索式问答构建方法及系统,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,发掘隐含在大量数据中含义不明显的特征,更精细地描述文本匹配问题。
[0007]为达到上述明目的,采用的技术方案如下:
[0008]一种基于深度学习的FAQ检索式问答构建方法,包括以下步骤:
[0009]步骤S1,获取用户问题,并整理与所述用户问题相关的文档内容;
[0010]步骤S2,构建训练集和测试集;
[0011]步骤S3,在测试集和训练集的基础上,增强数据;
[0012]步骤S4,模型建立及迭代优化;
[0013]步骤S5,模型建立完之后,设置问答系统,用户任意问问题,系统会根据神经网络模型预测该问题属于哪一类,进而给出相应的答案。
[0014]进一步地,所述步骤S1中,对于有大量问答记录的场景,问答记录里面包括很多高频的知识点,所述高频的知识点包括问题和答案;
[0015]所述高频的知识点对应的问法通常并不唯一,即知识库的结构为一个问题集合对应同一个答案,其针对FAQ数据有以下三种数据类型:
[0016](1)、标准问q:FAQ中问题的标准用户query;
[0017](2)、答案A:FAQ中标准问对应的标准回答;
[0018](3)、相似问q1,q2

:跟标准问语义相似可用同一答案回答的query;
[0019]其中,标准问q、对应答案A、以及该标准问q对应的所有相似问q1,q2,

,一起组成一个知识点。
[0020]进一步地,所述步骤S1中,需要建立一个更加合理的知识库,要求每个知识点只包含一个意图,且知识点之间没有交叉、歧义、冗余等容易造成混淆的因素;
[0021]而且,所述知识库的标注为每个FAQ积累一定数量的有代表性的相似问。
[0022]进一步地,所述步骤S1的后期持续维护包括:新FAQ发现,以及原FAQ的合并、拆分和纠正等。
[0023]进一步地,所述步骤S2中,具体包括以下步骤:
[0024]测试集构造:将相似问中的第一条相似问q1作为query,从FAQ知识库的所有知识点中通过Lucene召回30个知识点作为候选集;
[0025]训练集构造:包含两部分,一部分是正例的构造,另一部分是负例的构造,所述正例的构造和所述负例的构造中数据的构造方式将直接影响到最终的效果;
[0026]在正例的构造中,因为每个知识点的第一个相似问是作为测试集中出现的,所以在构造训练集的时候排除掉所有知识点中的第一条相似问q1;这样,有多于2个相似问的知识点、还有多于的其他相似问可以用来构造训练集;将这些识点中的标准问和从相似问的第二条开始(即[q2,q3,

,qn])可以按照不同方式构造出正例和负例。
[0027]进一步地,所述步骤S2中,在训练集正例的构造中,去除所有知识点中的第一条相似问q1,其他相似问及标准问两两组合成正例pair对;对于相似问多的知识点进行剪切。
[0028]进一步地,所述步骤S2中,训练集负例的构造方式包括:按Jaccard距离召回、按Lucene召回、从其他知识点中随机选择和按照正例中各问题出现的比例从其他知识点中采样选择,以及每个句子和句子中的名词/动词构成pair对;而针对知识点分布不均衡的问题,对相似问很多的知识点进行相似问剪切。
[0029]进一步地,所述步骤S3中,由于深度学习需要较多的数据,为了增强数据,采用以下策略:
[0030]交换两个句子之间的顺序;
[0031]对句子进行分词,重新组合生成新的句子;
[0032]打乱句子的顺序,随机抽取句子。
[0033]进一步地,所述步骤S4中,模型的基本框架一般都是将待匹配的两个句子分别使用两个encoder来获取对应context信息,然后将二者的context信息进行匹配,得到匹配后的特征信息;或者模型的基本框架在匹配之后的特征后面加上一些其他的传统文本特征,将所有这些特征进行concat;模型的基本框架最后接上softmax层,做最终的分类;模型建立及迭代优化具体包括以下步骤:
[0034]步骤S41,Embedding层:使用word2vec训练词向量;
[0035]首先,基于Word2vec工具,分别将词向量转化为问题词向量和答案词向量,从而得到问答文本集合所对应的问题词向量矩阵Q=(q1,q2,

,q
L
)和答案词向量A=(a1,a2,

,a
m...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的FAQ检索式问答构建方法,其特征在于,包括以下步骤:步骤S1,获取用户问题,并整理与所述用户问题相关的文档内容;步骤S2,构建训练集和测试集;步骤S3,在测试集和训练集的基础上,增强数据;步骤S4,模型建立及迭代优化;步骤S5,模型建立完之后,设置问答系统,用户任意问问题,系统会根据神经网络模型预测该问题属于哪一类,进而给出相应的答案。2.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S1中,对于有大量问答记录的场景,问答记录里面包括很多高频的知识点,所述高频的知识点包括问题和答案;所述高频的知识点对应的问法通常并不唯一,即知识库的结构为一个问题集合对应同一个答案,其针对FAQ数据有以下三种数据类型:(1)、标准问q:FAQ中问题的标准用户query;(2)、答案A:FAQ中标准问对应的标准回答;(3)、相似问q1,q2

:跟标准问语义相似可用同一答案回答的query;其中,标准问q、对应答案A、以及该标准问q对应的所有相似问q1,q2,

,一起组成一个知识点。3.根据权利要求2所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S1中,需要建立一个更加合理的知识库,要求每个知识点只包含一个意图,且知识点之间没有交叉、歧义、冗余容易造成混淆的因素;而且,所述知识库的标注为每个FAQ积累一定数量的有代表性的相似问。4.根据权利要求2所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S1的后期持续维护包括:新FAQ发现,以及原FAQ的合并、拆分和纠正。5.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S2中,具体包括以下步骤:测试集构造:将相似问中的第一条相似问q1作为query,从FAQ知识库的所有知识点中通过Lucene召回30个知识点作为候选集;训练集构造:包含两部分,一部分是正例的构造,另一部分是负例的构造,所述正例的构造和所述负例的构造中数据的构造方式将直接影响到最终的效果;在正例的构造中,因为每个知识点的第一个相似问是作为测试集中出现的,所以在构造训练集的时候排除掉所有知识点中的第一条相似问q1;这样,有多于2个相似问的知识点、还有多于的其他相似问可以用来构造训练集;将这些识点中的标准问和从相似问的第二条开始(即[q2,q3,

,qn])可以按照不同方式构造出正例和负例。6.根据权利要求5所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S2中,在训练集正例的构造中,去除所有知识点中的第一条相似问q1,其他相似问及标准问两两组合成正例pair对;对于相似问多的知识点进行剪切。7.根据权利要求5所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S2中,训练集负例的构造方式包括:按Jaccard距离召回、按Lucene召回、从其他知识点中随机选择和按照正例中各问题出现的比例从其他知识点中采样选择,以及每个句子
和句子中的名词/动词构成pair对;而针对知识点分布不均衡的问题,对相似问很多的知识点进行相似问剪切。8.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S3中,由于深度学习需要较多的数据,为了增强数据,采用以下策略:交换两个句子之间的顺序;对句子进行分词,重新组合生成新的句子;打乱句子的顺序,随机抽取句子。9.根据权利要求1所述的一种基于深度学习的FAQ检索式问答构建方法,其特征在于,所述步骤S4中,模型的基本框架一般都是将待匹配的两个句子分别使用两个encoder来获取对应context信息,然后将二者的context信息进行匹配,得到匹配后的特征信息;或者模型的基本框架在匹配之后的特征后面加上一些其他的传统文本特征,将所有这些特征进行concat;模型的基本框架最后接上softmax层,做最终的分类;模型建立及迭代优化具体包括以下步骤:步骤S41,Embedding层:使用word2vec训练词向量;首先,基于Word2vec工具,分别将词向量转化为问题词向量和答案词向量,从而得到问答文本集合所对应的问题词向量矩阵Q=(q1,q2,

,q
L
)和答案词向量A=(a1,a2,

,a
m
),其中,L和m分别为问答文本集合中题和答案的数量,q
i
(1≤i≤L)为第i个问题所对应的列向量,aj(1≤j≤m)为第j个答...

【专利技术属性】
技术研发人员:孙永毫蒙碧军
申请(专利权)人:广东国粒教育技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1