当前位置: 首页 > 专利查询>福州大学专利>正文

一种融合知识库与用户建模的智能问答方法及系统技术方案

技术编号:24888829 阅读:37 留言:0更新日期:2020-07-14 18:16
本发明专利技术涉及一种融合知识库与用户建模的智能问答方法及系统,该方法包括以下步骤:步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集

【技术实现步骤摘要】
一种融合知识库与用户建模的智能问答方法及系统
本专利技术涉及自然语言处理与情感分析应用领域,具体涉及一种融合知识库与用户建模的智能问答方法及系统。
技术介绍
随着社会信息化和互联网的快速发展,人们对于问答系统的需求日益增长。2005年以来,互联网相继涌现了大量的问答社区,基于社区的问答系统逐渐成了问答系统的一个重要研究分支,人们热衷于在社区智能问答系统上提出问题,获取答案并且同他人交流来分享自己的知识。根据知识来源的不同,问答系统可以分为以下三种任务:基于知识库的问答、基于文档的问答、答案选择。问答系统的工作原理是用户用人类语言的形式提出查询信息的需求,系统通过某种技术手段对问题进行语义分析,接着从多种类的数据源(知识图谱、数据库、文档等)中找出最匹配的答案。传统的解决方法是通过人工构造规则和特征构建符合场景的规则组合来达到计算的目的;现代的自然语言处理领域已经大量运用统计机器学习的算法,通过机器学习算法来计算问题和答案的匹配关系;近两年,深度学习方法深受欢迎,基于词向量技术、循环神经网络、卷积神经网络等理论的研究也层出不穷,且已经被大本文档来自技高网...

【技术保护点】
1.一种融合知识库与用户建模的智能问答方法,其特征在于,包括以下步骤:/n步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集QA;/n智能问答系统中的每个问题及其回答记录表示为一个问答序列

【技术特征摘要】
1.一种融合知识库与用户建模的智能问答方法,其特征在于,包括以下步骤:
步骤A:采集智能问答系统中的问题以及回答记录,构建问答对训练集QA;
智能问答系统中的每个问题及其回答记录表示为一个问答序列q表示问题句子,{at|t=1,2,...,Nq}为问题q的答案集合,Nq为问题q对应的答案数量,问题q和答案集合中的每个答案at构成一个问答对(q,at),则问答对训练集QA中每个问题的训练样本表示为
步骤B:采集智能问答系统中每个用户对问题的回答记录,构建用户的历史回答训练集UA;
步骤C:基于问答对训练集QA、用户的历史回答训练集UA以及知识库KB,训练基于改进循环实体网络RecurrentEntityNetwork的深度学习网络模型;
步骤D:接收用户的提问,并将提问输入到训练好的深度学习网络模型中,输出匹配的答案。


2.根据权利要求1所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C具体包括以下步骤:
步骤C1:对每个问答对(q,at),分别对问题q和答案at进行分词处理并去除停用词;
步骤C2:对每个问答对(q,at),分别获取问题q和答案at的初始表征向量;
步骤C3:对每个问答对(q,at),分别获取问题q和答案at的知识表征向量;
步骤C4:对每个问答对(q,at),融合步骤C2获得的问题q的初始表征向量和步骤C3获得的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量融合步骤C2获得的答案at的初始表征向量和步骤C3获得的答案at的知识表征向量,得到答案at的带知识嵌入的表征向量
步骤C5:遍历历史回答训练集UA,根据每个用户的历史回答集合,获取每个用户的历史回答表征向量;
步骤C6:对每个问答对(q,at),得到提供答案at的用户根据步骤C5获得的每个用户的历史回答表征向量,查找得到用户的历史回答表征向量与步骤C4获得的问题q和答案at的带知识嵌入的表征向量共同构成一个三元组进而构成三元组序列输入到深度学习网络模型的基于循环实体网络的动态记忆模块中,得到问答对的带知识嵌入以及用户嵌入的表征向量;
步骤C7:将步骤C6得到的表征向量输入到深度学习网络模型的隐藏层和Softmax层,根据目标损失函数loss,利用反向传播方法计算深度学习网络中各参数的梯度,并利用随机梯度下降方法更新参数;
步骤C8:当深度学习网络模型产生的损失值小于设定阈值或者迭代次数达到最大迭代次数,则终止深度学习网络模型的训练。


3.根据权利要求2所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C2具体包括以下步骤:
步骤C21:对问答对(q,at),根据问题q的问题描述qS和问题主体qB,获取问题q的初始表征向量;
智能问答系统中的每个问题q由问题描述qS和问题主体qB组成,qS是经过分词处理并去除停用词后的问题的标题部分,表示为表示qS中的第i个词语;L(qS)为qS中的词数;qB是经过分词处理并去除停用词后的问题的详细描述部分,表示为表示qB中的第i个词;L(qB)为qB中的词数;q由qS和qB连接构成,表示为
将问题q的初始表征向量表示为:



其中,为q中第i个词所对应的词向量,i=1,2,...,L(q),L(q)=L(qS)+L(qB)为q中的词数;通过在预训练的词向量矩阵查找得到,d1表示词向量的维度,|D|是词典D中的词语数;为q中第i个词的位置编码,通过fi(q)将问题q中的每个单词进行加权得到问题q的初始表征向量为向量fi(q)与的哈达玛积;
步骤C22:对问答对(q,at),获取答案at的初始表征向量;
经过分词处理并去除停用词后的答案at表示为表示at中的第i个词语,L(at)为at中的词数;
将答案at的初始表征向量表示为:



其中,为答案at中第i个词语对应的词向量,i=1,2,...,L(at);通过在预训练的词向量矩阵查找得到;为at中第i个词的位置编码,通过将答案at中的每个单词进行加权得到答案at的初始表征向量
步骤C23:组合问题q和答案at的初始表征向量,得到问答对(q,at)的初始表征向量二元组


4.根据权利要求3所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C3具体包括以下步骤:
步骤C31:将问题q的知识表征向量表示为:



其中,为问题q中检测到的第i个知识实体所对应的知识实体表征向量,d2表示知识实体表征向量的维度,l1为问题q中检测到的知识实体数;为第i个知识实体的位置编码,通过fi(q,kb)将问题q中检测到的每个知识实体进行加权得到问题q的知识表征向量
步骤C32:将答案at的知识表征向量表示为:



其中,为答案at中检测到的第i个知识实体所对应的知识实体表征向量,l2为答案at中检测到的知识实体数;为第i个知识实体的位置编码,通过将答案at中检测到的每个知识实体进行加权得到答案at的知识表征向量
步骤C33:组合问题q和答案at的知识表征向量,得到问答对(q,at)的知识表征向量二元组


5.根据权利要求4所述的一种融合知识库与用户建模的智能问答方法,其特征在于,所述步骤C4具体为:连接步骤C2得到的问题q的初始表征向量与步骤C3得到的问题q的知识表征向量,得到问题q的带知识嵌入的表征向量连接...

【专利技术属性】
技术研发人员:陈羽中李超凡郭昆张睿
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1