本发明专利技术涉及一种基于迁移学习的问答匹配方法,属于信息检索技术领域。本发明专利技术首先将不同领域的问答数据集进行预处理、采用word2vec模型训练多领域共通常用的问答对的词向量,其次选择深度学习模型双向长短期记忆网络模型作为基础的神经网络,随机初始化BiLSTM模型的参数,利用Word2vec初始化该模型的embedding层的参数,在源域数据集上预训练该答案选择模型,保存该模型的参数,其次选定初始化目标域的数据集,在目标域上模型中,将源域的模型中的参数迁移到目标域模型中,用该数据集训练和微调该模型。BiLSTM模型计算问题和候选答案的向量表示,最后采用余弦相似度计算问题与候选答案的相似度,选出该问题的最佳答案。
A question and answer matching method based on Transfer Learning
【技术实现步骤摘要】
一种基于迁移学习的问答匹配方法
本专利技术涉及一种基于迁移学习的问答匹配方法,属于信息检索
技术介绍
随着互联网的普及,互联网信息的不断增长,网络上充斥着越来越多的冗余信息,因此用户在互联网上搜索所需的信息无疑是在“大海捞针”,近年来随着搜索引擎的版本更新,在很大程度上降低了用户查找信息的难度,但这类搜索引擎依旧存在一定的缺陷与不足。这类的搜索引擎返回用户查询的结果太多,难以快速定位到所需信息;其搜索模式都是基于关键词精准匹配来查找相关信息的方式,难以用少量关键词准确表达用户的查询意图;缺乏对搜索用户查询语句的理解,其按相关度返回网页,检索到的答案仍需要用户的手动筛选,用户如果要得到自己真正所需要的信息,还需要再进一步手工去点击链接,重新定位。智能问答系统改变传统搜索引擎返回超链接的方式,直接理解用户的自然语言问题和意图,快速、准确地直接给予文本答案,提高了用户查找效率,改善了信息检索的用户体验。但在特定领域的问答匹配任务中,由于数据来源有限、人工标注样本的成本和难度过高,只能获取到少量的标注数据样本,使得在标注数据样本少量的情况下难以获得较高的问答匹配准确率,因此利用迁移学习方法来提高问答匹配准确率具有重要意义。
技术实现思路
本专利技术要解决的技术问题是提供一种基于迁移学习的问答匹配方法,主要解决在特定领域的问答匹配任务中,由于数据来源有限、人工标注样本的成本和难度过高,只能获取到少量的标注数据样本,使得在标注数据样本少量的情况下难以获得较高的问答匹配准确率的缺陷,充分利用迁移学习和深度学习相结合,更快、更好地为用户提供更合理、准确的文本答案。本专利技术的技术方案是:一种基于迁移学习的问答匹配方法,具体步骤为:Step1:将源领域数据集中的问题及候选答案集进行预处理,预处理包括但不限于分词和词向量训练,得到问题及候选答案的词向量;Step2:将Step1中的问题和候选答案的词向量作为输入送入深度学习模型中,在深度学习模型中使用BiLSTM对其进行编码,生成问题特征向量和候选答案特征向量以及保存训练参数;Step3:将目标域数据集中的问题以及候选答案集进行与Step1相同的预处理操作,得到词向量;然后将目标域数据集词向量作为输入送入深度学习模型中,在目标域采用与Step2相同的模型进行编码,之后将Step2中保存的源域模型参数迁移到目标域的训练模型当中,作为目标域训练模型的初始化参数进行目标域数据集训练;Step4:生成目标域中问题与候选答案的特征向量,通过余弦相似度计算问题与候选答案的相似度,相似度分数最高的,则作为该问题的最佳答案反馈给用户。进一步地,将所述Step1和所述Step3中得到的问题及候选答案的词向量分别组成问答对,再将问答对进行分词,去除停用词操作,最后使用表示学习方法对其进行向量化表示。这里主要通过加载word2vec词向量进行训练从而得到问答对的词向量表示。进一步地,所述Step3将Step2得到的问答对向量作为输入送入深度学习模型中,模型会使用BiLSTM对其进行编码,然后使用源领域中参数迁移到目标域的训练模型中,作为目标域的初始化训练参数进行训练,通过门控的方法选择出与问题相关的候选答案输入,并且得到问题和答案的向量表示,最后通过计算问题和答案的向量表示的余弦相似度,最终选择相似度得分最高的答案作为该问题的最终答案。本专利技术的有益效果是:本专利技术使用深度学习(BiLSTM)与迁移学习(参数迁移)相结合的方法,能够解决特定问答匹配任务中由于标注样本数据不足而难以获得较高的问答匹配准确率的问题,能够为用户获得更准确的文本答案,提高问答匹配任务中检索答案的质量,在一定程度上改善了用户使用体验。附图说明图1是本专利技术迁移学习的问答匹配流程图;图2是本专利技术典型深度模型在问答匹配中的一般框架示意图;图3是本专利技术步骤流程图;具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1-3所示,一种基于迁移学习的问答匹配方法,首先将不同领域的问答数据集进行预处理、采用word2vec模型训练多领域共通常用的问答对的词向量,其次选择深度学习模型双向长短期记忆网络(BiLSTM)模型作为基础的神经网络,随机初始化BiLSTM模型的参数,利用Word2vec初始化该模型的embedding层的参数,在源域数据集上预训练该答案选择模型,保存该模型的参数,其次选定初始化目标域的数据集,在目标域上模型中,将源域的模型中的参数迁移到目标域模型中,用该数据集训练和微调该模型。BiLSTM模型计算问题和候选答案的向量表示,最后采用余弦相似度计算问题与候选答案的相似度,选出该问题的最佳答案。具体步骤为:Step1:将源领域数据集中的问题及候选答案集进行预处理,预处理包括但不限于分词和词向量训练,得到问题及候选答案的词向量;Step2:将Step1中的问题和候选答案的词向量作为输入送入深度学习模型中,在深度学习模型中使用BiLSTM对其进行编码,生成问题特征向量和候选答案特征向量以及保存训练参数;Step3:将目标域数据集中的问题以及候选答案集进行与Step1相同的预处理操作,得到词向量;然后将目标域数据集词向量作为输入送入深度学习模型中,在目标域采用与Step2相同的模型进行编码,之后将Step2中保存的源域模型参数迁移到目标域的训练模型当中,作为目标域训练模型的初始化参数进行目标域数据集训练;Step4:生成目标域中问题与候选答案的特征向量,通过余弦相似度计算问题与候选答案的相似度,相似度分数最高的,则作为该问题的最佳答案反馈给用户。进一步地,将所述Step1和所述Step3中得到的问题及候选答案的词向量分别组成问答对,再将问答对进行分词,去除停用词操作,最后使用表示学习方法对其进行向量化表示。这里主要通过加载word2vec词向量进行训练从而得到问答对的词向量表示。所述Step1和所述Step3中问答数据集来源于IT知识问答网站SegmentFaults数据集,问答对数据数量约为55000条,豆瓣电影以及从百度问答爬取的问答语料,约为43214条。进一步地,所述Step3将Step2得到的问答对向量作为输入送入深度学习模型中,模型会使用BiLSTM对其进行编码,然后使用源领域中参数迁移到目标域的训练模型中,作为目标域的初始化训练参数进行训练,通过门控的方法选择出与问题相关的候选答案输入,并且得到问题和答案的向量表示,最后通过计算问题和答案的向量表示的余弦相似度,最终选择相似度得分最高的答案作为该问题的最终答案。进一步地,所述Step3的具体步骤为:Step3.1:将Step2得到的源领域数据集的问答对向量表示作为InputModole的输入,使用BiLSTM读入问答对向量,得到隐藏状态为:ht=BiLSTM(xt,ht-1)(1)其中,xt=L[wt],L是embeddingmatrix本文档来自技高网...
【技术保护点】
1.一种基于迁移学习的问答匹配方法,其特征在于:/nStep1:将源领域数据集中的问题及候选答案集进行预处理,预处理包括但不限于分词和词向量训练,得到问题及候选答案的词向量;/nStep2:将Step1中的问题和候选答案的词向量作为输入送入深度学习模型中,在深度学习模型中使用BiLSTM对其进行编码,生成问题特征向量和候选答案特征向量以及保存训练参数;/nStep3:将目标域数据集中的问题以及候选答案集进行与Step1相同的预处理操作,得到词向量;然后将目标域数据集词向量作为输入送入深度学习模型中,在目标域采用与Step2相同的模型进行编码,之后将Step2中保存的源域模型参数迁移到目标域的训练模型当中,作为目标域训练模型的初始化参数进行目标域数据集训练;/nStep4:生成目标域中问题与候选答案的特征向量,通过余弦相似度计算问题与候选答案的相似度,相似度分数最高的,则作为该问题的最佳答案反馈给用户。/n
【技术特征摘要】
1.一种基于迁移学习的问答匹配方法,其特征在于:
Step1:将源领域数据集中的问题及候选答案集进行预处理,预处理包括但不限于分词和词向量训练,得到问题及候选答案的词向量;
Step2:将Step1中的问题和候选答案的词向量作为输入送入深度学习模型中,在深度学习模型中使用BiLSTM对其进行编码,生成问题特征向量和候选答案特征向量以及保存训练参数;
Step3:将目标域数据集中的问题以及候选答案集进行与Step1相同的预处理操作,得到词向量;然后将目标域数据集词向量作为输入送入深度学习模型中,在目标域采用与St...
【专利技术属性】
技术研发人员:苏磊,张顺,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。